Map out error hpe

Ошибки и проблемы серверов большой тройки: часть вторая. HP Мы продолжаем цикл публикаций о проблемах, с которыми сталкиваемся при подготовке refurbished-серверов. Ранее мы писали о серверах DELL, на этот раз речь пойдёт о продукции HP. Все эти проблемы решались нашими инженерами, и это лишь малая часть сюрпризов, которые могут преподнести серверы этого вендора. Однако, […]

Содержание

  1. Ошибки и проблемы серверов большой тройки: часть вторая. HP
  2. Оперативная память
  3. Накопители
  4. Процессоры
  5. Intelligent Provisioning и обновление сервера
  6. Не определяются сетевые адаптеры
  7. «Особенность» серверов HP DL360p Gen8
  8. Недостаточное количество блоков питания
  9. Ошибка управления через IPMI
  10. Хаотичная перезагрузка сервера
  11. Сбой после выключения сервера
  12. Сильный шум системы охлаждения
  13. Сброс конфигурации в серверах Gen8
  14. Установка второго рейд-контроллера в серверы Gen8 и Gen9
  15. Преимущества серверов HP

Ошибки и проблемы серверов большой тройки: часть вторая. HP

Мы продолжаем цикл публикаций о проблемах, с которыми сталкиваемся при подготовке refurbished-серверов. Ранее мы писали о серверах DELL, на этот раз речь пойдёт о продукции HP. Все эти проблемы решались нашими инженерами, и это лишь малая часть сюрпризов, которые могут преподнести серверы этого вендора. Однако, если вы самостоятельно занимаетесь обслуживанием серверов, то, возможно, наш опыт может вам пригодиться.

Оперативная память

При апгрейде серверов HP (да и не только) часто возникают трудности с подбором оперативной памяти. Как показывает практика, даже опытные сисадмины и инженеры не всегда сведущи в этом вопросе. Если по наитию устанавливать модули памяти, то, вероятнее всего, сервер просто не запустится. При неправильной конфигурации RAM возможен и более мягкий вариант: машина работает, но не с максимальной производительностью.

Для многопроцессорных серверов HP, как правило, необходимо использовать только регистровую память c функцией коррекции ошибок (ECC RDIMM), а для однопроцессорных — небуферизированную с ECC (UDIMM). Хотя официальные мануалы гласят, что UDIMM можно ставить и в многопроцессорные серверы, делать этого не стоит по нескольким причинам:

  1. Ограничение по объему памяти. Как правило это 24-32 Гб на CPU.
  2. Планки UDIMM, как правило, должны быть «родные» HP, иначе могут происходить самопроизвольные перезагрузки сервера. Это явление зафиксировано как минимум на трёх моделях: DL380p Gen8, DL360e Gen8, ML310e Gen8v2. В то же время, можно без проблем ставить RDIMM-память любого вендора.

Преимущество UDIMM памяти в том, что она работает несколько быстрее RDIMM, в которой присутствует буферная операционная задержка. Однако, при правильной конфигурации памяти в многоканальных системах RDIMM может превосходить небуферизированную память в производительности. Нельзя одновременно устанавливать RDIMM и UDIMM-модули.

Отличить UDIMM-память от RDIMM можно по наклейке. Например, если написано 12800R, то это регистровая память, если 12800E, то небуферизированная с ECC.

При установке RDIMM следует отдавать предпочтение одно- и двухранговой памяти (1rx4, 2rx4). В отличие от тех же IBM (Lenovo), серверы HP чувствительны к конфигурации памяти. При установке модулей рекомендуется равномерно распределять память как между процессорами сервера, так и между каналами. В противном случае сервер может просто не включиться, или его производительность окажется сниженной. Вольтаж планок в серверах HP не принципиален, но всё равно старайтесь устанавливать одинаковые по вольтажу планки.

Информация об оптимальном размещении RAM в DIMM-слотах всегда есть под крышкой сервера и в официальном мануале.

Обратите внимание, что серверы HP до Gen9 не поддерживают память DDR4. Поэтому сначала уточните, какая память совместима с вашей моделью. Для подбора правильной конфигурации можно воспользоваться фирменным онлайн-конфигуратором.

Когда речь заходит об апгрейде или ремонте серверов, то возникает вечный вопрос о производителе комплектующих. Кто-то использует исключительно оригинальные компоненты, не считаясь с расходами, а кто-то подбирает совместимые комплектующие от сторонних производителей. Мы считаем, что здесь нужно учитывать:

  • Степень совместимости сторонних комплектующих.
  • Разницу в стоимости по сравнению с оригинальными.
  • Информацию о надёжности сторонних комплектующих.
  • Уровень и допустимость рисков при использовании сторонних комплектующих.

В серверах HP можно без опасений использовать память разных производителей. Главное, чтобы модули имели одинаковые технические параметры. Например, если в сервере уже установлено несколько модулей 4Gb 1Rx4 PC3L-10600R, наращивать объём нужно с помощью памяти с такими-же параметрами. А производитель может быть любым.

Накопители

При выборе новых накопителей для сервера ошибиться труднее, чем при изменении конфигурации памяти. Но всё же здесь есть свои подводные камни и, отчасти, мифы.

Бытует мнение, что для серверов HP нужно покупать накопители исключительно того же производителя. Это обосновывают тем, что все накопители с логотипом HP имеют фирменную прошивку. В этом случае «родные» диски существенно дороже. И, честно, говоря, это сомнительное удовольствие переплачивать в 2-2.5 раза. Однако сама корпорация Hewlett-Packard не производит накопители, она заказывает их у других вендоров. И как показывает опыт, во многих моделях серверов HP вполне можно использовать продукцию HGST, Toshiba, Seagate, Western Digital.

При выборе накопителей уточните, какие накопители поддерживает Raid-контроллер вашего сервера. Некоторые контроллеры не поддерживают SAS-накопители, также могут не поддерживаться накопители объёмом более 2-3 Тб.

Если сервер не видит сторонний накопитель при его подключении, то чаще всего это связано с неисправностью самого накопителя или Raid-контроллера. Ещё одна немаловажная деталь: ни в коем случае не ставьте в enterprise-серверы диски для десктопных систем. Судя по нашему опыту, можно выделить несколько наиболее популярных моделей «неродных» дисков, которые без проблем будут работать на серверах от G7 до Gen9:

  • Seagate Savvio (SAS)
  • Seagate Constellation (SATA/SAS)
  • Seagate Enterprise Capacity (SATA/SAS)
    • Seagate Enterprise Performance (SATA)
    • WD VelociRaptor (SATA)

Процессоры

При замене процессоров на более мощные необходимо выяснить в спецификации сервера, какие модели процессоров он поддерживает. Не забывайте учитывать при этом поддерживаемое TDP радиатора и самого CPU. В большинстве случаев это помогает избежать возможных проблем.

Однако при наращивании количества процессоров ни в коем случае нельзя пренебрегать установкой кулеров на каждый из них, полагаясь на кондиционирование серверного помещения. Каждый вентилятор охлаждает определённые зоны на материнской плате. Без штатного охлаждения многократно повышается риск временного перегрева процессоров и оперативной памяти, вплоть до выхода сервера из строя вследствие расплавления или выгорания электронных компонентов.

После установки в сервер двух процессоров на порядок мощнее одного стокового он может не включиться. Например, в нашем случае это было с сервером HP ML350p Gen8. Причина в том, что у некоторых моделей на материнской плате есть предохранитель, блокирующий подачу питания, если требуемое напряжение превышает некий базовый порог. Если эта блокировка срабатывает, то единственным вариантом остаётся только замена материнской платы. Если сервер не на гарантии, то это может влететь в копеечку, так как HP славится немаленькими ценами за свои железки.

Однако есть методика обхода этой защиты. Допустим, вместо одного или двух процессоров начального уровня E5-2609 (v1/v2/v3) нужно установить два производительных E5-2690 (v1/v2/v3). Чтобы избежать проблем при апгрейде лучше всего поступить так:

  1. Обновить всё ПО до последних версий (iLO, BIOS, AHS и т.д.)
  2. Дождаться полной инициализации сервера с обоими установленными E5-2609.
  3. Установить два процессора «промежуточного» уровня, например, E5-2640. Дождаться окончания POST-проверки.
  4. И только после этого установить желаемые E5-2690.

Не забывайте при этом, что всё firmware должны быть последних версий.

Intelligent Provisioning и обновление сервера

В серверах HP ProLiant Gen8 и Gen9 используется мощный инструмент Intelligent Provisioning, позволяющий сконфигурировать сервер, обновить прошивки некоторых компонентов и контролировать «железную» часть машины. Иногда при попытке обновления выдаётся ошибка о невозможности подключения к базе данных HP. Причина заключается в устаревшей версии самой Intelligent Provisioning. Обновить её можно следующим образом:

  1. Для Gen8 скачайте образ Intelligent Provisioning recovery media версии 1.62b, а для Gen9 — самую свежую версию.
  2. Смонтируйте образ с помощью iLO или запишите на CD/DVD. Не записывайте образ на флешку, при запуске с неё Intelligent Provisioning не обновится.
  3. При загрузке сервера выберите опцию One Time Boot to CD-ROM.
  4. Когда сервер загрузится с диска (или образа), то в случае с Gen9 выберите в меню пункт Interactive HP Intelligent Provisioning recovery media. На сервере Gen8 обновление начнётся автоматически.
  5. На следующем экране нажмите кнопку Reinstall Intelligent Provisioning, дождитесь завершения и перезагрузитесь штатно (только для Gen9).

Многие владельцы серверов поколений Gen8 и 9 пытаются с помощью Intelligent Provisioning обновить BIOS. Но этот инструмент позволяет обновлять лишь прошивки iLO, сетевой карты (Ethernet) и в некоторых случаях — Raid-контроллера.

Есть два варианта полного обновления сервера.

  1. Вручную скачать и установить все необходимые драйверы и прошивки для вашей модели сервера. Этот вариант удобен, если сервер один и на нём уже есть ОС.
  2. Если серверов несколько и на них развёрнута Windows, то целесообразнее воспользоваться сервис-паком Service Pack for ProLiant (SPP).
    • Нужно скачать образ сервис-пака.
    • Установить программу HP USB Key Utility for Windows.
    • С помощью этой программы развёртываем образ сервис-пака на флешке объёмом не меньше 8 Гб.
    • Загружаем сервер с флешки. Рекомендуем выбрать Interactive Firmware Update, так можно контролировать процесс обновления.
    • После загрузки клиента выбираем Update Firmware. Когда оборудование будет проверено, система предложит список обновлений, которые будут установлены после нажатия на кнопку Deploy.
    • После завершения обновления необходимо перезагрузиться. Сервер несколько раз включится и выключится, устанавливая прошивки, после чего произойдёт штатная загрузка.

Не определяются сетевые адаптеры

Если обновить драйверы Emulex для сетевых адаптеров с версии 3.х.х сразу до версии 10.х.х, то при перезагрузке сетевые адаптеры могут перестать определяться. Для предотвращения этой проблемы рекомендуется сначала установить Emulex 4.х.х, а затем самую свежую версию. Избежать этой ошибки можно иначе: сначала обновиться с образа OneConnect, а затем с Service Pack for ProLiant. А если адаптеры уже перестали определяться, то просто обновитесь с образа OneConnect.

«Особенность» серверов HP DL360p Gen8

Изначально модель данной серии была рассчитана на процессоры E5-26xx первой ревизии, но в 2013 году Intel выпустила вторую итерацию — V2. Вендоры, в том числе HP, стали обновлять линейки. Dell и IBM не стали инженерно менять базу, лишь материнские платы стали носить другой парт номер. А в HP пошли другим путём. В итоге на рынке есть две модели HP DL360p, ничем не отличающиеся, за исключением крепежа радиаторов. В первой версии крепление рычажное, во второй — винтовое.

По сути, мелочь. Однако, может привезти к дополнительным расходам. Поэтому, если вы решите установить второй процессор, обязательно узнайте ревизию своего сервера (по серийнику, либо заглянув под крышку).
Парт номер старого рычажного радиатора — 654770-B21.
Парт номер нового винтового радиатора — 712731-B21.

Недостаточное количество блоков питания

Некоторые владельцы серверов HР с х4-бэкплейнами резервного питания (RPS), например, ML350 Gen9, недоумевают, почему для запуска машины требуется подключить не менее трёх блоков питания, чья суммарная мощность существенно превышает максимальное текущее потребление сервера.

Дело в том, что в ML350 Gen9 может быть установлено до 9 карт PCI-E и до 6 HDD-бэкплейнов (либо, к примеру, внутренний стример + 5 HDD-бэкплейнов). А всё это может потреблять очень много ватт. Бэкплейны RPS позволяют обеспечить избыточное питание сервера на случай резкого повышения нагрузки, а значит и потребления энергии. Подключение блоков питания к бэкплейну осуществляется по схеме N-1, где N — общее количество разъёмов. Если вам необходимо избыточное питание сервера, то блоки питания должны быть подключены ко всем разъёмам бэкплейна. Если избыточное питание не требуется, то для запуска сервера с х4-бэкплейном необходимо три блока питания, а с х2-бэкплейном — один блок.

Ошибка управления через IPMI

IPMI может использоваться для удалённого управления серверами. Возможны ситуации, когда не получается установить соединение со службой IPMI сервера:

ipmitool -I lanplus -H $ip -U $user -P $pass
Error: Unable to establish IPMI v2 / RMCP+ session

Причин может быть две:

  1. Служба отключена ради повышения безопасности: у IPMI v.2 есть потенциальная RAKP-уязвимость (Remote Password Hash Vulnerability). Нужно вновь включить службу.
  2. Используемый аккаунт не имеет прав администратора. В этом случае аккаунту нужно предоставить соответствующие права.

Хаотичная перезагрузка сервера

Эта проблема встречается редко, и выражается в хаотичной самостоятельной перезагрузке сервера. В логах ОС ошибок нет, логах iLO тоже обычно ничего критичного. В подобных ситуациях обычно не помогает обновление ПО, замена кабелей питания и ИБП. Проблема решается сменой настроек управления питанием в БИОСе сервера. Вкратце, отключаются все механизмы снижения тактовой частоты процессора:

  • Power Management Options —> HP Power Profile —> Maximum Performance
  • Power Management Options —> HP Power Regulator —> HP Static High Performance Mode
  • Power Management Options —> Advanced Power Management Options —> Collaborative Power Control —> Disabled
  • Power Management Options —> Advanced Power Management Options —> Minimum Processor Idle Power Core State —> No C-States
  • Power Management Options —> Advanced Power Management Options —> Minimum Processor Idle Power Package State —> No Package State

Сбой после выключения сервера

Мы сталкивались с несколькими случаями, когда при включении сервера светодиоды горят, но видеосигнал отсутствует. Машина не пингуется, iLO не отвечает, хотя по светодиодам отмечается активность iLO и Ethernet. Клавиатура и мышь не работают. Чаще всего такое случалось после штатного отключения сервера, без каких-либо манипуляций, без сбоев питания. Подобный сбой отмечался на серверах поколений от Gen5 до Gen8.

Точного решения этой проблемы, как и её причины, обнаружить пока не удалось. В одном случае помог перевод всех переключателей “System Maintenance Switch” в положение ON, а через некоторое время обратно в OFF. Однажды сервер ожил после того, как поменяли местами модули памяти. К сожалению, в нескольких случаях так и не удалось восстановить серверы.

Сильный шум системы охлаждения

Эта проблема чаще всего проявлялась в серверах ML350e Gen8. Сразу после включения сервера вентиляторы выходят на высокие обороты. Скорость вращения не снижается при любой нагрузке. В результате создаётся постоянный и высокий уровень шума.

В ряде случаев проблема решалась удалением PCI-E карт расширения: сетевых и USB-хабов. Но эта проблема встречалась и в серверах без установленных плат расширения. Несколько раз помог демонтаж и повторная установка всех вентиляторов и их корзин, с переподключением проводов питания. Однажды вентиляторы вернулись к нормальным оборотам после обновления прошивок и сброса iLO. Также был случай, когда в БИОСе изменилась настройка управления охлаждением, и оказалось достаточно поменять значение с Increased на Optimal Cooling.

Сброс конфигурации в серверах Gen8

Напоследок хотим рассказать не об ошибке, а о фиче серверов HP поколения Gen8 и Gen9: на материнских платах отсутствуют привычные джамперы сброса конфигурации. Если вам нужно воспользоваться сбросом, то это можно сделать следующим образом:

  1. Выключите сервер и выдерните шнур питания.
  2. Найдите на материнской плате группу маленьких переключателей “System Maintenance Switch” (см. изображение на внутренней стороне крышки сервера).
  3. С помощью тонкого инструмента — ручки, шила, иглы и т.п. — переведите переключатель №6 в положение ON.
  4. Подключите к серверу шнур питания.
  5. Если на экране появилось изображение и начался процесс сброса, дождитесь завершения процедуры NVRAM clear и перезапуска сервера. Если после подключения шнура питания на экране долго ничего не отображается, выключите сервер.
  6. Выключите сервер, вытащите шнур питания.
  7. Верните переключатель № 6 в положение OFF.

Установка второго рейд-контроллера в серверы Gen8 и Gen9

При установке второго рейд-контроллера (например, один рейд под системы, второй под данные) сервер может зависать на стадии загрузки ОС или не проходить POST. Чаще всего это происходит из-за неправильной boot-очереди.

Для решения проблемы нужно сделать следующую конфигурацию:

  • Рейд1 (например, встроенный P420i).
  • Рейд2 (софтовый или embedded-рейд, например B120i, P222i).
  • Рейд3 (аппаратный P420).

Преимущества серверов HP

Несправедливо было бы рассказывать только о проблемах серверов HP, ведь недаром продукция этого производителя пользуется высокой популярностью. Серверы серии Proliant считаются одними из лучших в своём классе, и уж точно запомнятся своей надёжностью, нежели отвалившимся iLO и несколько завышенной ценой. Именно HP зачастую задаёт планку в функциональности и отказоустойчивости серверов, предлагая нестандартные, но эффективные инженерные решения.

Вот лишь несколько преимуществ серверов HP:

  • Удобство использования благодаря фирменным фичам: iLO, Intelligent provisioning, Active Health System.
  • Удачная линейка бюджетных и высокопроизводительных моделей.
  • Ограниченная номенклатура «железа» (хотя для кого-то это недостаток) для каждой модели позволяет избежать нерациональных затрат при будущем апгрейде.
  • Отличная техподдержка.
  • Одна из лучших реализаций обновления встроенного ПО.
  • В Gen8 и Gen9 — лучшая реализация диагностических обозначений на салазках под HDD.

Если вы сталкивались с какими-то ошибками в серверах HP, но в конечном счёте победили, то делитесь в комментариях. Спасибо.

Источник

Profile picture for user Олег

RAM DIMM memory

Добавляли память в сервер, забили планками по 16 Гб все 24 слота. После загрузки словили несколько ошибок:

POST Error: 295-DIMM Failure — Uncorrectable Memory Error — Processor 2, DIMM 4. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory.

POST Error: 207-Memory initialization error on Processor 2, DIMM 4. The operating system may not have access to all of the memory installed in the system.

POST Error: 207-Memory initialization error on Processor 2, DIMM 1. The operating system may not have access to all of the memory installed in the system.

Битая память попадается достаточно редко. Подозрение вызывает то, что сразу две планки в состоянии degraded.

Попытались заменить указанные планки памяти — хрен там. Очень интересная ситуация. Стали играть в чехарду — менять планки местами. В итоге — вычислили проблемную планку. 

Итоговая картинка выглядела так:

hp

ILO видит все 24 планки. Некоторые помечены как degraded — верить этой информации нельзя. Все 6 планок у который не определяется minimum Voltage недоступны операционной системе и не определяются при загрузке.

Забегая вперёд, хочется сказать, дохлой оказалась планка у 2 процессора в 6 сокете (!). Остальные модули — в порядке.

Как диагностировать проблему:

  • В первую очередь, попытайтесь поменять местами неработающие модули. Если память не работает у первого процессора — подсуньте её второму процессору. Это позволит:
    • Просто «переткнуть» модули, что может исправить проблему.
    • Проверить, не в процессоре или материнке ли дело. Если после перемещения планок ситуация не изменилась — попробуйте поменять процессоры местами. Проблема может быть как в процессоре, так и в погнутых контактных площадках. 
  • Если есть запасная память — замените все проблемные модули. Если всё заработает, останется лишь найти проблемную планку.

У меня под рукой оказался второй сервер — донор рабочей оперативки.

Первым делом заменил все подозрительные модули памяти на явно рабочие — сервер увидел всю оперативку. Далее вытаскиваем у одного из процессоров из синего слота L (это шестой сокет) планку памяти. Начинаем по одной втыкать туда подозрительные модули и ждём когда всё сломается. На очередной загрузке я получил запечатлённую выше картинку — сбойный модуль был найден.

Если у вас другая модификация сервера — смотрите инструкцию на крышке. Там указан порядок втыкания памяти. Ваша задача — тестировать планки в последнем используемом слоте. Вариантов диагностики много — главное, не верить бездумно сообщениям сервера, работайте руками и головой.

Вот он, корень зла:

hp

Configuring memory remapping

Use the Memory Remap option to remap system memory that might be disabled due to a failure event,

such as an uncorrectable memory error.

Procedure

1. From the System Utilities screen, select System Configuration > BIOS/Platform Configuration

(RBSU) > Memory Options > Memory Remap.

2. Select a setting.

Remap All Memory—Makes all memory in the system available again on the next boot.

No Action—Leaves any affected memory unavailable to the system.

3. Save your setting.

Configuring Advanced Memory Protection

Use the Advanced Memory Protection option to configure additional memory protection with Error

Checking and Correcting (ECC). Advanced ECC Support provides the largest memory capacity to the

operating system, and is the required setting when NVDIMMs are installed on your server. Other options

are not supported when NVDIMMs are installed. Selecting one of the unsupported options when

NVDIMMs are installed generates messages that are displayed in the IML, and the NVDIMMs are

disabled until the configuration is set to Advanced ECC Support. When Advanced Memory Protection is

set to Advanced ECC Support, the Advanced Memory Protection option is hidden (greyed out) in the

menu.

Procedure

1. From the System Utilities screen, select System Configuration > BIOS/Platform Configuration

(RBSU) > Memory Options > Advanced Memory Protection.

2. Select a setting.

HPE Fast Fault Tolerant (ADDDC)—Enables the system to correct memory errors and continue to

operate in cases of multiple DRAM device failures on a DIMM. Provides protection against

uncorrectable memory errors beyond what is available with Advanced ECC.

Advanced ECC Support—Provides the largest memory capacity to the operating system while

protecting the system against all single-bit failures and some multi-bit failures.

Online Spare with Advanced ECC Support—Enables the system to automatically map out a

group of memory that is receiving excessive correctable memory errors. This memory is replaced

by a spare group of memory.

Mirrored Memory with Advanced ECC Support—Provides the maximum protection against

uncorrected memory errors that might otherwise result in a system failure. You must install

additional memory to provide mirrored memory to the operating system.

3. Save your settings.

Memory options

65

Понравилась статья? Поделить с друзьями:
  • Map fail gigabyte ошибка
  • Make sure that your antivirus software isn t blocking it как исправить
  • Manual feeder empty xerox 3225 как исправить
  • Mantle32 dll ошибка
  • Mantle32 dll как исправить