Post error 234 dimm initialization error cannot train memory

HP ProLiant DL360 Gen9 — Memory initialization error Продолжение эпопеи с ошибками памяти на сервере HP ProLiant DL360 Gen9. Только что вернулся из ЦОД, задача по расширению памяти сервера всё ещё не выполнена. Напоминаю, что в старый сервер HP ProLiant DL360 Gen9 было дополнительно воткнуто 8 планок DIMM по 16 ГБ каждая. После этого […]

Содержание

  1. HP ProLiant DL360 Gen9 — Memory initialization error
  2. Дубль два
  3. DIMM Failure — HPE Proliant Server
  4. UEFI/POST diagnostic codes
  5. Post error 234 dimm initialization error cannot train memory
  6. Award BIOS 6.0: полная загрузка
  7. Award BIOS 6.0: сокращенная загрузка

HP ProLiant DL360 Gen9 — Memory initialization error

Продолжение эпопеи с ошибками памяти на сервере HP ProLiant DL360 Gen9. Только что вернулся из ЦОД, задача по расширению памяти сервера всё ещё не выполнена.

Напоминаю, что в старый сервер HP ProLiant DL360 Gen9 было дополнительно воткнуто 8 планок DIMM по 16 ГБ каждая. После этого мы словили ошибку и вычислили сбойную память в 10 слоте второго процессора.

Сервер отключил битую планку памяти, и ещё две вместе с ней, которые висели на том же канале. Ясно было, что планку нужно менять. Поскольку мы планировали расширять память на нескольких серверах, то памяти купили много, запасные планки есть. Вот я и поехал, а перед поездкой взял с собой все новые планки, чтобы их тоже проверить. А если вся партия битая, возможно, там ещё есть нерабочие планки? Редкость, конечно. Но беру всё.

Дубль два

Приезжаю в ЦОД, открываю сервер. Нахожу десятый слот второго процессора, благо все слоты подписаны на материнке. И на крышке схема есть.

Битую планку извлекаю, сразу наклеиваю на неё наклейку и помечаю DEF — defective. Вместо неё ставлю новую планку. Затем извлекаю все 16 планок, которые в сервере стояли изначально. Они явно рабочие, откладываю в сторонку.

Все пустые слоты забиваю новыми планками. Нужно же мне проверить эту партию.

Вся память не влезла. Нужно будет потом её тоже проверить. Собираем сервер обратно и включаем.

EVENT (30 Sep 13:21): POST Error: 207-Memory initialization error on Processor 1, DIMM 12. The operating system may not have access to all of the memory installed in the system.

EVENT (30 Sep 16:21): POST Error: 295-DIMM Failure — Uncorrectable Memory Error — Processor 1, DIMM 12. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory.

Теперь уже первый процессор, 12 слот.

Вот так бывает. В закупленной партии уже две битые планки. Ошибка точно такая же. Сервер также отключил битую планку и две на том же канале. Зато на втором процессоре теперь полный рабочий комплект.

Извлекаю вторую битую планку, меняю на новую.

В итоге я не поленился, проверил все планки, которые взял с собой. К счастью, в партии оказалось только две неисправных планки памяти. Но это не точно. Потому что в первый раз сервер тоже показал что всё нормально, а потом память отвалилась под нагрузкой.

Запускаю встроенную диагностическую утилиту.

Запускаю мгновенную проверку памяти.

Утилита пишет, что мгновенная проверка памяти выполняется за 3 минуты, не верьте ей. У меня ушло минут 15. В итоге: Мгновенная проверка памяти: УДАЧНО. Проверено 383 Гб. Всё в норме.

Перед уходом запускаю быструю проверку памяти.

Утилита пишет, что быстрая проверка памяти выполняется за 10 минут, не верьте ей. Прошло два с половиной часа.

Выполнено 13%. Если прикинуть, то быстрая проверка займёт 1154 минуты. Сутки. А ведь есть ещё полная проверка, не стану её запускать. Оставляю утилиту работать, завтра попытаюсь запустить сервер в бой, если память не накроется.

Если у вас есть возможность проверить закупленное оборудование, то сделайте это.

Быстрая проверка памяти: УДАЧНО. Проверено 383 Гб. Всё в норме.

Источник

DIMM Failure — HPE Proliant Server

Добавляли память в сервер, забили планками по 16 Гб все 24 слота. После загрузки словили несколько ошибок:

POST Error: 295-DIMM Failure — Uncorrectable Memory Error — Processor 2, DIMM 4. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory.

POST Error: 207-Memory initialization error on Processor 2, DIMM 4. The operating system may not have access to all of the memory installed in the system.

POST Error: 207-Memory initialization error on Processor 2, DIMM 1. The operating system may not have access to all of the memory installed in the system.

Битая память попадается достаточно редко. Подозрение вызывает то, что сразу две планки в состоянии degraded.

Попытались заменить указанные планки памяти — хрен там. Очень интересная ситуация. Стали играть в чехарду — менять планки местами. В итоге — вычислили проблемную планку.

Итоговая картинка выглядела так:

ILO видит все 24 планки. Некоторые помечены как degraded — верить этой информации нельзя. Все 6 планок у который не определяется minimum Voltage недоступны операционной системе и не определяются при загрузке.

Забегая вперёд, хочется сказать, дохлой оказалась планка у 2 процессора в 6 сокете (!). Остальные модули — в порядке.

Как диагностировать проблему:

  • В первую очередь, попытайтесь поменять местами неработающие модули. Если память не работает у первого процессора — подсуньте её второму процессору. Это позволит:
    • Просто «переткнуть» модули, что может исправить проблему.
    • Проверить, не в процессоре или материнке ли дело. Если после перемещения планок ситуация не изменилась — попробуйте поменять процессоры местами. Проблема может быть как в процессоре, так и в погнутых контактных площадках.
  • Если есть запасная память — замените все проблемные модули. Если всё заработает, останется лишь найти проблемную планку.

У меня под рукой оказался второй сервер — донор рабочей оперативки.

Первым делом заменил все подозрительные модули памяти на явно рабочие — сервер увидел всю оперативку. Далее вытаскиваем у одного из процессоров из синего слота L (это шестой сокет) планку памяти. Начинаем по одной втыкать туда подозрительные модули и ждём когда всё сломается. На очередной загрузке я получил запечатлённую выше картинку — сбойный модуль был найден.

Если у вас другая модификация сервера — смотрите инструкцию на крышке. Там указан порядок втыкания памяти. Ваша задача — тестировать планки в последнем используемом слоте. Вариантов диагностики много — главное, не верить бездумно сообщениям сервера, работайте руками и головой.

Источник

UEFI/POST diagnostic codes

UEFI/POST diagnostic error codes can be generated when the server starts or while the server is running. UEFI/POST codes are logged in the IMM event log in the server.

For each event code, the following fields are displayed:

Event identifier An identifier that uniquely identifies an event. Event description The logged message string that appears for an event. Explanation Additional information to explain why the event occurred. Severity An indication of the level of concern for the condition. The severity is abbreviated in the event log to the first character. The following severities can be displayed.

Severity Description Informational An informational message is something that was recorded for audit purposes, usually a user action or a change of states that is normal behavior. Warning A warning is not as severe as an error, but if possible, the condition should be corrected before it becomes an error. It might also be a condition that requires additional monitoring or maintenance. Error An error typically indicates a failure or critical condition that impairs service or an expected function.

Perform the steps in the order shown until the problem is solved. After you perform all of the actions that are described in this field, if you cannot solve the problem, contact Lenovo Support.

Booting server to F1 setup menu In additional to the normal process in booting the server to the F1 setup menu (pressing F1 when is displayed), there are two other ways for users to choose.

  • Method 1
    1. Proceed to the IMM2 website.
    2. Select Server Management tab.
    3. Select Server Power Action.
    4. Select Boot Server to F1 Setup.

Use Advanced Settings Utility (ASU) program. Command line is shown as follows: asu.exe set IMM.ForceBootToUefi enable

The following is the list of the UEFI/POST error codes and suggested actions to correct the detected problems.

Источник

Post error 234 dimm initialization error cannot train memory

Award BIOS 6.0: полная загрузка

Данная таблица содержит POST-коды, которые отображаются при полной процедуре POST.

  • CF Определяется тип процессора и тестируется чтение/запись CMOS
  • C0 Предварительно инициализируется чипсет и L1-, L2-кэш, программируется контроллер прерываний, DMA, таймер
  • C1 Детектируется тип и объем оперативной памяти
  • C3 Код BIOS распаковывается во временную область оперативной памяти
  • 0С Проверяются контрольные суммы BIOS
  • C5 Код BIOS копируется в теневую память и управление передается модулю Boot Block
  • 01 Модуль XGROUP распаковывается по физическому адресу 1000:0000h
  • 02 Инициализация процессора. Устанавливаются регистры CR и MSR
  • 03 Определяются ресурсы ввода/вывода (Super I/O)
  • 05 Очищается экран и флаг состояния CMOS
  • 06 Проверяется сопроцессор
  • 07 Определяется и тестируется контроллер клавиатуры
  • 08 Определяется интерфейс клавиатуры
  • 09 Инициализация контроллера Serial ATA
  • OA Определяется клавиатура и мышь, которые подключены к портам PS/2
  • 0B Устанавливаются ресурсы звукового контроллера AC97
  • OE Тестируется сегмент памяти F000h
  • 10 Определяется тип flash-памяти
  • 12 Тестируется CMOS
  • 14 Устанавливаются значения для регистров чипсета
  • 16 Первично инициализируется тактовый генератор
  • 18 Определяется тип процессора, его параметры и объемы кэша L1 и L2
  • 1B Инициализируется таблица векторов прерываний
  • 1С Проверяются контрольные суммы CMOS и напряжение питания аккумулятора
  • 1D Определяется система управления питанием Power Management
  • 1F Загружается матрица клавиатуры (для ноутбуков)
  • 21 Инициализируется система Hardware Power Management (для ноутбуков)
  • 23 Тестируется математический сопроцессор, дисковод, инициализация чипсета
  • 24 Обновляется микрокод процессора. Создается карта распределения ресурсов устройств Plug and Play
  • 25 Начальная инициализация PCI: перечисляются устройства, поиск адаптера VGA, запись VGA BIOS по адресу C000:0
  • 26 Устанавливается тактовая частота по CMOS Setup. Отключается синхронизация неиспользуемых слотов DIMM и PCI. Инициализируется система мониторинга (H/W Monitor)
  • 27 Разрешается прерывание INT 09h. Снова инициализируется контроллер клавиатуры
  • 29 Программируются регистры MTRR, инициализируется APIC. Программируется контроллер IDE. Измеряется частота процессора. Вызывается расширение BIOS видеосистемы
  • 2B Поиск BIOS видеоадаптера
  • 2D Отображается заставка Award, информация о типе процессора и его скорости
  • 33 Сбрасывается клавиатура
  • 35 Тестируется первый канал DMA
  • 37 Тестируется второй канал DMA
  • 39 Тестируются страничные регистры DMA
  • 3C Настраивается контроллер 8254 (таймер)
  • 3E Проверка контроллера прерываний 8259
  • 43 Проверяется контроллер прерываний
  • 47 Тестируются шины ISA/EISA
  • 49 Вычисляется объем оперативной памяти. Настраиваются регистры для процессора AMD K5
  • 4E Программируются регистры MTRR для процессоров Syrix. Инициализируются кэш L2 и APIC
  • 50 Определяется шина USB
  • 52 Тестируется ОЗУ с отображением результатов. Очищается расширенная память
  • 53 Если выполнена очистка CMOS, то сбрасывается пароль на вход в систему
  • 55 Отображается количество процессоров (для многопроцессорных платформ)
  • 57 Отображается логотип EPA. Начальная инициализация устройств ISA PnP
  • 59 Определяется система защиты от вирусов
  • 5B Вывод подсказки для запуска обновления BIOS с дискеты
  • 5D Запускается контроллер Super I/O и интегрированный аудиоконтроллер
  • 60 Вход в CMOS Setup, если была нажата клавиша Delete
  • 65 Инициализируется мышь PS/2
  • 69 Включается кэш L2
  • 6B Настраиваются регистры чипсета согласно BIOS Setup
  • 6D Назначаются ресурсы для устройств ISA PnP и COM-порты для интегрированных устройств
  • 6F Инициализируется и настраивается контроллер гибких дисков
  • 75 Детектируются и устанавливаются IDE-устройства: жесткие диски, CD/DVD, LS-120, ZIP и др.
  • 76 Выводится информация об обнаруженных IDE-устройствах
  • 77 Инициализируются последовательные и параллельные порты
  • 7A Сбрасывается и готовится к работе математический сопроцессор
  • 7C Определяется защита от несанкционированной записи на жесткие диски
  • 7F При наличии ошибок выводится сообщение и ожидается нажатие клавиш Delete и F1
  • 82 Выделяется память для управления питанием и заносятся изменения в таблицу ESCD.
  • Убирается заставка с логотипом EPA. Запрашивается пароль, если нужен
  • 83 Все данные сохраняются из временного стека в CMOS
  • 84 Вывод на экран сообщения Initializing Plug and Play Cards
  • 85 Завершается инициализация USB
  • 87 Создаются таблицы SYSID в области DMI
  • 89 Устанавливаются таблицы ACPI. Назначаются прерывания для PCI-устройств
  • 8B Вызывается BIOS дополнительных ISA- или PCI-контроллеров, за исключением видеоадаптера
  • 8D Устанавливаются параметры контроля четности ОЗУ по CMOS Setup. Инициализируется APM
  • 8F IRQ 12 разрешается для «горячего» подключения мыши PS/2
  • 94 Завершение инициализации чипсета. Отображение таблицы распределения ресурсов. Включение кэша L2. Установка режима перехода на летнее/зимнее время
  • 95 Устанавливается частота автоповтора клавиатуры и состояния Num Lock
  • 96 Для многопроцессорных систем настраиваются регистры (для процессоров Cyrix). Создается таблица ESCD. Устанавливается таймер DOS Time по показаниям часов RTC CMOS. Сохраняются разделы загрузочных устройств для использования встроенным антивирусом. Динамик оповещает об окончании POST. Создается таблица MSIRQ FF Выполняется прерывание BIOS INT 19h. Поиск загрузчика в первом секторе загрузочного устройства

Award BIOS 6.0: сокращенная загрузка

Сокращенная процедура выполняется при установке в BIOS параметра Quick Power On Self Test.

  • 65 Сбрасывается видеоадаптер. Инициализируются звуковой контроллер, устройства ввода/вывода,тестируется клавиатура и мышь. Проверяется целостность BIOS
  • 66 Инициализируется кэш-память. Создается таблица векторов прерываний. Инициализируется система управления питанием
  • 67 Проверяется контрольная сумма CMOS и тестируется батарейка питания. Настраивается чипсет на основе параметров CMOS
  • 68 Инициализируется видеоадаптер
  • 69 Настраивается контроллер прерываний
  • 6A Тестируется оперативная память (ускоренно)
  • 6B Отображается логотип EPA, результаты тестов процессора и памяти
  • 70 Отображается подсказка для входа в BIOS Setup. Инициализируется мышь, подключенная к PS/2 или USB
  • 71 Инициализируется контроллер кэш-памяти
  • 72 Настраиваются регистры чипсета. Создается список устройств Plug and Play.& Инициализируется контроллер дисковода
  • 73 Инициализируется контроллер жестких дисков
  • 74 Инициализируется сопроцессор
  • 75 Если нужно, жесткий диск защищается от записи
  • 77 Если нужно, запрашивается пароль и выводятся сообщения Press F1 to continue, DEL to enter Setup
  • 78 Инициализируются платы расширения с собственной BIOS
  • 79 Инициализируются ресурсы платформы
  • 7A Генерируются корневая таблица RSDT, таблицы устройств DSDT, FADT и т. п.
  • 7D Собирается информациия о разделах загрузочных устройств
  • 7E BIOS готовится к загрузке операционной системы
  • 7F Состояние индикатора NumLock устанавливается в соответствии с настройками
  • BIOS Setup
  • 80 Вызывается INT 19 и запускается операционная система
  • FF Загрузка операционной системы

Источник

  • #1

Есть сервер Сервер HPE ProLiant DL380 Gen10, 2 x 26-core Intel Xeon-Platinum 8164 2, 0 GHz, 24 x 32 GB RAM, 1 х 3, 2 TB SSD, 4 х 12 TB HDD, 10Gb 2-port 562FLR-SFP+ Adapter, 2 х 800.
Необходимо поменятm местами проц 1 и 2. Есть ли какие то нюансы, которые нужно знать, когда я начну снимать процы? Как они там крепятся? Есть какой то порядок закручивания винтов? Кто сталкивался?

Последнее редактирование модератором: 05.04.2019

  • #2

а зачем проц менять местами?? он от этого быстрее работать не будет:upset:

DOC

DOC

Активный участник


  • #3

Есть сервер Сервер HPE ProLiant DL380 Gen10, 2 x 26-core Intel Xeon-Platinum 8164 2, 0 GHz, 24 x 32 GB RAM, 1 х 3, 2 TB SSD, 4 х 12 TB HDD, 10Gb 2-port 562FLR-SFP+ Adapter, 2 х 800.
Необходимо поменятm местами проц 1 и 2. Есть ли какие то нюансы, которые нужно знать, когда я начну снимать процы? Как они там крепятся? Есть какой то порядок закручивания винтов? Кто сталкивался?

да вроде все как обычно должно быть

  • #4

Комментарий он HP:В AHS логе зафиксировано несколько ошибок на Caution,226,2760,0×0032,Early ROM POST,0x0233,Hardware,03/28/2019 13:22:07:00,544: DIMM Initialization Error — Processor 2 Channel 3. The identified memory channel could not be properly trained and has been mapped out. (Major Code:00000026, Minor Code:00000001). ACTION:Re-seat the DIMMs in the identified channel and update the System ROM. If the issue persists, contact support.

Если замена планки памяти не помогла, просьба поменять CPU1 и CPU2 местами и проверить перейдет ошибка вместе с процессором.

Если и это не поможет, предложили поменять плату.

  • #5

В мануале:
Using a T-30 Torx screwdriver, fully tighten each heatsink nut in the order indicated on the heatsink
label (1 -2 -3 -4) until it no longer turns.
If installing a second processor, install high-performance fans in bays 7 and 8. These fans are provided
with the processor option kit.
9. Install the access panel (Installing the access panel on page 25).
10. Install the server in the rack.
11. Connect each power cord to the server.

Remove the existing processor heatsink assembly:
a. Allow the heatsink to cool.
b. Using a T-30 Torx screwdriver, loosen the heatsink nuts.
Lift the processor heatsink assembly up and away from the system board.
d. Turn the processor heatsink assembly over and place it on a work surface with the processor
assembly facing up.
8. Release the thermal grease adhesion between the processor assembly and heatsink:
a. Locate the TIM (thermal interface media) breaker slot between the processor assembly and heatsink.
The slot is across from the Pin 1 indicator, near the corner.
b. Insert a 1/4″ flat blade screwdriver or nonconductive tool into the slot.

Означает, что нужно откручивать в строгой последовательности….Отсюда вопрос — на что это влияет?

  • #6

страница 125 и далее — снятие cpu. по идее пофигу, не должно ни на что влиять. думаю просто мера предосторожности что бы не повредить cpu и кристалл

  • #8

Всё, поменяла местами, эффекта нет, ждем материнскую плату.

Surf_rider


Surf_rider


  • #10

Re-seat the DIMMs in the identified channel and update the System ROM

Прошивку обновить может?

  • #12

Вообщем замена платы ситуацию не изменило. Вот думаю, взять два проца из работающего сервера и поместить в неработающий чтобы исключить их… Есть еще предложения?

Surf_rider


  • #13

Вообщем замена платы ситуацию не изменило. Вот думаю, взять два проца из работающего сервера и поместить в неработающий чтобы исключить их… Есть еще предложения?

Вытащить 1 проц. Проверить. Потом другой.

Surf_rider


  • #14

Попробовать с 1 процом запуститься

  • #15

Попробовать с 1 процом запуститься

я бы и с оперативкой попробовал

Surf_rider


  • #17

Remove and then reinstall the DIMMs in the specified channel.

[h=4]234-DIMM Initialization Error – Memory cannot be initialized[/h]
Symptom

234-DIMM Initialization Error – Memory cannot be initialized. Action: Re-seat DIMMs. If issue persists, re-seat processors. If issue still persists, contact HP service. System halted.

Cause

  • DIMMs are not seated correctly.
  • Processors are not seated correctly.

Action

  1. Reseat the DIMMs.

    For more information, see the server maintenance and service guide on the Hewlett Packard Enterprise website.

    35928.png

    CAUTION:Before removing or replacing any processors, be sure to follow the processor troubleshooting guidelines in «Performing Processor Procedures in the Troubleshooting Process» in the HPE ProLiant Gen9 Troubleshooting Guide, Volume I: Troubleshooting. Failure to follow the recommended guidelines can cause damage to the system board, requiring replacement of the system board.
  2. If the issue persists, reseat the processors.
  3. If the issue persists, contact Hewlett Packard Enterprise support. For more information, see «Accessing Hewlett Packard Enterprise support.»

Последнее редактирование: 12.04.2019

Surf_rider


  • #18

ну это и так понятно было. Можно попробовать заявиться по care pack или гарантии если есть.

  • #19

как запустить сервер с одним процессором?Help

  • #20

как его запустить с один? вытащить его и все модули памяти?

Автор Сообщение
 

СообщениеДобавлено: 31.07.2020 20:55 

[профиль]

Member

Статус: Не в сети
Регистрация: 03.10.2019

toliyn19 именно.


_________________
R9 5900X / Asrock X470 Taichi agesa 1.2.0.3c / 32Gb F4-3200C14D-16GFX 3800 14-14-14-28 1,552V / Vega64 Nitro+ / 3440×1440 100Hz

Реклама

Партнер
 
toliyn19

Member

Статус: Не в сети
Регистрация: 31.01.2011
Откуда: Тамбов
Фото: 10

Hro Спасибо. Остается вопрос к форумчанам какой биос стабильный на Taichi х370 под Zen2/


_________________
Ryzen 3700X, Taichi 370X(6.20), Patriot Viper PVL 3733 16-16-17-16-34,2070S Gaming X Trio, Fuma 2.

 
AwortS

Junior

Статус: Не в сети
Регистрация: 30.06.2020

Yeart писал(а):

Обновил биос на В450м про4 и сразу слетел xmp профиль оперативки на 3600 и в никакую не грузиться. пришлось ставить снова 3.90 и все ок.

Тоже обновлял биос на Asrok B450 SL. повелся на вот этот пункт в опоисании новой прошивки 3. Improve memory compatibility. В итоге разогнаная до 3600 память перестала нормально работать. Откатился обратно на версию 3,20. Все опять нормально работает.

 
y66429

Junior

Статус: Не в сети
Регистрация: 11.04.2015

Добрый день.
Спустя 3 месяца Taichi X570 + 3900 перестали «заводиться» с двумя плашками по 16Гб Crucial 3200. Помогает только установка обоих модулей во второй канал. Если модуль в 1 канале, то выводит «Memory PMU Training error at socket 0 channel 0 DIMM 1».
Нашел на тест модули 4Гб 2400, пробовал ставить 1,2 и все 4 модуля — заводится только если есть модули во втором канале, остальные BIOS не «включает», хотя их видно если зайти в детали DRAM и зайти в нужный слот.
Микс из этих и моих 3200, естественно на нижней частоте 2400, перестановка между слотами — аналогично, материнка видит все модули, но «включает» и соответственно в Windows доступно только то, что во втором канале.
Обновление BIOS с 2.80 на 3.00, как и сброс, как и вынос на внешний стенд — память не «заводится», та, что есть в 1 канале.

Есть смысл искать кого-то с процессором или относить свой или МП проверить?
Или сразу сдавать МП по гарантии?
Или это контроллер памяти в 3900 накрылся и менять по гарантии его?

 
Hro

Member

Статус: Не в сети
Регистрация: 03.10.2019

y66429 я бы поставил другой проц в плату. Сразу будет понятно кто виноват.

Добавлено спустя 3 минуты 53 секунды:
либо неси плату с процом и памятью в сервис, пусть это сделают там.


_________________
R9 5900X / Asrock X470 Taichi agesa 1.2.0.3c / 32Gb F4-3200C14D-16GFX 3800 14-14-14-28 1,552V / Vega64 Nitro+ / 3440×1440 100Hz

 
ihavenomoney

Junior

Статус: Не в сети
Регистрация: 03.08.2020

Мать ASRock B450M Pro4
Проц Ryzen 3600
ОЗУ 2 штуки Ballistix BL2K8G36C16U4W, в 2 и 4 слотах.
Кулер Gammax 400

При включении XMP профиля оперативы кулер начинает громко гудеть, сам начинает крутится на 100% при любой нагрузке на проц, завывает волнами.
Не важно при этом, установлен ли пресет кулера (silent/performance/standard/configure, ставить че то кроме silent там смысла нет, ибо слишком громко, поставил в итоге configure и сам настроил кривую для кулера). Кривую он игнорирует и крутится как ему хочется.
Если настроить вольтаж и тайминги ручками вместо выставления XMP, все так же.
Кулер перестает неадекватно крутится только если выставить auto в настройках оперативы в биосе на всем. Ну ауто частоты в 2666, высокие тайминги и все прочее с вольтажом в 1.2.

Че делать? Как мне включить XMP профиль и чтобы при этом кулер не гудел?

 
y66429

Junior

Статус: Не в сети
Регистрация: 11.04.2015

Hro писал(а):

я бы поставил другой проц в плату

видимо остается искать соседей, знакомых с АМ4 ЦП, т.к МП, ЦП и память покупал в разных местах.
Думал, уже есть понимание, из-за чего такие сбои бывают.

 
Stormik

Junior

Статус: Не в сети
Регистрация: 28.11.2019

Привет всем,кто в курсе что в биосе v4.20 исправлено?
У меня x470 Taichi на v3.60,ставил 3.90,но там температуры с процессором были не реальные,если поставить 4.20 ниже будут? сейчас в простое от 35-50 прыгает,или понизить вольтаж процессора лучше принудительно до 1.35?


_________________
ryzen 5 3600x; ASRock x470 Taichi; msi 2070 super gaming x trio; БП-Gamerstorm dq650-m; ballistix sport lt 3000Mhz 2x8gb; be quiet dark rock 4

 
DenisCh

Junior

Статус: Не в сети
Регистрация: 05.11.2019

aLeX171 писал(а):

Asrock b450m pro4
Почему напряжение dram не получается поставить выше 1.350? Ставлю выше и мне автоматом скидывают на 1.350?

Там шаг выше — 0,05, после 1,35 можно только сразу 1,4.

Добавлено спустя 3 минуты 29 секунд:

aLeX171 писал(а):

Мне непонятно почему напряжение dram красным цветом подсвечено

Красныи подсвечено, потому что типо выше нормы стандарта 1,2.. типо предупреждения, даже несмотря на xmp


_________________
Ryzen 2600x
DEEPCOOL GAMMAXX 400
ASRock b450m pro4
Sapphire Pulse Rx570 8gb
G.skill 3000cl16 2x8gb=> 3400 (16-17-18-18)
be quiet spower 9 600w

 
Endeavour

Member

Статус: Не в сети
Регистрация: 13.06.2016

На таичи (думаю на другие платы тоже) вышли новые биосы (4.10, 4.20) кто нибудь пробовал их с зен1/зен+??

И можно ли будет откатиться с 4.10/4.20 на 3.хх???

 
Hro

Member

Статус: Не в сети
Регистрация: 03.10.2019

Endeavour
я пробовал. 4.10-4.11-4.20. В итоге вернул 3.94. С агесой 006 даже хмп вылетает в играх, в разгоне 3333 синяк в тестмем. С 004 всё стабильно.

В принципе смотри сам, откатить можно.


_________________
R9 5900X / Asrock X470 Taichi agesa 1.2.0.3c / 32Gb F4-3200C14D-16GFX 3800 14-14-14-28 1,552V / Vega64 Nitro+ / 3440×1440 100Hz

 
Stormik

Junior

Статус: Не в сети
Регистрация: 28.11.2019

Hro писал(а):

Endeavour
я пробовал. 4.10-4.11-4.20. В итоге вернул 3.94. С агесой 006 даже хмп вылетает в играх, в разгоне 3333 синяк в тестмем. С 004 всё стабильно.

В принципе смотри сам, откатить можно.

Это асрок рукожопые? Или все таки что то ещё, почему нет нормального Биоса то на платы этой фирмы? У меня так то и на 3.90 проблемы были с xmp профилем…


_________________
ryzen 5 3600x; ASRock x470 Taichi; msi 2070 super gaming x trio; БП-Gamerstorm dq650-m; ballistix sport lt 3000Mhz 2x8gb; be quiet dark rock 4

 
Endeavour

Member

Статус: Не в сети
Регистрация: 13.06.2016

Hro писал(а):

4.11

Hro писал(а):

3.94

а разве такие биосы вообще есть для таичи?

 
CplCat

Junior

Статус: Не в сети
Регистрация: 04.05.2018

Всем привет. Наверняка здесь уже было обсуждение этого вопроса, но все же спрошу. Есть мп asrock b450m pro4, биос 3.30. Проблема в том, что у нее очень плохое качество звука, он очень тихий, а в некоторых играх он вообще иногда имеет свойства пропадать на пару секунд. Характерный пример на видео после 30й секунды

. Пробовал и передние и задние разъемы, эффект тот же. Драйвера на звук тоже пробовал самые разные ставить. В чем может быть проблема? Может мне досталась бракованная мать?


_________________
1. Intel 6700 — m8h — gammax 300 — 2×8 crucial aesbk 3600 — gtx 1070 g1.
2. Ryzen 2600 — asrock b450m pro4 — 2×8 crucial aesbk 3400 -gtx 1660 armor

 
Sever1n

Member

Статус: Не в сети
Регистрация: 10.01.2008

Приветствую, господа. Спустя много лет на интеле наконец-то перекатился на райзен, для «пересидки» взял 3300x, b550 extreme4, tridentz 2×8 3600 CL16, всем доволен, НО
я не могу завести комп с xmp профилем 3600. Исследования привели к тому, что это из-за фабрики в авто, на частоте 3466 все стартует хорошо, на 3600 посткод валит ошибку 07 (память).
Если вручную зафиксировать фабрику на 1733, то машина стартует даже с памятью 3800 и проходит тесты, но есть второе «НО» — если я вручную ставлю фабрику, то в винде она отображается в два раза меньше, чем я выставил. С авто такой истории нет, и фабрика = частоте рам 2, а если ставить фабрику вручную, то я получаю частоту рам 4, соответственно мемори латенси огромный в аиде и тд, не понимаю, как так работает?
Хочется получить разъяснение — что подкрутить, чтобы завелся хмр профиль, и как работает ручная фиксация фабрики? Спасибо

aida показывает частоту фабрики как north bridge, насколько я понял. вот в авто там при памяти 3466 будет 1733, а если я вручную поставлю 1733 фабрику — в аиде будет 17332

 
XEN0M0RPH

Junior

Статус: Не в сети
Регистрация: 29.10.2006
Откуда: Подольск
Фото: 6

Sever1n писал(а):

Приветствую, господа. Спустя много лет на интеле наконец-то перекатился на райзен, для «пересидки» взял 3300x, b550 extreme4, tridentz 2×8 3600 CL16, всем доволен, НО
я не могу завести комп с xmp профилем 3600. Исследования привели к тому, что это из-за фабрики в авто, на частоте 3466 все стартует хорошо, на 3600 посткод валит ошибку 07 (память).
Если вручную зафиксировать фабрику на 1733, то машина стартует даже с памятью 3800 и проходит тесты, но есть второе «НО» — если я вручную ставлю фабрику, то в винде она отображается в два раза меньше, чем я выставил. С авто такой истории нет, и фабрика = частоте рам 2, а если ставить фабрику вручную, то я получаю частоту рам 4, соответственно мемори латенси огромный в аиде и тд, не понимаю, как так работает?
Хочется получить разъяснение — что подкрутить, чтобы завелся хмр профиль, и как работает ручная фиксация фабрики? Спасибо

aida показывает частоту фабрики как north bridge, насколько я понял. вот в авто там при памяти 3466 будет 1733, а если я вручную поставлю 1733 фабрику — в аиде будет 17332

Сам мучаюсь с b550 pg velocita, с частотами шины всё понятно, если прочитать гайд по разгону Ryzen. Но то что касается именно asrock, при разгоне памяти выше 3466, начинают происходить неадекватные вещи с напряжениями, причина в напряжение VTT DDR, оно должно быть 0.5(0,675v) от vDDR(1,35v), но при переходе через частоту 3466 оно взлетает до 0.92v, что приводит к нестабильной работе, управление этим напряжением предусмотрено только через оффсеты, и какое значение не ставь, напряжение удается понизить только до 0.88v.

 
Sever1n

Member

Статус: Не в сети
Регистрация: 10.01.2008

XEN0M0RPH, видимо, придется ждать новых биосов — вчера сколько ни ковырялся, райзен драм калькулятор мне не помог, ни сэйф, ни фаст пресет, либо бутлуп, либо посткод 07 или 27, и 3466 это максимум для стабильной работы. Печаль.

 
DemonAk

Member

Статус: Не в сети
Регистрация: 30.11.2008
Откуда: Екатеринбург
Фото: 61

XEN0M0RPH писал(а):

Сам мучаюсь с b550 pg velocita, с частотами шины всё понятно, если прочитать гайд по разгону Ryzen. Но то что касается именно asrock, при разгоне памяти выше 3466, начинают происходить неадекватные вещи с напряжениями, причина в напряжение VTT DDR, оно должно быть 0.5(0,675v) от vDDR(1,35v), но при переходе через частоту 3466 оно взлетает до 0.92v, что приводит к нестабильной работе, управление этим напряжением предусмотрено только через оффсеты, и какое значение не ставь, напряжение удается понизить только до 0.88v.

Недавно пересел на b550 taichi и тоже был удивлен что VTT DDR можно менять только офсетом, хотя на предыдущей плате x370 taichi можно было задать вручную нужное напряжение. Для наших плат есть новые бета биосы 1.15A , но не думаю что там что то исправили с VTT DDR, только добавили удаленные опции, сам еще не ставил. Сейчас в разгоне память на 3533Мгц (не уверен в полностью стабильной работе т.к бывают какие то рандом ребуты/бсоды, хотя тесты памяти проходит, возможно как раз таки из за неадекватного вольтажа на VTT), VTT DDR в auto и судя по HWINFO, если не ошибаюсь, VTT кажет 0.904v. Стабилизировать на 3600Мгц не могу, перепробовал много вариантов, один раз тест проходит, а после перезагрузки снова ошибки.

Посмотрел еще раз HWINFO и там есть датчики VTT — 0.904v и VIN9 — 0.680v, но как бы офсет на VTT DDR не задавал они не меняются. Единственное, когда задал отрицательный -190 то сразу улетало в бсод и загрузилось только на -160

накатил биос 1.15A, без изменений, ставил +- офсет но показания теже VTT — 0.904v и VIN9 — 0.680-688v, видимо датчика VTT DDR нету или он все время лжет


_________________
Ryzen 5950x, Asrock B550 Taichi, 4x32gb G.Skill F4-3200C16Q-128GVK@3533, Gigabyte RTX 4090 Gaming OC, Windows 10 x64 Pro
Steam: DemonAk

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 18

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Лаборатория

Новости

Post error 234 dimm initialization error cannot train memory

Предупреждение POST Error: 207-Memory initialization error on Processor 2 DIMM 9. The operating system may not have access to all of the memory installed in the system появилось у меня после замены плашек RAM памяти. Рассмотрим методы диагностики данной проблемы и пути ее решения.

Инициализация памяти

Ситуация такая, в сервер hp proliant была куплена новая память, напомню мой hp proliant dl380 g7 имеет 18 слотов для установки DDR памяти, в итоге в него было установлено 192 ГБ. Собрав и подключив сервер hp proliant, начался процесс инициализации нового оборудования. На каком то моменте я увидел вот такую вот картину: Error: 207-Memory initialization error on Processor 2 DIMM 9. The operating system may not have access to all of the memory installed in the system.

Предупреждение POST Error 207-Memory initialization error on Processor 2 DIMM 9. The operating system may not have access to all of the memory installed in the system-03

Естественно мне это не понравилось, но я решил посмотреть увидит ли система всю память и может ошибка уйдет сама собой. В итоге я дождался загрузки VMware ESXI 5.5 хоста. Память вся определилась, все 192 гб. Зайдя через VMware vCenter 5.5 я посмотрел состояние хоста, вся память была в состоянии ок, но был один alert но без какого либо информативного сообщения. На этом я не успокоился так как сервер hp proliant g7 с важным проектом.

Просмотр информации через порт ILO

Решил зайти hp ilo управление. Логинимся в hp ilo management переходим в пункт меню integrated Management Log, в данном разделе хранятся все события происходящие с сервером на железном уровне.

Предупреждение POST Error 207-Memory initialization error on Processor 2 DIMM 9. The operating system may not have access to all of the memory installed in the system-04

И видим что тоже есть три предупреждения POST Error 207-Memory initialization error on Processor 2 DIMM 9. The operating system may not have access to all of the memory installed in the system с номерами планок памяти с которыми есть проблемы.

Предупреждение POST Error 207-Memory initialization error on Processor 2 DIMM 9. The operating system may not have access to all of the memory installed in the system-02

Почитав немного сайт HP, давалось два решения первое это обновить bios hp proliant g7, я делаю это с помощью диска обновления, но у меня и так стояла последняя прошивка. Вторым решением было перестановка плашек памяти в другие слоты, в итоге мне этот совет помог устранить данную проблему. Вот так вот просто найти и диагностировать проблему с памятью на сервере HP ProLiant DL380 G7.

Источник

DIMM Failure — HPE Proliant Server

Добавляли память в сервер, забили планками по 16 Гб все 24 слота. После загрузки словили несколько ошибок:

POST Error: 295-DIMM Failure — Uncorrectable Memory Error — Processor 2, DIMM 4. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory.

POST Error: 207-Memory initialization error on Processor 2, DIMM 4. The operating system may not have access to all of the memory installed in the system.

POST Error: 207-Memory initialization error on Processor 2, DIMM 1. The operating system may not have access to all of the memory installed in the system.

Битая память попадается достаточно редко. Подозрение вызывает то, что сразу две планки в состоянии degraded.

Попытались заменить указанные планки памяти — хрен там. Очень интересная ситуация. Стали играть в чехарду — менять планки местами. В итоге — вычислили проблемную планку.

Итоговая картинка выглядела так:

ILO видит все 24 планки. Некоторые помечены как degraded — верить этой информации нельзя. Все 6 планок у который не определяется minimum Voltage недоступны операционной системе и не определяются при загрузке.

Забегая вперёд, хочется сказать, дохлой оказалась планка у 2 процессора в 6 сокете (!). Остальные модули — в порядке.

Как диагностировать проблему:

  • В первую очередь, попытайтесь поменять местами неработающие модули. Если память не работает у первого процессора — подсуньте её второму процессору. Это позволит:
    • Просто «переткнуть» модули, что может исправить проблему.
    • Проверить, не в процессоре или материнке ли дело. Если после перемещения планок ситуация не изменилась — попробуйте поменять процессоры местами. Проблема может быть как в процессоре, так и в погнутых контактных площадках.
  • Если есть запасная память — замените все проблемные модули. Если всё заработает, останется лишь найти проблемную планку.

У меня под рукой оказался второй сервер — донор рабочей оперативки.

Первым делом заменил все подозрительные модули памяти на явно рабочие — сервер увидел всю оперативку. Далее вытаскиваем у одного из процессоров из синего слота L (это шестой сокет) планку памяти. Начинаем по одной втыкать туда подозрительные модули и ждём когда всё сломается. На очередной загрузке я получил запечатлённую выше картинку — сбойный модуль был найден.

Если у вас другая модификация сервера — смотрите инструкцию на крышке. Там указан порядок втыкания памяти. Ваша задача — тестировать планки в последнем используемом слоте. Вариантов диагностики много — главное, не верить бездумно сообщениям сервера, работайте руками и головой.

Источник

HP ProLiant DL360 Gen9 — Memory initialization error

Продолжение эпопеи с ошибками памяти на сервере HP ProLiant DL360 Gen9. Только что вернулся из ЦОД, задача по расширению памяти сервера всё ещё не выполнена.

Напоминаю, что в старый сервер HP ProLiant DL360 Gen9 было дополнительно воткнуто 8 планок DIMM по 16 ГБ каждая. После этого мы словили ошибку и вычислили сбойную память в 10 слоте второго процессора.

Сервер отключил битую планку памяти, и ещё две вместе с ней, которые висели на том же канале. Ясно было, что планку нужно менять. Поскольку мы планировали расширять память на нескольких серверах, то памяти купили много, запасные планки есть. Вот я и поехал, а перед поездкой взял с собой все новые планки, чтобы их тоже проверить. А если вся партия битая, возможно, там ещё есть нерабочие планки? Редкость, конечно. Но беру всё.

Дубль два

Приезжаю в ЦОД, открываю сервер. Нахожу десятый слот второго процессора, благо все слоты подписаны на материнке. И на крышке схема есть.

Битую планку извлекаю, сразу наклеиваю на неё наклейку и помечаю DEF — defective. Вместо неё ставлю новую планку. Затем извлекаю все 16 планок, которые в сервере стояли изначально. Они явно рабочие, откладываю в сторонку.

Все пустые слоты забиваю новыми планками. Нужно же мне проверить эту партию.

Вся память не влезла. Нужно будет потом её тоже проверить. Собираем сервер обратно и включаем.

EVENT (30 Sep 13:21): POST Error: 207-Memory initialization error on Processor 1, DIMM 12. The operating system may not have access to all of the memory installed in the system.

EVENT (30 Sep 16:21): POST Error: 295-DIMM Failure — Uncorrectable Memory Error — Processor 1, DIMM 12. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory.

Теперь уже первый процессор, 12 слот.

Вот так бывает. В закупленной партии уже две битые планки. Ошибка точно такая же. Сервер также отключил битую планку и две на том же канале. Зато на втором процессоре теперь полный рабочий комплект.

Извлекаю вторую битую планку, меняю на новую.

В итоге я не поленился, проверил все планки, которые взял с собой. К счастью, в партии оказалось только две неисправных планки памяти. Но это не точно. Потому что в первый раз сервер тоже показал что всё нормально, а потом память отвалилась под нагрузкой.

Запускаю встроенную диагностическую утилиту.

Запускаю мгновенную проверку памяти.

Утилита пишет, что мгновенная проверка памяти выполняется за 3 минуты, не верьте ей. У меня ушло минут 15. В итоге: Мгновенная проверка памяти: УДАЧНО. Проверено 383 Гб. Всё в норме.

Перед уходом запускаю быструю проверку памяти.

Утилита пишет, что быстрая проверка памяти выполняется за 10 минут, не верьте ей. Прошло два с половиной часа.

Выполнено 13%. Если прикинуть, то быстрая проверка займёт 1154 минуты. Сутки. А ведь есть ещё полная проверка, не стану её запускать. Оставляю утилиту работать, завтра попытаюсь запустить сервер в бой, если память не накроется.

Если у вас есть возможность проверить закупленное оборудование, то сделайте это.

Быстрая проверка памяти: УДАЧНО. Проверено 383 Гб. Всё в норме.

Источник

UEFI/POST diagnostic codes

UEFI/POST diagnostic error codes can be generated when the server starts or while the server is running. UEFI/POST codes are logged in the IMM event log in the server.

For each event code, the following fields are displayed:

Event identifier An identifier that uniquely identifies an event. Event description The logged message string that appears for an event. Explanation Additional information to explain why the event occurred. Severity An indication of the level of concern for the condition. The severity is abbreviated in the event log to the first character. The following severities can be displayed.

Severity Description Informational An informational message is something that was recorded for audit purposes, usually a user action or a change of states that is normal behavior. Warning A warning is not as severe as an error, but if possible, the condition should be corrected before it becomes an error. It might also be a condition that requires additional monitoring or maintenance. Error An error typically indicates a failure or critical condition that impairs service or an expected function.

Perform the steps in the order shown until the problem is solved. After you perform all of the actions that are described in this field, if you cannot solve the problem, contact Lenovo Support.

Booting server to F1 setup menu In additional to the normal process in booting the server to the F1 setup menu (pressing F1 when is displayed), there are two other ways for users to choose.

  • Method 1
    1. Proceed to the IMM2 website.
    2. Select Server Management tab.
    3. Select Server Power Action.
    4. Select Boot Server to F1 Setup.

Use Advanced Settings Utility (ASU) program. Command line is shown as follows: asu.exe set IMM.ForceBootToUefi enable

The following is the list of the UEFI/POST error codes and suggested actions to correct the detected problems.

Источник

Post error 234 dimm initialization error cannot train memory

This chapter describes how to detect and correct problems with the server’s Dual Inline Memory Modules (DIMM)s. It includes the following sections:

The DIMM population rules for the server are as follows:

    Each CPU can support a maximum of eight DIMMs.

The DIMM slots are paired and the DIMMs must be installed in pairs (0-1, 2-3, 4-5, and 6-7). See FIGURE 3-1 and FIGURE 3-2. The memory sockets are colored black or white to indicate which slots are paired by matching colors.

DIMMs are populated starting from the outside (away from the CPU) and working toward the inside.

CPUs with only a single pair of DIMMs must have those DIMMs installed in that CPU’s outside white DIMM slots (6 and 7). See FIGURE 3-1 and FIGURE 3-2.

Only DDR2 800 Mhz, 667Mhz, and 533Mhz DIMMs are supported.

Each pair of DIMMs must be identical (same manufacturer, size, and speed).

Replace a DIMM when one of the following events takes place:

    The DIMM fails memory testing under BIOS due to Uncorrectable Memory Errors (UCEs).

UCEs occur and investigation shows that the errors originated from memory.

In addition, a DIMM should be replaced whenever more than 24 Correctable Errors (CEs) originate in 24 hours from a single DIMM and no other DIMM is showing further CEs.

    If more than one DIMM has experienced multiple CEs, other possible causes of CEs have to be ruled out by a qualified Sun Support specialist before replacing any DIMMs.

Retain copies of the logs showing the memory errors per the above rules to send to Sun for verification prior to calling Sun.

This section describes system behavior for the two types of DIMM errors: UCEs and CEs, and also describes BIOS DIMM error messages.

Uncorrectable DIMM Errors

For all operating systems (OS’s), the behavior is the same for UCEs:

1. When an UCE occurs, the memory controller causes an immediate reboot of the system.

2. During reboot, the BIOS checks the Machine Check registers and determines that the previous reboot was due to an UCE, then reports this in POST after the memtest stage:

3. BIOS reports this event in the service processor’s system event log (SEL) as shown in the sample IPMItool output below:

The lines in the display start with event numbers (in hex), followed by a description of the event. TABLE 3-1 describes the contents of the display:

UCE caused a Hypertransport sync flood which lead to system’s warm reset. #0x02 refers to a reboot count maintained since the last AC power reset.

BIOS detected and initiated 4 processors in system.

BIOS detected a Sync Flood caused this reboot.

BIOS detected a hardware error caused the Sync Flood.

BIOS retrieved and reported some hardware evidence, including all processors’ Machine Check Error registers (events 14 to 18).

After BIOS detected that a UCE had occurred, it located the DIMM and reset. 0x03 refers to reboot count.

BIOS off-lined faulty DIMMs from system memory space and reported them. Each DIMM of a pair is being reported, since hardware UCE evidence cannot lead BIOS any further than detection of a faulty pair.

Correctable DIMM Errors

If a DIMM has 24 or more correctable errors in 24 hours, it is considered defective and should be replaced.

At this time, CEs are not logged in the server’s system event logs. They are reported or handled in the supported OS’s as follows:

a. A Machine Check error-message bubble appears on the task bar.

b. The user must manually open Event Viewer to view errors. Access Event Viewer through this menu path:

c. The user can then view individual errors (by time) to see details of the error.

Solaris FMA reports and (sometimes) retires memory with correctable Error Correction Code (ECC) errors. See your Solaris Operating System documentation for details. Use the command:

to view ECC errors

The HERD utility can be used to manage DIMM errors in Linux. See the x64 Servers Utilities Reference Manual for details.

      If HERD is installed, it copies messages from /dev/mcelog to /var/log/messages .

    If HERD is not installed, a program called mcelog copies messages from /dev/mcelog to /var/log/mcelog .

    The Bootable Diagnostics CD described in Chapter 2 also captures and logs CEs.

    BIOS DIMM Error Messages

    The BIOS displays and logs the following DIMM error messages:

    The following conditions will cause this error message:

        The DIMMs mode is not paired (running in 64-bit mode instead of 128-bit mode).

      The DIMMs’ speed is not same.

      The DIMMs do not support ECC.

      The DIMMs are not registered.

      The MCT stopped due to errors in the DIMM.

      The DIMM module type (buffer) is mismatched.

      The DIMM generation (I or II) is mismatched.

      The DIMM CL/T is mismatched.

      The banks on a two-sided DIMM are mismatched.

      The DIMM organization is mismatched (128-bit).

      The SPD is missing Trc or Trfc information.

      DIMM Fault LEDs

      When you press the Press to See Fault button on the motherboard or the mezzanine board, LEDs next to the DIMMs flash to indicate that the system has detected 24 or more CEs in a 24-hour period on that DIMM.

TABLE 3-1 Lines in IPMI Output

Note — The DIMM Fault and Motherboard Fault LEDs operate on stored power for up to a minute when the system is powered down, even after the AC power is disconnected, and the motherboard (or mezzanine board) is out of the system. The stored power lasts for about half an hour.

Note — Disconnecting the AC power removes the fault indication. To recover fault information look in the SP SEL, as described in the Sun Integrated Lights Out Manager 2.0 User’s Guide .

    DIMM fault LED is off — The DIMM is operating properly.

DIMM fault LED is flashing (amber) — At least one of the DIMMs in this DIMM pair has reported 24 CEs within a 24-hour period.

Motherboard Fault LED on mezzanine is on — There is a fault on the motherboard. This LED is there because you cannot see the motherboard LEDs when the mezzanine board is present.

Note — The Motherboard Fault LED operates independently of the Press to See Fault button, and does not operate on stored power.

See FIGURE 3-1 for the locations of DIMMs and LEDs on the motherboard. See FIGURE 3-2 for the locations of DIMMs and LEDs on the mezzanine board.

FIGURE 3-1 DIMMs and LEDs on Motherboard

FIGURE 3-2 DIMMs and LEDs on Mezzanine Board

If your log files report an ECC error or a problem with a DIMM, complete the steps below until you can isolate the fault.

In this example, the log file reports an error with the DIMM in CPU0, slot 7. The fault LEDs on CPU0, slots 6 and 7 are on.

To isolate and correct DIMM ECC errors:

1. If you have not already done so, shut down your server to standby power mode and remove the cover.

2. Inspect the installed DIMMs to ensure that they comply with the DIMM Population Rules.

3. Press the PRESS TO SEE FAULT button, and inspect the DIMM fault LEDs. See FIGURE 3-1 and FIGURE 3-2.

A flashing LED identifies a component with a fault.

    For CEs, the LEDs correctly identify the DIMM where the errors were detected.

For UCEs, both LEDs in the pair flash if there is a problem with either DIMM in the pair.

Note — If your server is equipped with a mezzanine board, the motherboard DIMMs and LEDs will be hidden beneath it. However, the Motherboard Fault LED lights to indicate that there is a problem on the motherboard (only while AC power is still connected). If the Motherboard Fault LED on the mezzanine board lights, remove the mezzanine board as described in your server’s service manual, and inspect the LEDs on the motherboard.

4. Disconnect the AC power cords from the server.

Caution — Before handling components, attach an ESD wrist strap to a chassis ground (any unpainted metal surface). The system’s printed circuit boards and hard disk drives contain components that are extremely sensitive to static electricity.

Note — To recover fault information look in the SP SEL, as described in the Sun Integrated Lights Out Manager 2.0 User’s Guide .

5. Remove the DIMMs from the DIMM slots in the CPU.

Refer to your server’s service manual for details.

6. Visually inspect the DIMMs for physical damage, dust, or any other contamination on the connector or circuits.

7. Visually inspect the DIMM slot for physical damage. Look for cracked or broken plastic on the slot.

8. Dust off the DIMMs, clean the contacts, and reseat them.

Caution — Use only compressed air to dust DIMMs.

9. If there is no obvious damage, replace any failed DIMMs.

For UCEs, if the LEDs indicate a fault with the pair, replace both DIMMs. Ensure that they are inserted correctly with ejector latches secured.

10. Reconnect AC power cords to the server.

11. Power on the server and run the diagnostics test again.

12. Review the log file.

If the tests identify the same error, the problem is in the CPU, not the DIMMs.

Sun Fire X4140, X4240, and X4440 Servers Diagnostics Guide 820-3067-14

Copyright © 2010, Oracle and/or its affiliates. All rights reserved.

Источник

Понравилась статья? Поделить с друзьями:
  • Post error 1792 slot x drive array valid data found in cache module
  • Post error 1792 drive array reports valid data found in array accelerator
  • Post error 1787 drive array operating in interim recovery mode
  • Post error 1786 drive array recovery needed
  • Post error 1785 slot x drive array not configured