Correctable ecc other correctable memory error asserted

Select Your Region

Using Intel.com Search

You can easily search the entire Intel.com site in several ways.

Brand Name:

Core i9
Document Number:

123456
Code Name:

Alder Lake
Special Operators:

“Ice Lake”, Ice AND Lake, Ice OR Lake, Ice*

Quick Links

You can also try the quick links below to see results for most popular searches.

Products
Support
Drivers & Software

Recent Searches

Advanced Search

Only search in

Title

Description

Content ID

Product Support
- Product Support
- Graphics
- Processors
- Intel® NUCs
- Software
- Wireless
- Memory and Storage
- Boards and Kits
- Ethernet Products
- Intel® FPGAs
- Server Products
- Technologies
- Other Intel® Brands
Server Products
- Server Products
- Single Node Servers
- Multi Node Servers
- Intel® Data Center Systems
- Server Chassis
- Server Boards
- SAS/RAID
- Server Accessories
- Server Services
- Legacy Blade Cards and Modules
- Rack Scale Design Direct
- Legacy Server Products

The browser version you are using is not recommended for this site.
Please consider upgrading to the latest version of your browser by clicking one of the following links.

Safari
Chrome
Edge
Firefox

Basic Diagnostics for Correctable/Uncorrectable ECC Memory Errors with Intel® Server Boards

Documentation

Content Type
Troubleshooting

Article ID
000024007

Last Reviewed
01/10/2023

What am I seeing?

Correctable and/or Uncorrectable Error Correcting Code (ECC) events for memory modules. For example:

Mmry ECC Sensor SMI Handler Warning Memory CPU: 1, DIMM: D0 DIMM Rank: 1. — Correctable ECC / other correctable memory error — Asserted.

What is Memory Error Correction Code (ECC) Correctable Error Event?

ECC correctable error represents a threshold overflow for a given Dual In-line Memory Modules (DIMM) within a given timeframe.

How to fix it:

Memory data errors are logged as correctable or uncorrectable. Refer to the instructions below, based on the error type you encounter:

Notes

Between steps 2 and 3, for both scenarios, reseat the memory module (Remove and reinstall).
This chart is an excerpt of Table 73 of the System Event Log Troubleshooting Guides for Intel® Server Boards.
The System Information Retrieval Utility can help you with the DIMM location decoding.
It is recommended to have the latest BIOS version to minimize the errors.

If there is no catastrophic issue (Purple Screen of Death (PSOD) or unexpected restart) and the correctable ECC error, including Adaptative Double Device Data Correction (ADDDC) error, is less than 10 events every 24 hours for each DIMM location, which is within the threshold limit, the recommendation is to monitor the server for any recurrence of ECC error each DIMM location that triggers the event.
If there is a catastrophic issue (Purple Screen of Death (PSOD) or unexpected restart) and the correctable ECC error, including Adaptative Double Device Data Correction (ADDDC) error, is less than 10 events every 24 hours for each DIMM location, it is recommended to re-seat each DIMM location by following the steps below:
1. Power OFF the system and remove the AC power cable.
2. Identify the DIMM location to re-seat. Refer to the Technical Product Specifications for your server platform to identify the DIMM location.
3. Perform the re-seat of identified DIMM.
4. Insert the AC power cable and power back ON the system.
5. Observe for 24 hours for any recurrence of ECC error.
6. If the ECC error persists with the same DIM location that was re-seated, then generate and send the SEL and Debug logs, both generated from the BMC Web Console to Intel Customer Support
The advanced memory test (AMT) features were introduced in the BIOS and firmware stack starting with the BIOS revision 02.01.0014 for the Intel® Server Systems S2600BP, S2600WF, and S2600ST; and starting with the BIOS revision 22.01.0097 for the Intel® Server System S9200WK. For these products, recommend to enable the advanced memory test (AMT) and post package repair (PPR) features through the BIOS setup utility to perform a full check of the memory health. Refer to Chapter 5 in Memory Replacement Guideline and Advanced Memory Test for Intel® Server Products Based on Intel® 62X Chipset – White Paper for detail steps.

Notes	The Error Correction Code (ECC) errors are self-correcting. Depending on the Reliability Availability Serviceability (RAS) configuration of the memory, the Integrated Memory Controller (IMC) may take the affected DIMM offline.
For different Intel server platforms, there are some differences in their event definition, refer to System Event Log Troubleshooting Guide for your server platform
Intel recommends downloading and updating the system BIOS to the latest available version for your server platform.
If the system is an Intel® Data Center Block for Nutanix* Enterprise Cloud, rather, visit the Nutanix* Life Cycle Manager page. For a list of hardware and firmware compatibility, visit the Nutanix* Hardware and Firmware compatibility page.

Need more help?

Give Feedback

Источник

Содержание

Correctable ecc other correctable memory error asserted
Uncorrectable Memory ECC
Uncorrectable Memory ECC
Re: Uncorrectable Memory ECC
Re: Uncorrectable Memory ECC
Re: Uncorrectable Memory ECC
Re: Uncorrectable Memory ECC
Re: Uncorrectable Memory ECC
Re: Uncorrectable Memory ECC
Re: Uncorrectable Memory ECC
Re: Uncorrectable Memory ECC
Re: Uncorrectable Memory ECC
Solaris Troubleshooting : Deal with memory Errors – Correctable and Uncorrectable
Correctable Memory Errors
Uncorrectable Memory Errors
Статистика отказов в серверной памяти

Всем привет сегодня на IBM Blade HS22 вылезла ошибка Correctable ECC memory error logging limit reached. Я расскажу как ее решить. Появляется данная проблема в журналах AMM, кто не в курсе AMM это вебинтерфейс управления корзиной с блейд серверами IBM.

Вот как выглядит данная ошибка в AMM.

Ошибка Correctable ECC memory error logging limit reached на IBM HS22-1

Ошибка Correctable ECC memory error logging limit reached, возникает с проблемой в оперативной памяти, сам IBM в первую очередь советует прошить все по максимуму, и если не поможет вытащить блейд и пере ткнуть DDR память.

и в логах эта ошибка тоже присутствует и имеет код 0x806f050c.

Ошибка Correctable ECC memory error logging limit reached на IBM HS22-2

Я пошел первым путем решил все обновить. Ранее я вам рассказывал Как обновить все прошивки на IBM Blade HS22

После обновления видим в логах что ошибка в состоянии recovery

Ошибка Correctable ECC memory error logging limit reached на IBM HS22-11

и когда будет произведена перезагрузка после обновления вы увидите, что ошибка благополучно исчезла и все зеленое.

Как обновить все прошивки на IBM Blade HS22-10

Вот так вот просто решается Ошибка Correctable ECC memory error logging limit reached на IBM HS22.

Источник

Uncorrectable Memory ECC

Сообщение ServerMan » 20 май 2014, 22:05

И последняя четко в то время, когда сервер завис. Смущают следующие вещи:

1) Ошибки не только в DIMMA1, но и в DIMMA2 (а ведь это другой канал?)
2) В апреле уже было «Uncorrectable Memory ECC @ DIMMA2(CPU1)», но тогда сервер на завис.
3) В самом начале были ошибки в DIMMB1, но это было во время тестов сервера в офисе, а не ДЦ и возможно планки переставлялись.

Первая мысль поменять местами DIMMA1 и DIMMB1, DIMMA2 и DIMMB2.
Подскажите что делать?

Re: Uncorrectable Memory ECC

Сообщение Stranger03 » 21 май 2014, 11:16

Re: Uncorrectable Memory ECC

Сообщение ServerMan » 21 май 2014, 12:06

Re: Uncorrectable Memory ECC

Сообщение Stranger03 » 21 май 2014, 12:24

Re: Uncorrectable Memory ECC

Сообщение ServerMan » 21 май 2014, 12:28

А наличие Uncorrectable Memory ECC нормально или нет?

Просто на сервере 5017C-MTF с такой же памятью нет таких ошибок вообще.

Вообще на что больше похоже: на мать или память? Просто я к первому варианту больше склоняюсь пока.
На тест ночью стремно ставить, вдруг зависнет.

Re: Uncorrectable Memory ECC

Сообщение gs » 21 май 2014, 12:48

Re: Uncorrectable Memory ECC

Сообщение ServerMan » 24 май 2014, 13:51

Просто сервер рабочий и останавливать его в режим синглмод и тестить память — нет возможности.

BIOS Version : 1.1
BIOS Build Time : 07/19/2013
А биос не может быть проблемой?

Re: Uncorrectable Memory ECC

Сообщение Stranger03 » 26 май 2014, 09:55

Re: Uncorrectable Memory ECC

Сообщение gs » 26 май 2014, 14:12

Re: Uncorrectable Memory ECC

Сообщение ServerMan » 02 июн 2014, 16:45

Прошло 9 дней, больше ошибок не было. Что я сделал: вынул из сервера DIMMA1 и DIMMA2, отдав сотруднику на тест (memtest86 запущенный на 8 часов и сделавший 4 прохода ошибок не выявил!).

DIMMB1 поставил на DIMMA1, DIMMB2 на DIMMB1 — переставил чтобы исключить проблемы плохо вставленных контактов. И я правильно вставил две планки в DIMMA1 и DIMMB1, чтобы на одном канале было?

Возникает вопрос, что было? Память тесты на другом компе прошла, а та что осталась (частично в тех же слотах) проблем больше не вызывала.

Источник

Solaris Troubleshooting : Deal with memory Errors – Correctable and Uncorrectable

by Ramdev · July 29, 2022

Memory errors are quite common hardware related errors in enterprise environment, here we are going to discuss about two common types of errors ….

Correctable Memory Errors

Your system may have one or more of the following symptoms.

The system may have received CE, ECC errors, or recoverable memory errors.
The system may be described as having reported CPU or memory errors
Example error messages which may have been reported are shown below:

Correctable ECC error on from a read from system memory

The following are types of main memory correctable ECC errors reported by the CPUs and also an example from a Schizo (I/O bridge chip):

Example #1: Main Memory Corrected ECC error detected by CPU3 from data read from the memory DIMM in Slot B J8000

Example #2: A Main Memory Corrected MTAG ECC error detected by CPU1 on data read from Slot A J3000

Example #3: A Main memory corrected ECC error detected by Schizo id 8

CPU correctable ECC and parity errors

CPU Correctable ECC errors are detected and corrected by the CPU module containing the fault.

An example of a CPU L2SRAM Corrected ECC error detected by CPU1 from its own L2SRAM:

There are multiple other CPU Correctable events that can be reported and these include a number of recoverable parity errors:

DPE D$ parity event
DDSPE D$ data parity event
DTSPE D$ physical tag parity event
IPE I$ parity event
IDSPE I$ data parity event
ITSPE I$ physical tag parity event
TSCE software correctable single-bit E$ tag ECC event
THCE hardware corrected single-bit E$ tag ECC event
UCC software correctable E$ ECC event
EDC hardware corrected E$ ECC event
WDC hardware corrected E$ ECC event for writeback (victimization)
CPC hardware corrected E$ ECC event for copyout (snoop request)
L3_MECC Both 16-byte data of L3 cache data access have ECC error (either correctable or uncorrectable ECC error).
L3_THCE single bit ECC error on L3 cache tag access
L3_EDC single bit ECC error on L3 cache data access for P-cache and W-cache request
L3_UCC single bit ECC error on L3 cache data access for I-cache and D-cache request
L3_CPC single bit ECC error on L3 cache data access for copyout
L3_WDC single bit ECC error on L3 cache data access for writeback

When browsing messages files and observing console output note that [AFT0] is included in these messages, a represents the “Asynchronous Fault Trap” for correctable and recoverable errors. AFT1 is used for uncorrectable errors, AFT2 and AFT3 can be ignored in almost all cases.
The above error messaging may change slightly depending on your kernel update patch version.

Steps to Follow to TroubleShoot:
Please validate that each troubleshooting step below is true for your environment. The steps will provide instructions or a link to a document, for validating the step and taking corrective action as necessary. The steps are ordered in the most appropriate sequence to isolate the issue and identify the proper resolution.

Please do not skip a step.

1. Verify that more than a one correctable error has been reported

A certain number of ECC correctable errors are expected to be reported by Sun Systems. There are no correctable errors where a single error is enough to require parts replacement.

2. Verify if Solaris has disabled any CPUs

Many of the correctable errors reported by the CPUs will result in the CPU being disabled (where there is more than one CPU). There are a number of ways to check is CPUs have been disabled. One method is as follows:

Run psrinfo and check for CPUs in a state other than on-line.
Then check the /var/adm/messages file to identify the errors which caused the fault.
- On Solaris 8 and 9 a user offlined CPU will look exactly the same as a system offlined CPU.
- With Solaris 10 a new faulted state in used for FMA/system offlined CPUs.

3. Collect Data to allow Sun Support to progress your call

Uncorrectable errors can generate very large amounts of error information in messages files. Diagnosing any fault from looking at a small number of messages, when a thousand have been reported greatly increases the chances of misdiagnosis. On the midrange and high end platforms the System Controllers capture extensive hardware level failure data which is also important.

Collect at a minimum for diagnosis:
- /var/adm/messages
- uname -a
  - To confirm that you are not hitting known error reporting bugs

So that the correct FRU can be ordered if required:
- prtdiag -v
  - Required to see what FRUs are installed.
  - Also contains the OBP revision, for the OBP you can also use prtconf -V
- prtfru -x
  - FRU part and serial numbers required for some FCO checks and to confirm if a FRU is RoHS or not.
  - On the 3800-6900 class systems the prtfru -x output can only be collected using an explorer

Uncorrectable Memory Errors

Your system may have one or more of the following symptoms.

The system may have unexpectedly rebooted and cause is unknown.
The system may have received UE, ECC errors, or recoverable memory errors.
The system may be described as crashed, gone down, paniced, panic’d, panic’ed, panicked, rebooted, or received CPU or memory errors
Example error messages which may have been reported are as follows:

A. Uncorrectable ECC error on from a read from system memory

Main memory uncorrectable ECC error detected by CPU3 from the bank of DIMMs in Slot A: J8100 J8101 J8201 J8200

SUNW,UltraSPARC-IV: WARNING: [AFT1] Uncorrectable system bus (UE) Event detected by CPU3 in Privileged mode at TL=0, errID 0x… AFSR 0x00100004

.000000aa AFAR 0x000000a0.0c06f1e0 Fault_PC 0x1015725c Esynd 0x00aa Slot A: J8100 J8101 J8201 J8200
SUNW,UltraSPARC-IV: [AFT1] errID 0x… Two Bits were in error

Main memory uncorrectable ECC error for a prefetch or store queue fill read.

SUNW,UltraSPARC-IV: [ID 581396 kern.warning] WARNING: [AFT1] DUE Event detected by CPU0 at TL=0, errID 0x… AFSR 0x00400000 .000000aa AFAR 0x000000a0.0c0ab1f0 Fault_PC 0xff1c1c80 Esynd 0x00aa Slot A: J8100 J8101 J8201 J8200
SUNW,UltraSPARC-IV: [ID 468316 kern.notice] [AFT1] errID 0x… Two Bits were in error

A Main memory uncorrectable ECC error detected by Schizo id 9

pcisch: WARNING: uncorrectable error detected by pci0 (safari id 00000000.00000009) during DVMA read transaction
pcisch: Transaction was a block operation.
pcisch: dvma access, Memory safari command, address 000000d0.cb1489a0, owned_in not asserted.
pcisch: AFSR=40000000.89000063 AFAR=000000d0.cb1489a0, quad word offset 00000000.00000002, Memory Module Slot D: J3100 J3101 J3201 J3200 id 9.
pcisch: mtag 0, mtag ecc syndrome 0

Uncorrectable Mtag ECC errors from main memory cause a fatal reset, domain pause or dstop depending on the platform.

B. CPU Uncorrectable ECC errors

SUNW,UltraSPARC-III+: WARNING: [AFT1] EDU Event detected by CPU1 at TL=0, errID 0x…. AFSR 0x00000018 .0000017c AFAR 0x000000a0.0c0ab1f0 Fault_PC 0x1000c19c Esynd 0x017c
SUNW,UltraSPARC-III+: [AFT1] errID 0x…. Four Bits were in error

UCU uncorrectable E$ ECC event
EDU:ST uncorrectable E$ ECC event for store merge
EDU:BLD uncorrectable E$ ECC event for block load
WDU uncorrectable E$ ECC event for writeback (victimization)
CPU uncorrectable E$ ECC event for copyout (snoop request)
L3_TUE_SH multiple-bit ECC error on L3 cache tag access due to copyback, or tag update from foreign Fireplane device, snoop request
L3_TUE multiple-bit ECC error on L3 cache tag access due to core specific tag access
L3_EDU multiple-bit ECC error on L3 cache data access for P-cache and W-cache request
L3_UCU multiple-bit ECC error on L3 cache data access for I-cache and -cache request
L3_CPU multiple-bit ECC error on L3 cache data access for copyout
L3_WDU multiple-bit ECC error on L3 cache data access for writeback

When browsing messages files and observing console output note that [AFT1] is included in these messages, a 1 represents the “Asynchronous Fault Trap” for uncorrectable and unrecoverable errors. AFT0 is used for correctable errors, AFT2 and AFT3 can be ignored in almost all cases.
The above error messaging may change slightly depending on your kernel update patch version.
It is important to understand that uncorrectable ECC errors can be reported by multiple components. At no point will the corrupted data actually be used.

Источник

Статистика отказов в серверной памяти

В 2009 году, на ежегодной научной конференции SIGMETRICS, группа исследователей, работавших в Университете Торонто с данными, собранными и предоставленными для изучения компанией Google, опубликовала крайне интересный документ «DRAM Errors in the Wild: A Large-Scale Field Study» посвященный статистике отказов в серверной оперативной памяти (DRAM). Хотя подобные исследования и проводились ранее (например исследование 2007 года, наблюдавшее парк в 300 компьютеров), это было первое исследование, охватившее такой значительный парк серверов, исчисляемый тысячами единиц, на протяжении свыше двух лет, и давшее столь всеобъемлющие статистические сведения.

Отмечу также, что та же группа исследователей, во главе с аспирантом, а ныне профессором Университета Торонто, Бианкой Шрёдер (Bianca Shroeder) ранее, в 2007 году публиковала не менее интересное исследование, посвященное статистике отказов жестких дисков в датацентрах Google (краткую популярную выжимку из работы Failure Trends in a Large Disk Drive Population (pdf 242 KB), если вам скучно читать весь отчет, можно найти здесь: http://blog.aboutnetapp.ru/archives/tag/google). Кроме того, их перу принадлежит еще несколько работ, в частности об влиянии температуры и охлаждении, и о статистике отказов в оперативной памяти, вызываемой, предположительно, космическими лучами высоких энергий. Ссылки на публикации можно найти на домашней странице Шрёдер, на сервере университета.

Кратко о том, как именно происходила сборка статистических данных. Дело в том, что на протяжении довольно продолжительного времени (в опубликованной работе проанализирован период около 2,5 лет), в датацентрах Google собираются разнообразные данные мониторинга и иных событий в жизни оборудования в большой базе, данные которой в дальнейшем можно анализировать за любой желаемый промежуток времени.

(на фото, кстати, подлинный вид серверной платформы Google, именно из таких «кирпичиков» собираются гугловские кластеры, размером в многие тысячи узлов, впрочем, про них тут уже писалось)

Результаты такого анализа и представлены в опубликованной работе. И результаты во многом удивительные, заставляющие по-иному смотреть на вопросы надежности и привычные допущения в области надежности серверного оборудования.

Исследование со всей убедительностью продемонстрировало, что влияние отказов в оперативной памяти существенно недооценивается, что отказы оперативной памяти случаются куда чаще, чем до этого это было принято считать, наконец, многие допущения, например что оперативная память практически не «стареет», как «стареют», повышая вероятность отказов, компоненты с движущимися частями, такие как, например, жесткие диски, или что перегрев губительно сказывается на работе ОЗУ, являются неверными, и требуют пересмотра.

Несомненно тот факт, что в последние несколько лет, в связи со сравнительным удешевлением DRAM, и широким распространением систем серверной виртуализации, крайне охочих до объемов памяти, концентрация в одной серверной системе все больших и больших объемов ОЗУ, повышает и требования к ее надежности.

Исследование показало, что примерно каждый третий сервер (или 8% модулей памяти) в наблюдаемых датацентрах на протяжении 2,5 лет исследования встречался со сбоем в оперативной памяти. Число сбоев, зарегистрированных системой мониторинга составило свыше 4000 в год! Большая часть из них конечно была устранена использованием ECC (Error Correction Code), используемого в оперативной памяти, и более сложными его вариантами, такими как Chipkill (позволяет устранить многобитовые ошибки, например сразу в группе ячеек). Тем не менее, Uncorrectable Errors, то есть ошибки, которые не удалось исправить, и которые, почти наверняка привели к фатальным последствмяи типа BSOD или kernel panic встречаются куда чаще, чем это принято считать. А в случае использования памяти без ECC каждая из таких ошибок — это почти наверняка BSOD или kernel panic, или серьезный сбой в работе приложения. Ведь, например, очень многие хранят данные баз в памяти для ускорения ее работы.

В сравнении с ранее опубликованным исследованием, работа группы Шрёдер резко повысила «ожидания» сбоев. Так, они оценили события отказов в 25-70 тысяч сбоев на миллиард часов работы сервера, что почти в пятнадцать раз превышает более раннюю оценку, сделанную на меньшей популяции.
С отказами в результате неисправимых (uncorrectable, неисправленных ECC или Chipkill) встретились 1,3% серверов в год, или около 0,22% DIMM.
Системы, использующие «многобитные» механизмы, такие как Chipkill, имели число отказов в 4-10 раз меньше, по сравнению с обычным ECC.

Другие интересные выводы, сделанные в опубликованной работе это:

Рабочая температура, и ее повышение крайне мало коррелирует с вероятностью сбоя в DRAM. Это еще один факт, который указывает, что бытующее до сих пор в индустрии мнение о губительности повышенной температуры на полупроводники и компьютерное оборудование (мнение, основанное на исследовании 80-х годов) на сегодняшний день следует радикально пересмотреть. Это еще одно подтверждение этому факту, который уже был установлен, например в работе о жестких дисках. Парадоксальным образом там было установлено, что наименьшее количество отказов HDD наблюдалось при температурах в районе 40-45 градусов, а ее понижение количество отказов увеличивало (!).
В случае DRAM кореляция между температурой (в наблюдавшемся диапазоне около 20 градусов между самой низкой и самой высокой) и отказами была крайне незначительной.

(здесь и далее на слайдах: CE — correctable errors, ошибки, зарегистрированные, но исправленные ECC, UE — uncorrectable errors)

Однако существенно коррелировали отказы с загрузкой памяти и интенсивностью обмена с ней (отчасти высокая загрузка памяти влияет и на ее температуру, конечно, но не всегда). Вполне вероятно, что интенсивный обмен и большой относительный объем заполненных данными памяти значительно повышает вероятность быстрого обнаружения сбоя.

Было установлено, что вероятность получить повторный сбой в уже ранее сбоившем модуле памяти в сотни раз выше, по сравнению с не сбоившем ранее. Это может быть вызвано как наличием плохо выявляемого технологического брака, так и тем, что отказ, например пробой заряженной частицей космических лучей, не проходит для памяти бесследно, даже если ошибка была скорректирована ECC.
70-80% случаях, когда регистрировалась неисправимая ошибка в модуле памяти, это модуль уже имел исправимый ECC или Chipkill отказ в этом или предыдущем месяце.

Было установлено, что сравнительно новые модули, выполненные с более высокой плотностью и более тонкими техпроцессами, не показывают более высокого уровня отказов. По-видимому пока в технологии DRAM технологический предел, близ которого начинаются проблемы с надежностью, пока не достигнут. В наблюдаемом парке модулей было примерно шесть разных типов и поколений памяти (DDR1, DDR2 и FBDIMM разных типов), и корреляции между высокой плотностью и числом отказов и сбоев выявлено не было.

Наконец, с пугающей ясностью был продемонстрирован эффект «старения» в модулях DRAM. Более того, в памяти он проявился куда более явно, чем, напрмер, в HDD, где порог, после которого отказы растут в разы, составил примерно 3-4 года.

Парадоксальным образом статистика демонстрирует увеличивающиеся темпы роста correctable errors с увеличением возраста модулей, но снижающийся темп для Uncorrectable errors, однако скорее всего это просто результат плановой замены памяти в серверах, которые были замечены за сбоями.

Удивительным образом, DRAM, лишенная каких-либо движущихся частей, показывает существенный и продолжающийся рост correctable отказов уже после года-полутора эксплуатации.

Подводя итоги, хотелось бы отметить, что приведенные статистические данные заставляют пересмотреть привычные для многих, основанные на «житейском опыте» принципы построения серверных платформ и эксплуатации датацентров, и позиция «чем холоднее — тем лучше», «память не изнашивается», «если север правильно собран, то он не ломается» и «ECC DRAM — ненужная трата денег, ведь у меня десктоп работает без ECC, и ничего». И чем скорее будут изжиты подобные шапкозакидательские настроения в столь серьезной области, как построение датацентров, тем, в итоге, будет лучше.
А занимающимся темой хочу порекомендовать неизбывный источник сладости, интеллектуального упражнения и пищи для мозгов, как публикации ежегодных конференций группы USENIX, это вам, господа, не маркетинговый булшит, столь привычный нам уже всем, а настоящая серьезная наука, от которой не отмахнешься.

Источник

Модераторы: Trinity admin`s, Free-lance moderator`s

ServerMan: Junior member; Сообщения: 6; Зарегистрирован: 20 май 2014, 21:54; Откуда: МСК

Uncorrectable Memory ECC

Купили в августе 2013 платформу SuperMicro 1U 5018D-MTLN4F и все вроде работало, пока сегодня сервер не завис. Начали разбираться и увидели, что с самого начала в Event Log (IPMI) много ошибок:

Код: Выделить всё

1	2013/08/20 11:02:29	Chassis Intru	Physical Security (Chassis Intrusion)	General Chassis Intrusion - Asserted
2	2013/08/21 08:20:06	Chassis Intru	Physical Security (Chassis Intrusion)	General Chassis Intrusion - Asserted
3	2013/08/22 06:48:38	OEM	Memory	Correctable Memory ECC @ DIMMB1(CPU1) - Asserted
4	2013/08/22 07:27:17	OEM	Memory	Correctable Memory ECC @ DIMMB1(CPU1) - Asserted
5	2013/08/22 07:34:47	OEM	Memory	Correctable Memory ECC @ DIMMB1(CPU1) - Asserted
6	2013/08/22 08:18:26	Chassis Intru	Physical Security (Chassis Intrusion)	General Chassis Intrusion - Asserted
7	2013/08/30 14:21:44	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1) - Asserted
8	2013/09/01 05:57:58	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1) - Asserted
9	2013/09/01 22:12:37	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1) - Asserted
10	2013/09/07 08:01:50	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1) - Asserted
11	2013/09/08 20:20:13	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1) - Asserted
12	2013/09/11 19:04:47	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1) - Asserted
13	2013/09/11 23:16:25		Session Audit	Invalid Username or Password
14	2013/09/11 23:16:25		Session Audit	Invalid Username or Password
15	2013/09/13 06:21:32	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
16	2013/09/14 01:17:29	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
17	2013/09/14 11:06:30	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
18	2013/09/15 01:46:21	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
19	2013/09/15 12:52:32	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
20	2013/09/17 01:07:16	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
21	2013/09/17 01:49:20	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
22	2013/09/17 02:32:00	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
23	2013/09/19 02:59:14	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
24	2013/10/07 07:03:01	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
25	2013/10/19 06:17:15	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
26	2013/10/27 16:33:37	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
27	2013/11/12 18:04:05	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
28	2013/11/25 01:06:12	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
29	2013/11/25 08:36:41	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
30	2013/11/29 01:52:10		Session Audit	Invalid Username or Password
31	2013/11/29 01:52:10		Session Audit	Invalid Username or Password
32	2013/11/29 01:52:11		Session Audit	Invalid Username or Password
33	2013/11/29 01:52:11		Session Audit	Invalid Username or Password
34	2013/11/29 01:52:11		Session Audit	Invalid Username or Password
35	2014/01/27 03:46:19	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
36	2014/01/28 00:57:35	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
37	2014/01/29 04:22:46	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
38	2014/01/29 18:13:15	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
39	2014/02/01 17:59:22	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
40	2014/02/01 18:06:05	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
41	2014/02/01 18:06:05	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
42	2014/02/01 18:06:07	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
43	2014/02/01 18:06:14	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
44	2014/02/02 04:44:55	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
45	2014/02/02 16:39:58	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
46	2014/02/05 11:10:56	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
47	2014/02/06 07:23:49	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
48	2014/02/09 07:24:20	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
49	2014/02/09 07:24:21	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
50	2014/02/09 07:24:21	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
51	2014/02/09 07:24:26	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
52	2014/02/09 07:24:28	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
53	2014/02/09 07:24:32	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
54	2014/02/10 04:22:23	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
55	2014/02/10 04:22:23	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
56	2014/02/12 12:17:30	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
57	2014/02/14 20:54:02	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
58	2014/02/18 14:12:33	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
59	2014/02/19 22:36:35	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
60	2014/02/25 02:00:27	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
61	2014/02/26 12:58:57	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
62	2014/02/26 12:58:57	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
63	2014/02/26 21:44:29	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
64	2014/02/27 02:51:03	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
65	2014/02/28 05:35:55	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
66	2014/03/01 21:06:47	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
67	2014/03/02 14:41:01	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
68	2014/03/02 17:31:58	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
69	2014/03/06 08:33:50	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
70	2014/03/08 02:09:46	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
71	2014/03/08 20:39:48	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
72	2014/03/09 00:47:00	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
73	2014/03/09 14:51:31	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
74	2014/03/09 17:02:56	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
75	2014/03/10 10:19:30	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
76	2014/03/10 10:19:31	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
77	2014/03/10 21:00:41	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
78	2014/03/11 04:36:52	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
79	2014/03/11 04:36:52	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
80	2014/03/12 08:45:22	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
81	2014/03/13 02:27:47	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
82	2014/03/13 09:43:43	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
83	2014/03/14 08:19:06	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
84	2014/03/15 11:18:55	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
85	2014/03/16 08:06:38	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
86	2014/03/16 09:51:34	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
87	2014/03/19 07:00:08	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
88	2014/03/22 08:02:24	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
89	2014/03/22 12:06:37	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
90	2014/03/23 20:33:31	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
91	2014/03/24 05:32:14	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
92	2014/03/24 08:17:23	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
93	2014/03/28 02:48:11	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
94	2014/04/02 21:26:48	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
95	2014/04/02 22:18:04	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
96	2014/04/02 22:18:05	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
97	2014/04/02 22:18:05	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
98	2014/04/02 22:18:05	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
99	2014/04/02 22:18:05	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
100	2014/04/02 22:18:21	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
101	2014/04/02 22:18:21	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
102	2014/04/04 13:55:35	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
103	2014/04/05 10:06:36	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
104	2014/04/06 01:42:09	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
105	2014/04/06 06:29:36	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
106	2014/04/07 04:46:09	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
107	2014/04/07 13:49:24	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
108	2014/04/07 13:49:26	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
109	2014/04/08 16:27:42	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
110	2014/04/08 17:19:35	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
111	2014/04/09 02:29:00	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
112	2014/04/09 09:21:52	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
113	2014/04/09 09:21:52	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
114	2014/04/09 09:21:52	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
115	2014/04/09 09:21:52	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
116	2014/04/09 09:21:53	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
117	2014/04/09 09:21:53	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
118	2014/04/09 09:21:53	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
119	2014/04/10 03:22:35	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
120	2014/04/10 11:13:22	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
121	2014/04/10 11:13:23	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
122	2014/04/11 13:34:51	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
123	2014/04/11 14:44:17	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
124	2014/04/11 14:44:18	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
125	2014/04/12 08:12:21	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
126	2014/04/12 08:12:21	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
127	2014/04/12 08:51:38	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
128	2014/04/12 19:02:11	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
129	2014/04/14 11:53:56	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
130	2014/04/14 22:07:02	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
131	2014/04/15 12:20:00	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
132	2014/04/18 04:28:06	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
133	2014/04/18 06:17:24	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
134	2014/04/19 07:45:58	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
135	2014/04/19 07:46:02	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
136	2014/04/19 07:46:03	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
137	2014/04/19 07:46:03	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
138	2014/04/19 07:46:04	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
139	2014/04/19 07:46:04	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
140	2014/04/19 07:46:04	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
141	2014/04/19 07:46:04	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
142	2014/04/19 07:46:04	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
143	2014/04/19 07:46:06	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
144	2014/04/19 07:46:06	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
145	2014/04/19 07:46:06	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
146	2014/04/19 07:46:07	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
147	2014/04/19 07:46:07	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
148	2014/04/19 07:46:08	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
149	2014/04/19 07:46:08	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
150	2014/04/19 07:46:08	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
151	2014/04/19 07:46:08	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
152	2014/04/19 07:46:08	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
153	2014/04/19 07:46:09	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
154	2014/04/19 07:46:09	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
155	2014/04/19 07:46:09	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
156	2014/04/19 07:46:09	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
157	2014/04/19 07:48:59	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
158	2014/04/19 07:52:16	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
159	2014/04/21 07:11:39	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
160	2014/04/22 14:29:58	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
161	2014/04/23 17:36:58	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
162	2014/04/24 12:40:47	OEM	Memory	Uncorrectable Memory ECC @ DIMMA2(CPU1)
163	2014/04/26 09:52:33	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
164	2014/04/27 17:09:15	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
165	2014/04/27 17:56:32	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
166	2014/04/27 21:11:31	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
167	2014/04/27 21:11:31	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
168	2014/04/29 09:37:23	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
169	2014/04/30 11:22:11	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
170	2014/05/02 01:27:06	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
171	2014/05/02 01:27:06	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
172	2014/05/02 20:06:24	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
173	2014/05/04 15:27:23	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
174	2014/05/05 11:13:51	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
175	2014/05/07 07:20:33	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
176	2014/05/07 13:16:35	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
177	2014/05/08 00:35:13	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
178	2014/05/09 13:17:57	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1)
179	2014/05/16 18:44:45	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
180	2014/05/17 11:48:47	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
181	2014/05/18 01:15:36	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
182	2014/05/19 14:54:33	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1)
183	2014/05/20 15:14:03	OEM	Memory	Uncorrectable Memory ECC @ DIMMA1(CPU1)

И последняя четко в то время, когда сервер завис. Смущают следующие вещи:

Первая мысль поменять местами DIMMA1 и DIMMB1, DIMMA2 и DIMMB2.
Подскажите что делать?

Stranger03: Сотрудник Тринити; Сообщения: 12979; Зарегистрирован: 14 ноя 2003, 16:25; Откуда: СПб, Екатеринбург; Контактная информация:

Re: Uncorrectable Memory ECC

Сообщение

Stranger03 » 21 май 2014, 11:16

ServerMan писал(а):Подскажите что делать?

Проверьте мемтестом на ночь, там видно будет. И поправьте город в профиле.

ServerMan: Junior member; Сообщения: 6; Зарегистрирован: 20 май 2014, 21:54; Откуда: МСК

Re: Uncorrectable Memory ECC

Сообщение

ServerMan » 21 май 2014, 12:06

На что похоже вообще это поведение по вашему опыту?
И само наличие Correctable Memory ECC это уже не нормально?

Stranger03: Сотрудник Тринити; Сообщения: 12979; Зарегистрирован: 14 ноя 2003, 16:25; Откуда: СПб, Екатеринбург; Контактная информация:

Re: Uncorrectable Memory ECC

Сообщение

Stranger03 » 21 май 2014, 12:24

ServerMan писал(а):На что похоже вообще это поведение по вашему опыту?
И само наличие Correctable Memory ECC это уже не нормально?

Ну само их наличие не так критично, коррекции ошибок. Все-таки прогоните тесты, поставьте на ночь часов на 6-ть. Если там что будет, то менять по гарантии.

ServerMan: Junior member; Сообщения: 6; Зарегистрирован: 20 май 2014, 21:54; Откуда: МСК

Re: Uncorrectable Memory ECC

Сообщение

ServerMan » 21 май 2014, 12:28

А наличие Uncorrectable Memory ECC нормально или нет?

Просто на сервере 5017C-MTF с такой же памятью нет таких ошибок вообще.

Вообще на что больше похоже: на мать или память? Просто я к первому варианту больше склоняюсь пока…
На тест ночью стремно ставить, вдруг зависнет…

gs: Сотрудник Тринити; Сообщения: 16650; Зарегистрирован: 23 авг 2002, 17:34; Откуда: Москва; Контактная информация:

Re: Uncorrectable Memory ECC

Сообщение

gs » 21 май 2014, 12:48

Корректабл ошибки — это сбои, которые способна исправить ЕСС. Это плохо. Не смертельно (как анкорректабл), но при регулярном появлении очень плохо.
Виноваты могут быть как модули памяти, так и мамка/слоты, даже контакт в процессорном сокете или сам процессор (хотя последнее очень редко бывает).
В общем, запускайте мемтест, а там видно будет.

ServerMan: Junior member; Сообщения: 6; Зарегистрирован: 20 май 2014, 21:54; Откуда: МСК

Re: Uncorrectable Memory ECC

Сообщение

ServerMan » 24 май 2014, 13:51

Просто сервер рабочий и останавливать его в режим синглмод и тестить память — нет возможности…

BIOS Version : 1.1
BIOS Build Time : 07/19/2013
А биос не может быть проблемой?

Stranger03: Сотрудник Тринити; Сообщения: 12979; Зарегистрирован: 14 ноя 2003, 16:25; Откуда: СПб, Екатеринбург; Контактная информация:

Re: Uncorrectable Memory ECC

Сообщение

Stranger03 » 26 май 2014, 09:55

ServerMan писал(а):А биос не может быть проблемой?

Врядли

gs: Сотрудник Тринити; Сообщения: 16650; Зарегистрирован: 23 авг 2002, 17:34; Откуда: Москва; Контактная информация:

Re: Uncorrectable Memory ECC

Сообщение

gs » 26 май 2014, 14:12

А если он просто сломается — тоже будете говорить, что остановить нет возможности?

ServerMan: Junior member; Сообщения: 6; Зарегистрирован: 20 май 2014, 21:54; Откуда: МСК

Re: Uncorrectable Memory ECC

Сообщение

ServerMan » 02 июн 2014, 16:45

Возникает вопрос, что было? Память тесты на другом компе прошла, а та что осталась (частично в тех же слотах) проблем больше не вызывала…

PS: обновил IPMI.

gs: Сотрудник Тринити; Сообщения: 16650; Зарегистрирован: 23 авг 2002, 17:34; Откуда: Москва; Контактная информация:

Re: Uncorrectable Memory ECC

Сообщение

gs » 02 июн 2014, 16:59

Ну так может просто неконтакт?

ServerMan: Junior member; Сообщения: 6; Зарегистрирован: 20 май 2014, 21:54; Откуда: МСК

Re: Uncorrectable Memory ECC

Сообщение

ServerMan » 02 июн 2014, 17:05

Сейчас сервер хорошо справляется и на в два раза меньшем количестве памяти, имеет ли смысл после тестов вернуть память на место или лучше не рисковать?

Stranger03: Сотрудник Тринити; Сообщения: 12979; Зарегистрирован: 14 ноя 2003, 16:25; Откуда: СПб, Екатеринбург; Контактная информация:

Re: Uncorrectable Memory ECC

Сообщение

Stranger03 » 03 июн 2014, 08:27

ServerMan писал(а):Сейчас сервер хорошо справляется и на в два раза меньшем количестве памяти, имеет ли смысл после тестов вернуть память на место или лучше не рисковать?

Это вам решать.

Вернуться в «Серверы — Решение проблем»

Перейти

Серверы
↳ Серверы — Конфигурирование
↳ Конфигурации сервера для 1С
↳ Серверы — Решение проблем
↳ Серверы — ПО, Unix подобные системы
↳ Серверы — ПО, Windows система, приложения.
↳ Серверы — ПО, Базы Данных и их использование
↳ Серверы — FAQ
Дисковые массивы, RAID, SCSI, SAS, SATA, FC
↳ Массивы — RAID технологии.
↳ Массивы — Технические вопросы, решение проблем.
↳ Массивы — FAQ
Майнинг, плоттинг, фарминг (Добыча криптовалют)
↳ Proof Of Work
↳ Proof Of Space
Кластеры — вычислительные и отказоустойчивые ( SMP, vSMP, NUMA, GRID , NAS, SAN)
↳ Кластеры, Аппаратная часть
↳ Deep Learning и AI
↳ Кластеры, Программное обеспечение
↳ Кластеры, параллельные файловые системы
Медиа технологии, и цифровое ТВ, IPTV, DVB
↳ Станции видеомонтажа, графические системы, рендеринг.
↳ Видеонаблюдение
↳ Компоненты Digital TV решений
↳ Студийные системы, производство ТВ, Кино и рекламы
Инфраструктурное ПО и его лицензирование
↳ Виртуализация
↳ Облачные технологии
↳ Резервное копирования / Защита / Сохранение данных
Сетевые решения
↳ Сети — Вопросы конфигурирования сети
↳ Сети — Технические вопросы, решение проблем
Общие вопросы
↳ Обсуждение общих вопросов
↳ Приколы нашего IT городка
↳ Регистрация на форуме

Источник

Обновлено 14.12.2016

Вот как выглядит данная ошибка в AMM.

Ошибка Correctable ECC memory error logging limit reached на IBM HS22-1

и в логах эта ошибка тоже присутствует и имеет код 0x806f050c.

Ошибка Correctable ECC memory error logging limit reached на IBM HS22-2

Я пошел первым путем решил все обновить. Ранее я вам рассказывал Как обновить все прошивки на IBM Blade HS22

После обновления видим в логах что ошибка в состоянии recovery

Ошибка Correctable ECC memory error logging limit reached на IBM HS22-11

Как обновить все прошивки на IBM Blade HS22-10

Вот так вот просто решается Ошибка Correctable ECC memory error logging limit reached на IBM HS22.

Материал сайта pyatilistnik.org

Дек 14, 2016 10:49

Источник

Статистика отказов в серверной памяти

Время прочтения
5 мин

Просмотры 46K

Другие интересные выводы, сделанные в опубликованной работе это:

(здесь и далее на слайдах: CE — correctable errors, ошибки, зарегистрированные, но исправленные ECC, UE — uncorrectable errors)

Источник

О LENOVO

О LENOVO

Наша компания
Новости
Контакт
Соответствие продукта
Работа в Lenovo
Общедоступное программное обеспечение Lenovo

КУПИТЬ

КУПИТЬ

Где купить
Рекомендованные магазины
Стать партнером

Поддержка

Поддержка

Драйверы и Программное обеспечение
Инструкция
Инструкция
Поиск гарантии
Свяжитесь с нами
Поддержка хранилища

РЕСУРСЫ

РЕСУРСЫ

Тренинги
Спецификации продуктов ((PSREF)
Доступность продукта
Информация об окружающей среде

Lenovo.

|
|
|
|

Источник

Hi,

I got my Hardware for my new freenas build. The board is an Supermicro X10SL7-F with 32 gig of Samsung Memory (M391B1G73QH0-YK0). CPU is an Xeon E3-1230.

I know assembled the whole build and started the burn-in tests. Memtest now ran for 50h+ and reported no errors, but when I check my SEL I find four messages saying:

Code:

Assertion: Memory| Event = Correctable ECC@DIMMB1(CPU1)

I played arround a bit and found out that this error seems to accour from time to time when I reboot the system. It never occoured while running the memtest. Is one of my modules (DIMMB1) faulty?

Could be. Could also be bad power (sounds more likely if it only happens at boot).

Swap your RAM around and see if the failure follows the stick of RAM or if it remains at DIMMB1. If the problem moves then it is likely a faulty stick of RAM. If it remains then it could be the power supply (the easiest thing to replace) or possibly the motherboard. Also, ensure your BIOS is setup for the RAM properly (speed, timing, etc…)

Swap your RAM around and see if the failure follows the stick of RAM or if it remains at DIMMB1. If the problem moves then it is likely a faulty stick of RAM. If it remains then it could be the power supply (the easiest thing to replace) or possibly the motherboard. Also, ensure your BIOS is setup for the RAM properly (speed, timing, etc…)

I was thinking that it might follow the DIMM, if it’s a marginal (on the «working» side) one and bad power is causing this.

@Harsesis — what PSU are you using?

Hi,

thanks for your response! The PSU I’m using is a new Seasonic G450. I will then start checking the BIOS (changed nothing here), than swapping the DIMM’s, if that does not make any difference I could change the PSU (should have laying arround some older ones).

Well, Seasonic does reduce the probability of it being the PSU — always a possibility, though.

So I checked the BIOS and I’m not 100% confident wheather the settings are corret. Futhermore I dont know how I can change them. Is there a way to change the timings? I’ve made a screenshot of the current settings, you can find it here. The datasheet of the ram can be found here. When I understand the datasheet correctly the settings of tRCDmin, tRPmin and tRASmin are wrong and should be 13.75-13.75-35?

I also swaped DIMMB1 and DIMMA1 on the board. After restarting there was no error in the SEL, but after booting into Memtest86+ version 5.01 a new error appeared in the SEL. Know it is reporting the error from DIMMA1. So there are tow things going on:
— the error moves with the (possibly faulty) DIMM
— the error occours when the systems loads memtest86

So what do you beleve, should I simply contact the vendor and RMA the possibly faulty DIMM?

Manually set your RAM speed to 1333 MHz and that should take care of the timings, which actually look fine for 1600 MHz but if the RAM is actually being pushed up to 1600 MHz, you are safer manually dialing it down.

As to your DIMM modules, I’d reseat them again. Just be careful to not physically break them.

As for RMA, try the above steps first. Your system may not be as stable running the RAM in a turbo speed situation.

With setting the RAM speed you mean setting the memory frequency limiter? Expecting this would help is this the proper way of dealing with it? I mean the modules are specified as 1600, shouldent they deliver that?

I did not quite understand your comment on the RMA. What do you mean with the system could be instable in turbo speed situations? How can I check this and what could be the reason for this?

Since everything is supposed to support DDR3-1600, not running at that speed is plentiful reason to RMA. No need to keep marginal stuff around, even if it stabilizes with a workaround.

So you would go for RMA now? Or is there anything else I could try? Did one of you take a look at my BIOS timing settings? Still not sure if they are correct and if not how I can change them in BIOS…

So you would go for RMA now? Or is there anything else I could try? Did one of you take a look at my BIOS timing settings? Still not sure if they are correct and if not how I can change them in BIOS…

That’s taken care of automatically with SPD. CL11 sounds right, too.

I’d just try a different PSU first. If everything stays the same, RMA the DIMM.

So good news, I just dicided to order one extra DIMM and replace the other one with this. I allready got my new DIMM today and up to now it seems to work just fine. I decieded to do it this way as I can just reovke the new or one DIMM of the old order without any cost. That was the fastest way and I dont have to do the RMA procedure.

If anything changes and surprisingly new errors would occour I will let you know! Thank you all for you help!

Источник

Communities
About Communities
Private Forums
- Private Forums
- Intel oneAPI Toolkits Private Forums
- All other private forums and groups
- Intel® Connectivity Research Program (Private)
Developer Software Forums
- Developer Software Forums
- Toolkits & SDKs
- Software Development Tools
- Software Development Topics
- Software Development Technologies
- Intel® DevCloud
- oneAPI Registration, Download, Licensing and Installation
- GPU Compute Software
- Software Archive
Product Support Forums
- Product Support Forums
- Intel® NUCs
- Memory & Storage
- Embedded Products
- Visual Computing
- FPGA
- Graphics
- Processors
- Wireless
- Ethernet Products
- Server Products
- Intel® Enpirion® Power Solutions
- Intel Unite® App
- Intel vPro® Platform
- Intel® Trusted Execution Technology (Intel® TXT)
- Intel® Unison™ App
- Intel® QuickAssist Technology (Intel® QAT)
Gaming Forums
- Gaming Forums
- Intel® ARC™ Graphics
- Gaming on Intel® Processors with Intel® Graphics
- Developing Games on Intel Graphics
Blogs
- Blogs
- @Intel
- Products and Solutions
- Tech Innovation
- Thought Leadership
- Customer Success

Server Products

Data Center Products including boards, integrated systems, Intel® Xeon® Processors, RAID Storage; and Intel® Xeon® Processors

The Intel sign-in experience is changing in February to support enhanced security controls. If you sign in, click here for more information.

Intel Communities
Product Support Forums
Server Products
what does correctable ecc asserted explicily mean?

More actions

Subscribe to RSS Feed
Mark Topic as New
Mark Topic as Read
Float this Topic for Current User
Bookmark
Subscribe
Mute
Printer Friendly Page

I have «correctable ecc asserted» warning in the bmc of my server. This event probably lead to the server status light turned amber and blink. I wonder is this event mean only one bit error occurred in the dimm or the number of error occurred in that dimm exceeded the threshold? If it is the first case, I think it is ok, and won’t lead to any server health problem. I hope someone can help me with this!

ECC Memory

All forum topics
Previous topic
Next topic

8 Replies

Hello Mr. Guo,

In regards to your question the BMC error messages could change from board to board and even with the firmware version. Could you please specify what board/chassis model you have on your server and what BIOS version is it currently running?

Regards

Jose H.

board:s2600cw2r

BIOS01010022

ME030103043

BMC015010802

FRUSDR114

thank you for your help!

No. I saw this in the even log.

Sorry for this late reply, but I was on a business trip last week.

Mr. Guo,

Do you mind to share that event log file here? I would like to take a look at it.

Jose H.

Hello Mr. Guo,

Let me share with you the following info in regards to Correctable Error Correcting Code (ECC) or other correctable memory error for memory modules

Decode DIMM error(s) using the https://www.intel.com/content/www/us/en/support/server-products/000023940.html System Information Retrieval Utility.
Verify the DIMM is seated properly.
Examine gold fingers on edge of the DIMM to ensure that the contacts are clean.
Inspect the processor socket DIMM for any bent contacts/pins. If you find bent contacts/pins, replace the board.
Consider replacing the DIMM as a preventive measure if the correctable error becomes uncorrectable.

Hope this helps.

Jose H.

Hello Mr. Guo,

Do you have updates in regards to this?

Just let me know.

Jose H.

Hello Mr. Guo,

I will proceed to mark this thread as closed. If you have further questions just create a new topic and we will be glad to assist you.

Regards

Jose H.

All forum topics
Previous topic
Next topic

Источник

Discontinued Products

Need more help?

Give Feedback