Содержание
- Uncorrectable Memory ECC
- Uncorrectable Memory ECC
- Re: Uncorrectable Memory ECC
- Re: Uncorrectable Memory ECC
- Re: Uncorrectable Memory ECC
- Re: Uncorrectable Memory ECC
- Re: Uncorrectable Memory ECC
- Re: Uncorrectable Memory ECC
- Re: Uncorrectable Memory ECC
- Re: Uncorrectable Memory ECC
- Re: Uncorrectable Memory ECC
- Uncorrectable Memory Error
- Popular Topics in HP Hardware
- 8 Replies
- Read these next.
- poor wifi, school’s third floor
- Need help crafting a job posting for an IT Pro
- Snap! — AI Eye Contact, Mine Batteries, Headset-free Metaverse, D&D Betrayal
- Spark! Pro series – 13th January 2023
- DIMM Failure — HPE Proliant Server
- HP ProLiant DL360 Gen9 — Memory initialization error
- Дубль два
Uncorrectable Memory ECC
Uncorrectable Memory ECC
Сообщение ServerMan » 20 май 2014, 22:05
И последняя четко в то время, когда сервер завис. Смущают следующие вещи:
1) Ошибки не только в DIMMA1, но и в DIMMA2 (а ведь это другой канал?)
2) В апреле уже было «Uncorrectable Memory ECC @ DIMMA2(CPU1)», но тогда сервер на завис.
3) В самом начале были ошибки в DIMMB1, но это было во время тестов сервера в офисе, а не ДЦ и возможно планки переставлялись.
Первая мысль поменять местами DIMMA1 и DIMMB1, DIMMA2 и DIMMB2.
Подскажите что делать?
Re: Uncorrectable Memory ECC
Сообщение Stranger03 » 21 май 2014, 11:16
Re: Uncorrectable Memory ECC
Сообщение ServerMan » 21 май 2014, 12:06
Re: Uncorrectable Memory ECC
Сообщение Stranger03 » 21 май 2014, 12:24
Re: Uncorrectable Memory ECC
Сообщение ServerMan » 21 май 2014, 12:28
А наличие Uncorrectable Memory ECC нормально или нет?
Просто на сервере 5017C-MTF с такой же памятью нет таких ошибок вообще.
Вообще на что больше похоже: на мать или память? Просто я к первому варианту больше склоняюсь пока.
На тест ночью стремно ставить, вдруг зависнет.
Re: Uncorrectable Memory ECC
Сообщение gs » 21 май 2014, 12:48
Re: Uncorrectable Memory ECC
Сообщение ServerMan » 24 май 2014, 13:51
Просто сервер рабочий и останавливать его в режим синглмод и тестить память — нет возможности.
BIOS Version : 1.1
BIOS Build Time : 07/19/2013
А биос не может быть проблемой?
Re: Uncorrectable Memory ECC
Сообщение Stranger03 » 26 май 2014, 09:55
Re: Uncorrectable Memory ECC
Сообщение gs » 26 май 2014, 14:12
Re: Uncorrectable Memory ECC
Сообщение ServerMan » 02 июн 2014, 16:45
Прошло 9 дней, больше ошибок не было. Что я сделал: вынул из сервера DIMMA1 и DIMMA2, отдав сотруднику на тест (memtest86 запущенный на 8 часов и сделавший 4 прохода ошибок не выявил!).
DIMMB1 поставил на DIMMA1, DIMMB2 на DIMMB1 — переставил чтобы исключить проблемы плохо вставленных контактов. И я правильно вставил две планки в DIMMA1 и DIMMB1, чтобы на одном канале было?
Возникает вопрос, что было? Память тесты на другом компе прошла, а та что осталась (частично в тех же слотах) проблем больше не вызывала.
Источник
Uncorrectable Memory Error
So last night one of my servers rebooted (HP Proliant DL380 G7) and the culprit was an uncorrectable memory error. The thing that’s odd is that when I log into HP Management Homepage, the error shows up on the IML but the status of the memory module is still «Good». As a result, my server monitoring tool never fired off an alert. Why would it still label itself in «Good» status after an uncorrectable memory error?
Popular Topics in HP Hardware
That’s a good question. The first thing that comes to mind is that there might be a tiny bit of corrosion on some of the contacts, causing some data corruption while the Dimm itself is still operable. Have you tried reseating it?
If that doesn’t help I’d try swapping the two matched Dimms around, and see if the problem follows the Dimm or stays on that particular slot. It could be that the RAM is fine and there is something wrong with the Dimm slot.
In addition to PJGraston’s excellent suggestion, try running an OS independent memory test (memtest 86 or the like). Sometimes little things that will cause the error aren’t detected by IML, especially if it’s intermittent. OS independent tests are more thorough, and they will loop the tests so that intermittent failures are detected better.
This kind of thing is sometimes hard to nail down: good luck.
That’s a good question. The first thing that comes to mind is that there might be a tiny bit of corrosion on some of the contacts, causing some data corruption while the Dimm itself is still operable. Have you tried reseating it?
Not yet, I’ve already ordered a replacement so I figured I’d swap it out when it arrives.
Try moving them to the next available slots — 2/7 and see if that works.
Yeah, I would suggest at least moving the Dimms around before replacing them. If there is nothing wrong with them you’re just wasting money.
That’s a good question. The first thing that comes to mind is that there might be a tiny bit of corrosion on some of the contacts, causing some data corruption while the Dimm itself is still operable. Have you tried reseating it?
Not yet, I’ve already ordered a replacement so I figured I’d swap it out when it arrives.
I have seen this kind of problem in workstations, almost always fails in the memory test. Good call on replacement.
This topic has been locked by an administrator and is no longer open for commenting.
To continue this discussion, please ask a new question.
Read these next.
poor wifi, school’s third floor
I work as a help desk technician at a high school for a school district. Teachers/students on the building’s third floor have been reporting poor wifi, with their Chromebooks/laptops etc experiencing slow connectivity and random disconnections. We hav.
Need help crafting a job posting for an IT Pro
I’d really appreciate some thoughts and advice. I’m looking to hire an IT pro to be our resident go-to for all things IT (device support, SQL Server, network admin, etc) but who also is interested in learning — or even has some experience in — the.
Snap! — AI Eye Contact, Mine Batteries, Headset-free Metaverse, D&D Betrayal
Your daily dose of tech news, in brief. Welcome to the Snap! Flashback: January 13, 1874: Adding Machine Patented (Read more HERE.) Bonus Flashback: January 13, 1990: Astronauts awakened to the song Attack of the Killer Tomatoes (Read mor.
Spark! Pro series – 13th January 2023
Happy Friday the 13th! This day has a reputation for being unlucky, but I hope that you’ll be able to turn that around and have a great day full of good luck and good fortune. Whether you’re superstitious or not, .
Источник
DIMM Failure — HPE Proliant Server
Добавляли память в сервер, забили планками по 16 Гб все 24 слота. После загрузки словили несколько ошибок:
POST Error: 295-DIMM Failure — Uncorrectable Memory Error — Processor 2, DIMM 4. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory.
POST Error: 207-Memory initialization error on Processor 2, DIMM 4. The operating system may not have access to all of the memory installed in the system.
POST Error: 207-Memory initialization error on Processor 2, DIMM 1. The operating system may not have access to all of the memory installed in the system.
Битая память попадается достаточно редко. Подозрение вызывает то, что сразу две планки в состоянии degraded.
Попытались заменить указанные планки памяти — хрен там. Очень интересная ситуация. Стали играть в чехарду — менять планки местами. В итоге — вычислили проблемную планку.
Итоговая картинка выглядела так:
ILO видит все 24 планки. Некоторые помечены как degraded — верить этой информации нельзя. Все 6 планок у который не определяется minimum Voltage недоступны операционной системе и не определяются при загрузке.
Забегая вперёд, хочется сказать, дохлой оказалась планка у 2 процессора в 6 сокете (!). Остальные модули — в порядке.
Как диагностировать проблему:
- В первую очередь, попытайтесь поменять местами неработающие модули. Если память не работает у первого процессора — подсуньте её второму процессору. Это позволит:
- Просто «переткнуть» модули, что может исправить проблему.
- Проверить, не в процессоре или материнке ли дело. Если после перемещения планок ситуация не изменилась — попробуйте поменять процессоры местами. Проблема может быть как в процессоре, так и в погнутых контактных площадках.
- Если есть запасная память — замените все проблемные модули. Если всё заработает, останется лишь найти проблемную планку.
У меня под рукой оказался второй сервер — донор рабочей оперативки.
Первым делом заменил все подозрительные модули памяти на явно рабочие — сервер увидел всю оперативку. Далее вытаскиваем у одного из процессоров из синего слота L (это шестой сокет) планку памяти. Начинаем по одной втыкать туда подозрительные модули и ждём когда всё сломается. На очередной загрузке я получил запечатлённую выше картинку — сбойный модуль был найден.
Если у вас другая модификация сервера — смотрите инструкцию на крышке. Там указан порядок втыкания памяти. Ваша задача — тестировать планки в последнем используемом слоте. Вариантов диагностики много — главное, не верить бездумно сообщениям сервера, работайте руками и головой.
Источник
HP ProLiant DL360 Gen9 — Memory initialization error
Продолжение эпопеи с ошибками памяти на сервере HP ProLiant DL360 Gen9. Только что вернулся из ЦОД, задача по расширению памяти сервера всё ещё не выполнена.
Напоминаю, что в старый сервер HP ProLiant DL360 Gen9 было дополнительно воткнуто 8 планок DIMM по 16 ГБ каждая. После этого мы словили ошибку и вычислили сбойную память в 10 слоте второго процессора.
Сервер отключил битую планку памяти, и ещё две вместе с ней, которые висели на том же канале. Ясно было, что планку нужно менять. Поскольку мы планировали расширять память на нескольких серверах, то памяти купили много, запасные планки есть. Вот я и поехал, а перед поездкой взял с собой все новые планки, чтобы их тоже проверить. А если вся партия битая, возможно, там ещё есть нерабочие планки? Редкость, конечно. Но беру всё.
Дубль два
Приезжаю в ЦОД, открываю сервер. Нахожу десятый слот второго процессора, благо все слоты подписаны на материнке. И на крышке схема есть.
Битую планку извлекаю, сразу наклеиваю на неё наклейку и помечаю DEF — defective. Вместо неё ставлю новую планку. Затем извлекаю все 16 планок, которые в сервере стояли изначально. Они явно рабочие, откладываю в сторонку.
Все пустые слоты забиваю новыми планками. Нужно же мне проверить эту партию.
Вся память не влезла. Нужно будет потом её тоже проверить. Собираем сервер обратно и включаем.
EVENT (30 Sep 13:21): POST Error: 207-Memory initialization error on Processor 1, DIMM 12. The operating system may not have access to all of the memory installed in the system.
EVENT (30 Sep 16:21): POST Error: 295-DIMM Failure — Uncorrectable Memory Error — Processor 1, DIMM 12. This memory will not be available to the operating system. ACTION: Replace the failed DIMM to restore the full amount of memory.
Теперь уже первый процессор, 12 слот.
Вот так бывает. В закупленной партии уже две битые планки. Ошибка точно такая же. Сервер также отключил битую планку и две на том же канале. Зато на втором процессоре теперь полный рабочий комплект.
Извлекаю вторую битую планку, меняю на новую.
В итоге я не поленился, проверил все планки, которые взял с собой. К счастью, в партии оказалось только две неисправных планки памяти. Но это не точно. Потому что в первый раз сервер тоже показал что всё нормально, а потом память отвалилась под нагрузкой.
Запускаю встроенную диагностическую утилиту.
Запускаю мгновенную проверку памяти.
Утилита пишет, что мгновенная проверка памяти выполняется за 3 минуты, не верьте ей. У меня ушло минут 15. В итоге: Мгновенная проверка памяти: УДАЧНО. Проверено 383 Гб. Всё в норме.
Перед уходом запускаю быструю проверку памяти.
Утилита пишет, что быстрая проверка памяти выполняется за 10 минут, не верьте ей. Прошло два с половиной часа.
Выполнено 13%. Если прикинуть, то быстрая проверка займёт 1154 минуты. Сутки. А ведь есть ещё полная проверка, не стану её запускать. Оставляю утилиту работать, завтра попытаюсь запустить сервер в бой, если память не накроется.
Если у вас есть возможность проверить закупленное оборудование, то сделайте это.
Быстрая проверка памяти: УДАЧНО. Проверено 383 Гб. Всё в норме.
Источник
Модераторы: Trinity admin`s, Free-lance moderator`s
-
ServerMan
- Junior member
- Сообщения: 6
- Зарегистрирован: 20 май 2014, 21:54
- Откуда: МСК
Uncorrectable Memory ECC
Купили в августе 2013 платформу SuperMicro 1U 5018D-MTLN4F и все вроде работало, пока сегодня сервер не завис. Начали разбираться и увидели, что с самого начала в Event Log (IPMI) много ошибок:
Код: Выделить всё
1 2013/08/20 11:02:29 Chassis Intru Physical Security (Chassis Intrusion) General Chassis Intrusion - Asserted
2 2013/08/21 08:20:06 Chassis Intru Physical Security (Chassis Intrusion) General Chassis Intrusion - Asserted
3 2013/08/22 06:48:38 OEM Memory Correctable Memory ECC @ DIMMB1(CPU1) - Asserted
4 2013/08/22 07:27:17 OEM Memory Correctable Memory ECC @ DIMMB1(CPU1) - Asserted
5 2013/08/22 07:34:47 OEM Memory Correctable Memory ECC @ DIMMB1(CPU1) - Asserted
6 2013/08/22 08:18:26 Chassis Intru Physical Security (Chassis Intrusion) General Chassis Intrusion - Asserted
7 2013/08/30 14:21:44 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1) - Asserted
8 2013/09/01 05:57:58 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1) - Asserted
9 2013/09/01 22:12:37 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1) - Asserted
10 2013/09/07 08:01:50 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1) - Asserted
11 2013/09/08 20:20:13 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1) - Asserted
12 2013/09/11 19:04:47 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1) - Asserted
13 2013/09/11 23:16:25 Session Audit Invalid Username or Password
14 2013/09/11 23:16:25 Session Audit Invalid Username or Password
15 2013/09/13 06:21:32 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
16 2013/09/14 01:17:29 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
17 2013/09/14 11:06:30 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
18 2013/09/15 01:46:21 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
19 2013/09/15 12:52:32 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
20 2013/09/17 01:07:16 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
21 2013/09/17 01:49:20 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
22 2013/09/17 02:32:00 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
23 2013/09/19 02:59:14 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
24 2013/10/07 07:03:01 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
25 2013/10/19 06:17:15 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
26 2013/10/27 16:33:37 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
27 2013/11/12 18:04:05 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
28 2013/11/25 01:06:12 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
29 2013/11/25 08:36:41 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
30 2013/11/29 01:52:10 Session Audit Invalid Username or Password
31 2013/11/29 01:52:10 Session Audit Invalid Username or Password
32 2013/11/29 01:52:11 Session Audit Invalid Username or Password
33 2013/11/29 01:52:11 Session Audit Invalid Username or Password
34 2013/11/29 01:52:11 Session Audit Invalid Username or Password
35 2014/01/27 03:46:19 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
36 2014/01/28 00:57:35 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
37 2014/01/29 04:22:46 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
38 2014/01/29 18:13:15 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
39 2014/02/01 17:59:22 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
40 2014/02/01 18:06:05 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
41 2014/02/01 18:06:05 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
42 2014/02/01 18:06:07 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
43 2014/02/01 18:06:14 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
44 2014/02/02 04:44:55 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
45 2014/02/02 16:39:58 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
46 2014/02/05 11:10:56 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
47 2014/02/06 07:23:49 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
48 2014/02/09 07:24:20 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
49 2014/02/09 07:24:21 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
50 2014/02/09 07:24:21 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
51 2014/02/09 07:24:26 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
52 2014/02/09 07:24:28 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
53 2014/02/09 07:24:32 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
54 2014/02/10 04:22:23 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
55 2014/02/10 04:22:23 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
56 2014/02/12 12:17:30 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
57 2014/02/14 20:54:02 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
58 2014/02/18 14:12:33 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
59 2014/02/19 22:36:35 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
60 2014/02/25 02:00:27 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
61 2014/02/26 12:58:57 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
62 2014/02/26 12:58:57 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
63 2014/02/26 21:44:29 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
64 2014/02/27 02:51:03 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
65 2014/02/28 05:35:55 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
66 2014/03/01 21:06:47 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
67 2014/03/02 14:41:01 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
68 2014/03/02 17:31:58 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
69 2014/03/06 08:33:50 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
70 2014/03/08 02:09:46 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
71 2014/03/08 20:39:48 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
72 2014/03/09 00:47:00 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
73 2014/03/09 14:51:31 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
74 2014/03/09 17:02:56 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
75 2014/03/10 10:19:30 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
76 2014/03/10 10:19:31 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
77 2014/03/10 21:00:41 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
78 2014/03/11 04:36:52 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
79 2014/03/11 04:36:52 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
80 2014/03/12 08:45:22 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
81 2014/03/13 02:27:47 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
82 2014/03/13 09:43:43 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
83 2014/03/14 08:19:06 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
84 2014/03/15 11:18:55 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
85 2014/03/16 08:06:38 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
86 2014/03/16 09:51:34 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
87 2014/03/19 07:00:08 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
88 2014/03/22 08:02:24 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
89 2014/03/22 12:06:37 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
90 2014/03/23 20:33:31 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
91 2014/03/24 05:32:14 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
92 2014/03/24 08:17:23 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
93 2014/03/28 02:48:11 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
94 2014/04/02 21:26:48 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
95 2014/04/02 22:18:04 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
96 2014/04/02 22:18:05 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
97 2014/04/02 22:18:05 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
98 2014/04/02 22:18:05 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
99 2014/04/02 22:18:05 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
100 2014/04/02 22:18:21 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
101 2014/04/02 22:18:21 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
102 2014/04/04 13:55:35 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
103 2014/04/05 10:06:36 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
104 2014/04/06 01:42:09 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
105 2014/04/06 06:29:36 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
106 2014/04/07 04:46:09 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
107 2014/04/07 13:49:24 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
108 2014/04/07 13:49:26 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
109 2014/04/08 16:27:42 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
110 2014/04/08 17:19:35 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
111 2014/04/09 02:29:00 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
112 2014/04/09 09:21:52 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
113 2014/04/09 09:21:52 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
114 2014/04/09 09:21:52 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
115 2014/04/09 09:21:52 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
116 2014/04/09 09:21:53 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
117 2014/04/09 09:21:53 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
118 2014/04/09 09:21:53 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
119 2014/04/10 03:22:35 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
120 2014/04/10 11:13:22 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
121 2014/04/10 11:13:23 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
122 2014/04/11 13:34:51 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
123 2014/04/11 14:44:17 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
124 2014/04/11 14:44:18 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
125 2014/04/12 08:12:21 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
126 2014/04/12 08:12:21 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
127 2014/04/12 08:51:38 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
128 2014/04/12 19:02:11 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
129 2014/04/14 11:53:56 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
130 2014/04/14 22:07:02 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
131 2014/04/15 12:20:00 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
132 2014/04/18 04:28:06 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
133 2014/04/18 06:17:24 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
134 2014/04/19 07:45:58 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
135 2014/04/19 07:46:02 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
136 2014/04/19 07:46:03 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
137 2014/04/19 07:46:03 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
138 2014/04/19 07:46:04 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
139 2014/04/19 07:46:04 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
140 2014/04/19 07:46:04 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
141 2014/04/19 07:46:04 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
142 2014/04/19 07:46:04 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
143 2014/04/19 07:46:06 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
144 2014/04/19 07:46:06 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
145 2014/04/19 07:46:06 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
146 2014/04/19 07:46:07 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
147 2014/04/19 07:46:07 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
148 2014/04/19 07:46:08 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
149 2014/04/19 07:46:08 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
150 2014/04/19 07:46:08 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
151 2014/04/19 07:46:08 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
152 2014/04/19 07:46:08 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
153 2014/04/19 07:46:09 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
154 2014/04/19 07:46:09 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
155 2014/04/19 07:46:09 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
156 2014/04/19 07:46:09 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
157 2014/04/19 07:48:59 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
158 2014/04/19 07:52:16 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
159 2014/04/21 07:11:39 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
160 2014/04/22 14:29:58 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
161 2014/04/23 17:36:58 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
162 2014/04/24 12:40:47 OEM Memory Uncorrectable Memory ECC @ DIMMA2(CPU1)
163 2014/04/26 09:52:33 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
164 2014/04/27 17:09:15 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
165 2014/04/27 17:56:32 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
166 2014/04/27 21:11:31 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
167 2014/04/27 21:11:31 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
168 2014/04/29 09:37:23 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
169 2014/04/30 11:22:11 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
170 2014/05/02 01:27:06 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
171 2014/05/02 01:27:06 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
172 2014/05/02 20:06:24 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
173 2014/05/04 15:27:23 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
174 2014/05/05 11:13:51 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
175 2014/05/07 07:20:33 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
176 2014/05/07 13:16:35 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
177 2014/05/08 00:35:13 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
178 2014/05/09 13:17:57 OEM Memory Correctable Memory ECC @ DIMMA2(CPU1)
179 2014/05/16 18:44:45 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
180 2014/05/17 11:48:47 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
181 2014/05/18 01:15:36 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
182 2014/05/19 14:54:33 OEM Memory Correctable Memory ECC @ DIMMA1(CPU1)
183 2014/05/20 15:14:03 OEM Memory Uncorrectable Memory ECC @ DIMMA1(CPU1)
И последняя четко в то время, когда сервер завис. Смущают следующие вещи:
1) Ошибки не только в DIMMA1, но и в DIMMA2 (а ведь это другой канал?)
2) В апреле уже было «Uncorrectable Memory ECC @ DIMMA2(CPU1)», но тогда сервер на завис.
3) В самом начале были ошибки в DIMMB1, но это было во время тестов сервера в офисе, а не ДЦ и возможно планки переставлялись.
Первая мысль поменять местами DIMMA1 и DIMMB1, DIMMA2 и DIMMB2.
Подскажите что делать?
-
Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Re: Uncorrectable Memory ECC
Сообщение
Stranger03 » 21 май 2014, 11:16
ServerMan писал(а):Подскажите что делать?
Проверьте мемтестом на ночь, там видно будет. И поправьте город в профиле.
-
ServerMan
- Junior member
- Сообщения: 6
- Зарегистрирован: 20 май 2014, 21:54
- Откуда: МСК
Re: Uncorrectable Memory ECC
Сообщение
ServerMan » 21 май 2014, 12:06
На что похоже вообще это поведение по вашему опыту?
И само наличие Correctable Memory ECC это уже не нормально?
-
Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Re: Uncorrectable Memory ECC
Сообщение
Stranger03 » 21 май 2014, 12:24
ServerMan писал(а):На что похоже вообще это поведение по вашему опыту?
И само наличие Correctable Memory ECC это уже не нормально?
Ну само их наличие не так критично, коррекции ошибок. Все-таки прогоните тесты, поставьте на ночь часов на 6-ть. Если там что будет, то менять по гарантии.
-
ServerMan
- Junior member
- Сообщения: 6
- Зарегистрирован: 20 май 2014, 21:54
- Откуда: МСК
Re: Uncorrectable Memory ECC
Сообщение
ServerMan » 21 май 2014, 12:28
А наличие Uncorrectable Memory ECC нормально или нет?
Просто на сервере 5017C-MTF с такой же памятью нет таких ошибок вообще.
Вообще на что больше похоже: на мать или память? Просто я к первому варианту больше склоняюсь пока…
На тест ночью стремно ставить, вдруг зависнет…
-
gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
Re: Uncorrectable Memory ECC
Сообщение
gs » 21 май 2014, 12:48
Корректабл ошибки — это сбои, которые способна исправить ЕСС. Это плохо. Не смертельно (как анкорректабл), но при регулярном появлении очень плохо.
Виноваты могут быть как модули памяти, так и мамка/слоты, даже контакт в процессорном сокете или сам процессор (хотя последнее очень редко бывает).
В общем, запускайте мемтест, а там видно будет.
-
ServerMan
- Junior member
- Сообщения: 6
- Зарегистрирован: 20 май 2014, 21:54
- Откуда: МСК
Re: Uncorrectable Memory ECC
Сообщение
ServerMan » 24 май 2014, 13:51
Просто сервер рабочий и останавливать его в режим синглмод и тестить память — нет возможности…
BIOS Version : 1.1
BIOS Build Time : 07/19/2013
А биос не может быть проблемой?
-
Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Re: Uncorrectable Memory ECC
Сообщение
Stranger03 » 26 май 2014, 09:55
ServerMan писал(а):А биос не может быть проблемой?
Врядли
-
gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
Re: Uncorrectable Memory ECC
Сообщение
gs » 26 май 2014, 14:12
А если он просто сломается — тоже будете говорить, что остановить нет возможности?
-
ServerMan
- Junior member
- Сообщения: 6
- Зарегистрирован: 20 май 2014, 21:54
- Откуда: МСК
Re: Uncorrectable Memory ECC
Сообщение
ServerMan » 02 июн 2014, 16:45
Прошло 9 дней, больше ошибок не было. Что я сделал: вынул из сервера DIMMA1 и DIMMA2, отдав сотруднику на тест (memtest86 запущенный на 8 часов и сделавший 4 прохода ошибок не выявил!).
DIMMB1 поставил на DIMMA1, DIMMB2 на DIMMB1 — переставил чтобы исключить проблемы плохо вставленных контактов. И я правильно вставил две планки в DIMMA1 и DIMMB1, чтобы на одном канале было?
Возникает вопрос, что было? Память тесты на другом компе прошла, а та что осталась (частично в тех же слотах) проблем больше не вызывала…
PS: обновил IPMI.
-
gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
Re: Uncorrectable Memory ECC
Сообщение
gs » 02 июн 2014, 16:59
Ну так может просто неконтакт?
-
ServerMan
- Junior member
- Сообщения: 6
- Зарегистрирован: 20 май 2014, 21:54
- Откуда: МСК
Re: Uncorrectable Memory ECC
Сообщение
ServerMan » 02 июн 2014, 17:05
Сейчас сервер хорошо справляется и на в два раза меньшем количестве памяти, имеет ли смысл после тестов вернуть память на место или лучше не рисковать?
-
Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Re: Uncorrectable Memory ECC
Сообщение
Stranger03 » 03 июн 2014, 08:27
ServerMan писал(а):Сейчас сервер хорошо справляется и на в два раза меньшем количестве памяти, имеет ли смысл после тестов вернуть память на место или лучше не рисковать?
Это вам решать.
Вернуться в «Серверы — Решение проблем»
Перейти
- Серверы
- ↳ Серверы — Конфигурирование
- ↳ Конфигурации сервера для 1С
- ↳ Серверы — Решение проблем
- ↳ Серверы — ПО, Unix подобные системы
- ↳ Серверы — ПО, Windows система, приложения.
- ↳ Серверы — ПО, Базы Данных и их использование
- ↳ Серверы — FAQ
- Дисковые массивы, RAID, SCSI, SAS, SATA, FC
- ↳ Массивы — RAID технологии.
- ↳ Массивы — Технические вопросы, решение проблем.
- ↳ Массивы — FAQ
- Майнинг, плоттинг, фарминг (Добыча криптовалют)
- ↳ Proof Of Work
- ↳ Proof Of Space
- Кластеры — вычислительные и отказоустойчивые ( SMP, vSMP, NUMA, GRID , NAS, SAN)
- ↳ Кластеры, Аппаратная часть
- ↳ Deep Learning и AI
- ↳ Кластеры, Программное обеспечение
- ↳ Кластеры, параллельные файловые системы
- Медиа технологии, и цифровое ТВ, IPTV, DVB
- ↳ Станции видеомонтажа, графические системы, рендеринг.
- ↳ Видеонаблюдение
- ↳ Компоненты Digital TV решений
- ↳ Студийные системы, производство ТВ, Кино и рекламы
- Инфраструктурное ПО и его лицензирование
- ↳ Виртуализация
- ↳ Облачные технологии
- ↳ Резервное копирования / Защита / Сохранение данных
- Сетевые решения
- ↳ Сети — Вопросы конфигурирования сети
- ↳ Сети — Технические вопросы, решение проблем
- Общие вопросы
- ↳ Обсуждение общих вопросов
- ↳ Приколы нашего IT городка
- ↳ Регистрация на форуме
About Lenovo
-
Our Company
-
News
-
Investor Relations
-
Sustainability
-
Product Compliance
-
Product Security
-
Lenovo Open Source
-
Legal Information
-
Jobs at Lenovo
Shop
-
Laptops & Ultrabooks
-
Tablets
-
Desktops & All-in-Ones
-
Workstations
-
Accessories & Software
-
Servers
-
Storage
-
Networking
-
Laptop Deals
-
Outlet
Support
-
Drivers & Software
-
How To’s
-
Warranty Lookup
-
Parts Lookup
-
Contact Us
-
Repair Status Check
-
Imaging & Security Resources
Resources
-
Where to Buy
-
Shopping Help
-
Sales Order Status
-
Product Specifications (PSREF)
-
Forums
-
Registration
-
Product Accessibility
-
Environmental Information
-
Gaming Community
-
LenovoEDU Community
-
LenovoPRO Community
©
Lenovo.
|
|
|
|