Unrecoverable medium error during rebuild - Исправление ошибок и поиск оптимальных решений проблем

Содержание

Controller id 0 unrecoverable medium error during rebuild pd 0 2
Controller id 0 unrecoverable medium error during rebuild pd 0 2
Кажись, все.. LSI Megaraid 9260-16i Raid6 и КД с архивом
Кажись, все.. LSI Megaraid 9260-16i Raid6 и КД с архивом

Controller id 0 unrecoverable medium error during rebuild pd 0 2

Имеем сервер Intel 2U SR2500ALBRPR http://www.nix.ru/autocatalog/server_systems_intel/Intel_2U_SR2500ALBRPR_LGA771_i5000P_SATA_RAID_5xHotSwap_SATA_2xGbLAN_8DDRII_FBDIMM_750W_51530.html с интегрированным рейд контроллером. На нем win 2к3 с AD и 1Ской на борту. В рейде 10 два винта Seagate Barracuda ES.2 — 500 гб.

Около двух недель назад, полетел один из дисков. По симптомам — просто зависла машина, перезагрузка не помогала, сервер просто висел пока не сдернули один из хардов. Было принято решение заменить сразу оба. Взяли такие: HP 500GB 7.2k HP MDL SATA 1y Wty HDD (458928-B21). Предварительно был прошит биос на материнки на всякий случай, рейд контроллер прошить не удалось. Вместо «сломанного» диска, был поставлен один новый и сразу был включен ребилд. Второй новый диск, был поставлен в Hot Spare.
Собственно ребилд прошел нормально, что подтверждают логи — без ошибок.

Цитата:

100 [Information, 0] 2012-09-29, 01:00:20 Controller ID: 0 Rebuild complete
-:-:2 19

Далее, был вытащен второй ещё рабочий «старый» диск:

Цитата:

114 [Information, 0] 2012-10-01, 04:26:15 Controller ID: 0 State change: PD
= -:-:1 Previous = Online
Current = Offline 20
81 [Information, 0] 2012-10-01, 04:26:15 Controller ID: 0 State change on VD: 0
Previous = Optimal Current =
Degraded 21
251 [Critical, 2] 2012-10-01, 04:26:15 Controller ID: 0 VD is now DEGRADED VD
0 22
112 [Warning, 1] 2012-10-01, 04:26:15 Controller ID: 0 PD removed:
-:-:1 23
114 [Information, 0] 2012-10-01, 04:26:15 Controller ID: 0 State change: PD
= -:-:1 Previous = Offline
Current = Failed 24
114 [Information, 0] 2012-10-01, 04:26:16 Controller ID: 0 State change: PD
= -:-:3 Previous = Hot Spare
Current = Rebuild 25
105 [Information, 0] 2012-10-01, 04:26:16 Controller ID: 0 Rebuild started: PD
-:-:3 26

Сразу сработал Hot Spare, начал ребилд второго нового харда. Но не совсем корректно, как позже только выяснилось по логам со следующими ошибками:

Цитата:

109 [Fatal, 3] 2012-10-01, 04:35:56 Controller ID: 0 Unrecoverable medium error during rebuild: PD -:-:2 Location 0x618bb0 29
109 [Fatal, 3] 2012-10-01, 04:35:45 Controller ID: 0 Unrecoverable medium error during rebuild: PD -:-:2 Location 0x60b433 28

на первом новом рабочем винте (PD -:-:2 — находится в слоте 2).

Сам ребилд завершился корректно:

Цитата:

100 [Information, 0] 2012-10-02, 04:47:14 Controller ID: 0 Rebuild complete
-:-:3 36
249 [Information, 0] 2012-10-02, 04:47:14 Controller ID: 0 VD is now OPTIMAL VD
0 35
81 [Information, 0] 2012-10-02, 04:47:14 Controller ID: 0 State change on VD: 0
Previous = Degraded Current =
Optimal 34

Собственно до сегодняшнего дня, точнее даже вчерашней ночи — все работало без проблем (это около 2ух недель). Через Raid Web Console 2 периодически мониторил. Но тут утром позвонили, с проблемой — не могут зайти по терминалу в 1С. Также потыкался по удаленки — не пускает. Пинги шли. Перезагрузили сервер с кнопки — вроде ок. Полез смотреть логи рейда сразу. В консоле все нормально — рейд не рассыпался, за исключением сообщений, каждые 10 минут:

Цитата:

96 [Warning, 1] 2012-10-14, 12:36:47 Controller ID: 0 PD Predictive failure:
-:-:2 59
96 [Warning, 1] 2012-10-14, 12:24:49 Controller ID: 0 PD Predictive failure:
-:-:2 58
96 [Warning, 1] 2012-10-14, 12:12:52 Controller ID: 0 PD Predictive failure:
-:-:2 57
96 [Warning, 1] 2012-10-14, 12:00:57 Controller ID: 0 PD Predictive failure:
-:-:2 56
96 [Warning, 1] 2012-10-13, 23:49:01 Controller ID: 0 PD Predictive failure:
-:-:2 55
96 [Warning, 1] 2012-10-13, 23:37:02 Controller ID: 0 PD Predictive failure:
-:-:2 54

Pred Fail Count растет. Пока читал логи, сервер опять виснет намертво.. Было принято решение сдернуть диск со 2го слота, но по ошибке сдернули с 3го.. Ладно опять загрузка Ос — рейд degraded. Вставили диск обратно — начался ребилд. После минуты ребилда уже замечено в логах:

Цитата:

109 [Fatal, 3] 2012-10-14, 02:55:41 Controller ID: 0 Unrecoverable medium error during rebuild: PD -:-:2 Location 0x618bb0 80
109 [Fatal, 3] 2012-10-14, 02:55:35 Controller ID: 0 Unrecoverable medium error during rebuild: PD -:-:2 Location 0x60b433 79

И так же сыпется:

Цитата:

96 [Warning, 1] 2012-10-14, 03:16:46 Controller ID: 0 PD Predictive failure: -:-:2 82

Но сервер не виснет. Часов за 5, ребилд был выполнен.

Цитата:

96 [Warning, 1] 2012-10-14, 08:36:46 Controller ID: 0 PD Predictive failure: -:-:2 120

Запустил Start Consistency Check, сразу выдало:

Цитата:

60 [Fatal, 3] 2012-10-14, 08:46:07 Controller ID: 0 Consistency Check detected uncorrectable multiple medium errors: (PD -:-:2 Location 0x618bb0, VD 0) 125
60 [Fatal, 3] 2012-10-14, 08:46:07 Controller ID: 0 Consistency Check detected uncorrectable multiple medium errors: (PD -:-:3 Location 0x618bb0, VD 0) 124
60 [Fatal, 3] 2012-10-14, 08:46:00 Controller ID: 0 Consistency Check detected uncorrectable multiple medium errors: (PD -:-:2 Location 0x60b433, VD 0) 123
60 [Fatal, 3] 2012-10-14, 08:46:00 Controller ID: 0 Consistency Check detected uncorrectable multiple medium errors: (PD -:-:3 Location 0x60b433, VD 0) 122

Часа 3 была проверка, под конец вроде как перестали Predictive failure появляться. Итог проверки

Цитата:

59 [Information, 0] 2012-10-14, 12:26:26 Controller ID: 0 Consistency Check done with corrections on VD: 0, (corrections = 6) 148

На 1 HDD, который в слоте 2: Pred Fail Count 54, Media Error Count 4
На 2 HDD, который в слоте 3: Pred Fail Count 0, Media Error Count 2

У кого какие мысли, что делать дальше? Первый винт на замену? С него же началось сыпать. На втором сейчас смущает Media Error Count 2

Источник

Controller id 0 unrecoverable medium error during rebuild pd 0 2

Профиль | Отправить PM | Цитировать

Вложения


	Логи.zip
(23.2 Kb, 0 просмотров)

Комрады, нужна помощь в лечении RAID.
Raid 5 не хочет восстанавливаться, после вылета одного из винтов. Подсовывал разные винчестера, менял все SATA провода. На всех попытках, их было около 4-5, ребилд прерывался в разных местах. Лог в архиве целиком, а тут в сообщении последний строчки.

Конфигурация: Мать Intel Vernonia S5000XVN
SERVER—
OS name: Windows 2003
OS Version: 5.2
OS Architecture: x86_64
Driver Name: LSI MegaSR RAID5
Driver Version: 09.21.0914.2007
Application Version: RAID Web Console 2 — 14.08.01.04
HARDWARE—
Controller: Intel Embedded Server RAID Technology II(Bus 0,Dev 31)
Status: Needs attention
Firmware Package Version:
Firmware Version: null
BBU: NO
Enclosure(s): 0
Drive(s): 6
Virtual Drive(s): 1
Drives:—
PRODUCT ID VENDOR ID STATE DISK TYPE CAPACITY POWER STATE
ST3500320AS 5QM00GCF Online SATA 464.729 GB On
ST3500320AS 5QM008GE Online SATA 464.729 GB On
WDCWD5000AAKS0 WD-WCAS Online SATA 464.729 GB On
ST3500418AS 5VM3NZSW Online SATA 464.729 GB On
WDCWD5000AAKS0 WD-WCAS Unconfigured Good SATA 464.729 GB On
ST31000528AS 9VP95HXH Offline SATA 930.391 GB On
Virtual Drive(s):—
TARGET ID NAME CAPACITY STATE RAID LEVEL MegaRAID RECOVERY
0 — 1.815 TB Degraded RAID 5 NO

251 [Critical, 2] 2015-07-27, 04:38:13 Controller ID: 0 VD is now DEGRADED VD
0 2984
81 [Information, 0] 2015-07-27, 04:38:13 Controller ID: 0 State change on VD: 0
Previous = Offline Current =
Degraded 2983
0 [Information, 0] 2015-07-27, 04:38:13 Controller ID: 0 Firmware initialization started:
( PCI ID 0x2682/ 0x8086/ 0x3473 / 0x8086) 2982
114 [Information, 0] 2015-07-26, 03:38:06 Controller ID: 0 State change: PD
= -:-:5 Previous = Offline
Current = Failed 2981
114 [Information, 0] 2015-07-26, 03:38:06 Controller ID: 0 State change: PD
= -:-:5 Previous = Rebuild
Current = Offline 2980
197 [Fatal, 3] 2015-07-26, 03:38:06 Controller ID: 0 Bad block table is full; unable to log block: PD
= -:-:5, Block =
0x308f385c 2979
109 [Fatal, 3] 2015-07-26, 03:38:06 Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x308f385c 2978
109 [Fatal, 3] 2015-07-26, 03:38:04 Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x308f385b 2977
109 [Fatal, 3] 2015-07-26, 03:38:02 Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x308f385a 2976
109 [Fatal, 3] 2015-07-26, 03:38:00 Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x308f3859 2975
109 [Fatal, 3] 2015-07-26, 03:37:58 Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x308f3856 2974
109 [Fatal, 3] 2015-07-26, 03:37:56 Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x308f3855 2973
109 [Fatal, 3] 2015-07-26, 03:37:54 Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x308f26e3 2972
109 [Fatal, 3] 2015-07-26, 03:37:52 Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x308f26e2 2971

Источник

Кажись, все.. LSI Megaraid 9260-16i Raid6 и КД с архивом

Сообщение JagO » 05 май 2016, 22:10

Как неоднократно говорилось всеми умными людьми — «Пока гром не грянет. «, ну а дальше и так всем уже понятно.

На работе есть сервер на Windows Server 2008 R2 являющийся одновременно главным контроллером домена и файловым сервером.
Собран на базе контроллера LSI Megaraid 9260-16i и восьми 2Тб жестких дисков Seagate ST2000DM001.
Диски объединены в массив RAID6.

Некоторое время назад практически одновременно два диска вылетели из массива — в логах были сообщения вида Uncorrectable Media Errors со ссылками на эти два диска, затем были сообщения об их отключении и включении по питанию, а затем оба диска перешли в состояние Failed, а состояние массива стало Degraded.
Данные с массива при этом были доступны, система нормально работала, при перезапуске сервера — он без проблем стартовал.

Были заказаны да аналогичных жестких диска. Немногим больше одной недели их закупали, потом еще примерно неделю я выжидал подходящего момента для замены. В праздники приступил к замене. Сменил статус двух «больных» дисков на — «подготовка к замене». По данным установленной в ОС программы MegaRaid Storage Manager эти диски в вышли из Virtual Drive, спустились ниже и стали Unconfigured Bad. Я извлек их из машины. Через некоторое время последовательно установил два диска им на замену. При этом контроллер самостоятельно не начинал процедуру «ребилда», и по этому я, перевел оба новых диска в состояние Global Hot Spare, затем обновил программу управления контроллером (в смысле refresh) — и увидел, что оба диска «подтянулись» в Virtual Drive и на них начался процесс Rebuild’а. Шел он последовательно, сперва прогресс-бар заполнился на одном винте, затем начался на другом. Я не стал дожидаться окончания процедуры. По журналу контроллера примерно через 6 часов оба диска уже были «в строю». И все пришло в норму.

Но, как выяснилось, не на долго. Неприятности ждали меня в первый рабочий день после праздников.
В журнале мониторинга MSM были строчки с руганью как раз на два новых жестких диска, вида:
Controller ID: 0 Puncturing bad block: PD -:-:12 Location 0xa6cbad78 Event ID:97
Controller ID: 0 Puncturing bad block: PD -:-:14 Location 0xa6cbad78 Event ID:97

а через некоторое время (по тому же журналу за прошлый день), к ним добавились строки вида:
Controller ID: 0 Unrecoverable medium error during recovery: PD -:-:12 Location 0xa6cbad7e Event ID:111
и Controller ID: 0 Unrecoverable medium error during recovery: PD -:-:8 Location 0xa6cbad78 Event ID:111

То есть, «задурил» еще один жесткий диск. При этом, он очень быстро пришел в «негодность» — проскочило сообщения о том, что он перешел в состояние Unconfired Bad и он окрасился рыже-красным значком.

То есть, когда я утром запустил MSM и увидел все эти события в логе, состояние массива было Partially degraded.
Так как я не достаточно знаком с терминологией и особенностями работы raid-массивов, в частности, очень редко посещал этот форум и не читал обязательной и рекомендованной тут литературы, первым делом принялся искать на просторах всемирной сети информацию о том, что собственно произошло, и чем это все может грозить.

Но было уже поздно. Сотрудники фирмы сообщили о проблемах с доступам к некоторым расположенным на этом сервере сетевым папкам и файлам. Я проверил права доступа — там все было в норме, но и с самого сервера (локально) я не мог открыть эти директории. Затем почти сразу отовсюду посыпались ошибки системы, ошибки с адресами в ОЗУ и ошибки доступа к системным файлам Windows. Буквально через пару минут моя терминальная сессия повисла, а затем закрылась. Сервер ушел на перезагрузку, и ОС с него уже не загружалась. И вот тут, я запаниковал, и сделал единственное что пришло в голову после поверхностного прочтения информации об ошибках их журнала с контроллера — нужно сделать Consistency Check. Я запустил эту процедуру из БИОСа контроллера. Спустя сутки она была завершена, но не принесла положительного результата — ОС так и не загружалась.

Через некоторое время, после подбора загрузочного диска с дистрибутивом Windows 2008 Server R2, и его записи на флешку с поддержкой UEFI (в противном случае другие дистрибутивы и загрузочные носители ругались на то, что Восстановление системы с этого диска невозможно, видимо, не определяя GPT структуру разделов в массиве), удалось с нее загрузиться и запустить Восстановление системы. Там было всего три пункта для выбора, и верхний из них предлагал восстановление системы из резервной копии образа. Так как регулярные бэкапы на сетевое хранилище выполнялись только для файлового хранилища, судя по всему, не неся в себе System State и другую информацию для восстановления ОС, я попробовал посмотреть резервную копию на локальном диске С. Но, открывшейся проводник не смог получить доступ в разделы C и D (раздел под установленную ОС и раздел с файловым архивом), и выставив Вид в проводнике в Таблицу — я увидел, что файловая система этих разделов с массива — RAW.

Собственно, в этот момент я понял, что могу дальше необдуманными действиями совсем все поломать или сделать еще хуже.
Подскажите, пожалуйста, как мне быть? Как вы считаете, что можно в сложившейся ситуации предпринять? Какими должны быть мои действия для восстановления данных и работоспособности сервера?

P.S. Мысли и вопросы на данную тему..

а) так как массив Partially degraded — будет ли ему (и данным на нем) лучше или хуже, если я доставлю еще один такой же диск на 2Тб и запущу процесс пересборки массива? Как это может сказаться на нем?

б) может, мне с установочного дистрибутива ОС запустить CHKDSK /F для системного раздела и файловая система и структура будут восстановлены? Читал, что есть мнения, о том, что для проблемных RAID5 этого лучше не делать, так как это может совсем испортить данные на диске. Но у меня проблемный массив RAID6 ([хотя, в текущем состоянии, он, наверное, ближе к проблемного RAID5), да и верно ли это утверждение о вреде CHKDSK для RAID массивов созданных на аппаратном контроллере с кэшем, памятью, батареей и тп?

в) начинаю с бэкапов восстанавливать данные на отдельный диск на другом ПК, что бы к ним доступ появился у сотрудников. Затем новый КД соберу и введу его в эксплуатацию. верная последовательность действий?

г) я так понимаю, что в любом случае, раз уж массив поврежден, сыпал указанными выше ошибками, то вне зависимости от того, получится с него данные восстановить и перенести в другое место, или не получится, я могу смело на этом же контроллере к оставшимся незадействованными портам подключать новые диски и создавать новый дисковый массив, что бы в дальнейшем его использовать, а поврежденный массив вывести из эксплуатации и забрать диски?

Источник

Доброго дня!

Как неоднократно говорилось всеми умными людьми — «Пока гром не грянет…», ну а дальше и так всем уже понятно.

P.S. Мысли и вопросы на данную тему..

в) начинаю с бэкапов восстанавливать данные на отдельный диск на другом ПК, что бы к ним доступ появился у сотрудников. Затем новый КД соберу и введу его в эксплуатацию… верная последовательность действий?

Источник

Event error 2773

2350

I logged in to one of the servers and got these messages

a block on the physical disk has been punctured by the controller

2nd was this after I pushed okay for the 1st message

there was an unrecoverable disk media error during the rebuild or recovery operation

System is a Dell Server PE 1900

raid array of 5

Is this serious???

How do i fix this ?

I have full backups but with these errors

Backup Status
Operation: Backup
Active backup destination: File
Media name: «Backup.bkf created 11/2/2012 at 6:30 PM»

Volume shadow copy creation: Attempt 1.
Backup (via shadow copy) of «C: OS»
Backup set #1 on media #1
Backup description: «Set created 3/13/2009 at 1:49 PM»
Media name: «Backup.bkf created 11/2/2012 at 6:30 PM»

Backup Type: Normal

Backup started on 11/2/2012 at 6:42 PM.
Backup completed on 11/2/2012 at 6:56 PM.
Directories: 4297
Files: 33599
Bytes: 6,346,106,313
Time: 13 minutes and 49 seconds
Backup (via shadow copy) of «D: DATAPART2»
Backup set #2 on media #1
Backup description: «Set created 3/13/2009 at 1:49 PM»
Media name: «Backup.bkf created 11/2/2012 at 6:30 PM»

Backup Type: Normal

Backup started on 11/2/2012 at 6:56 PM.
Backup completed on 11/2/2012 at 7:22 PM.
Directories: 187
Files: 52053
Bytes: 9,708,156,144
Time: 26 minutes and 1 second
Backup (via shadow copy) of «E: DATAPART1»
Backup set #3 on media #1
Backup description: «Set created 3/13/2009 at 1:49 PM»
Media name: «Backup.bkf created 11/2/2012 at 6:30 PM»

Backup Type: Normal

Backup started on 11/2/2012 at 7:22 PM.
WARNING: Portions of «PDATAP_0004P_00047802178Cs_18357389Cn_18368358B_18373702.bin.gz» cannot be read. The backed up data is corrupt or incomplete.
This file will not restore correctly.
Warning: Unable to open «E:PDATAP_0004P_00047802178Cs_18357389Cn_18368358B_18373717.bin.gz» — skipped.
Reason: The specified network resource or device is no longer available.
Warning: Unable to open «E:PDATAP_0004P_00047802178Cs_18357389Cn_18368358B_18373733.bin.gz» — skipped.
Reason: The specified network resource or device is no longer available.
Warning: Unable to open «E:PDATAP_0004P_00047802178Cs_18357389Cn_18368358B_18373749.bin.gz» — skipped.
Reason: The specified network resource or device is no longer available.
Warning: Unable to open «E:PDATAP_0004P_00047802178Cs_18357389Cn_18368358B_18373764.bin.gz» — skipped.
Reason: The specified network resource or device is no longer available.
Warning: Unable to open «E:PDATAP_0004P_00047802178Cs_18357389Cn_18368358B_18373780.bin.gz» — skipped.
Reason: The specified network resource or device is no longer available.
Warning: Unable to open «E:PDATAP_0004P_00047802178Cs_18357389Cn_18368358B_18373795.bin.gz» — skipped.
Reason: The specified network resource or device is no longer available.
Warning: Unable to open «E:PDATAP_0004P_00047802178Cs_18357389Cn_18368358B_18373811.bin.gz» — skipped.
Reason: The specified network resource or device is no longer available.
Warning: Unable to open «E:PDATAP_0004P_00047802178Cs_18357389Cn_18368358B_18373827.bin.gz» — skipped.
Reason: The specified network resource or device is no longer available.
Could not access portions of directory E:PDATAP_0004P_00047802178Cs_18357389Cn_18368358.
You may not have permission to open the file, or the directory may be missing or damaged.
Please contact the owner or administrator.

Backup completed on 11/3/2012 at 12:55 AM.
Directories: 19692
Files: 400792
Corrupt: 1
Bytes: 152,656,027,676
Time: 5 hours, 33 minutes, and 15 seconds
Backup (via shadow copy) of «System State»
Backup set #4 on media #1
Backup description: «Set created 3/13/2009 at 1:49 PM»
Media name: «Backup.bkf created 11/2/2012 at 6:30 PM»

Backup Type: Copy

Backup started on 11/3/2012 at 12:55 AM.
Backup completed on 11/3/2012 at 12:57 AM.
Directories: 229
Files: 2938
Bytes: 578,352,793
Time: 2 minutes and 9 seconds

———————-

Edited by

Sunday, November 4, 2012 9:55 PM

Источник

I am having a problem with a degraded drive on my server. I used Symantec backup exec to make backups, but a few days ago the backups stopped working. The backups stopped due to a hard drive that was failing on the RAID 10 configuration. I though I had determined which hard drive was bad, so I replaced drive # 1. I now believe the problem was with Drive 0. When I replaced the hard drive the Intel RAID web console started to rebuild the drive. However it encountered many media errors along the way and at one point said Drive PD: 0 is predictive fail 0:3. Below I will post the error messages.

Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x1627e39e

several of these at different memory locations.

Controller ID: 0 PD Predictive failure: 0:3

I am not sure on this, but I think these errors are because I replaced the wrong drive. I am now wondering what to do next. The server shut down some time today, but it came back up with no problem. When it did, the drive began to try and rebuild itself again. It is currently at 20% right now, but I am worried it will start encoutering errors again. I want to know if I can put the origional drive back into slot 1. I am worried bacause I think the drive in slot 0 is the bad one, and I didn’t copy the span over correctly to the drive I replaced in slot 1. I am worried if I put the origional drive back in the raid controller will not recognize it as it was or it will start to try and rebuild it. That would leave with with a failing drive, and one that didn’t replicate properly.

To make matters worse I was planning to go on vacation on Monday. I haven’t gotten a successful backup since Tuesday. I am a little over my head on this one, I haven’t worked much with Raid before. If anyone could please give me some sugguestions I would be extremely grateful. I will attach a screen shot of the Spanned drive group.

Источник

Controller id 0 unrecoverable medium error during rebuild pd 0 2

Controller id 0 unrecoverable medium error during rebuild pd 0 2

Кажись, все.. LSI Megaraid 9260-16i Raid6 и КД с архивом

Кажись, все.. LSI Megaraid 9260-16i Raid6 и КД с архивом

Читайте также: