Controller id 0 consistency check corrected medium error

Controller id 0 unrecoverable medium error during rebuild pd 0 2 Имеем сервер Intel 2U SR2500ALBRPR http://www.nix.ru/autocatalog/server_systems_intel/Intel_2U_SR2500ALBRPR_LGA771_i5000P_SATA_RAID_5xHotSwap_SATA_2xGbLAN_8DDRII_FBDIMM_750W_51530.html с интегрированным рейд контроллером. На нем win 2к3 с AD и 1Ской на борту. В рейде 10 два винта Seagate Barracuda ES.2 — 500 гб. Около двух недель назад, полетел один из дисков. По симптомам — просто […]

Содержание

  1. Controller id 0 unrecoverable medium error during rebuild pd 0 2
  2. Controller id 0 unrecoverable medium error during rebuild pd 0 2
  3. Кажись, все.. LSI Megaraid 9260-16i Raid6 и КД с архивом
  4. Кажись, все.. LSI Megaraid 9260-16i Raid6 и КД с архивом

Controller id 0 unrecoverable medium error during rebuild pd 0 2

Имеем сервер Intel 2U SR2500ALBRPR http://www.nix.ru/autocatalog/server_systems_intel/Intel_2U_SR2500ALBRPR_LGA771_i5000P_SATA_RAID_5xHotSwap_SATA_2xGbLAN_8DDRII_FBDIMM_750W_51530.html с интегрированным рейд контроллером. На нем win 2к3 с AD и 1Ской на борту. В рейде 10 два винта Seagate Barracuda ES.2 — 500 гб.

Около двух недель назад, полетел один из дисков. По симптомам — просто зависла машина, перезагрузка не помогала, сервер просто висел пока не сдернули один из хардов. Было принято решение заменить сразу оба. Взяли такие: HP 500GB 7.2k HP MDL SATA 1y Wty HDD (458928-B21). Предварительно был прошит биос на материнки на всякий случай, рейд контроллер прошить не удалось. Вместо «сломанного» диска, был поставлен один новый и сразу был включен ребилд. Второй новый диск, был поставлен в Hot Spare.
Собственно ребилд прошел нормально, что подтверждают логи — без ошибок.

Цитата:

100 [Information, 0] 2012-09-29, 01:00:20 Controller ID: 0 Rebuild complete
-:-:2 19

Далее, был вытащен второй ещё рабочий «старый» диск:

Цитата:

114 [Information, 0] 2012-10-01, 04:26:15 Controller ID: 0 State change: PD
= -:-:1 Previous = Online
Current = Offline 20
81 [Information, 0] 2012-10-01, 04:26:15 Controller ID: 0 State change on VD: 0
Previous = Optimal Current =
Degraded 21
251 [Critical, 2] 2012-10-01, 04:26:15 Controller ID: 0 VD is now DEGRADED VD
0 22
112 [Warning, 1] 2012-10-01, 04:26:15 Controller ID: 0 PD removed:
-:-:1 23
114 [Information, 0] 2012-10-01, 04:26:15 Controller ID: 0 State change: PD
= -:-:1 Previous = Offline
Current = Failed 24
114 [Information, 0] 2012-10-01, 04:26:16 Controller ID: 0 State change: PD
= -:-:3 Previous = Hot Spare
Current = Rebuild 25
105 [Information, 0] 2012-10-01, 04:26:16 Controller ID: 0 Rebuild started: PD
-:-:3 26

Сразу сработал Hot Spare, начал ребилд второго нового харда. Но не совсем корректно, как позже только выяснилось по логам со следующими ошибками:

Цитата:

109 [Fatal, 3] 2012-10-01, 04:35:56 Controller ID: 0 Unrecoverable medium error during rebuild: PD -:-:2 Location 0x618bb0 29
109 [Fatal, 3] 2012-10-01, 04:35:45 Controller ID: 0 Unrecoverable medium error during rebuild: PD -:-:2 Location 0x60b433 28

на первом новом рабочем винте (PD -:-:2 — находится в слоте 2).

Сам ребилд завершился корректно:

Цитата:

100 [Information, 0] 2012-10-02, 04:47:14 Controller ID: 0 Rebuild complete
-:-:3 36
249 [Information, 0] 2012-10-02, 04:47:14 Controller ID: 0 VD is now OPTIMAL VD
0 35
81 [Information, 0] 2012-10-02, 04:47:14 Controller ID: 0 State change on VD: 0
Previous = Degraded Current =
Optimal 34

Собственно до сегодняшнего дня, точнее даже вчерашней ночи — все работало без проблем (это около 2ух недель). Через Raid Web Console 2 периодически мониторил. Но тут утром позвонили, с проблемой — не могут зайти по терминалу в 1С. Также потыкался по удаленки — не пускает. Пинги шли. Перезагрузили сервер с кнопки — вроде ок. Полез смотреть логи рейда сразу. В консоле все нормально — рейд не рассыпался, за исключением сообщений, каждые 10 минут:

Цитата:

96 [Warning, 1] 2012-10-14, 12:36:47 Controller ID: 0 PD Predictive failure:
-:-:2 59
96 [Warning, 1] 2012-10-14, 12:24:49 Controller ID: 0 PD Predictive failure:
-:-:2 58
96 [Warning, 1] 2012-10-14, 12:12:52 Controller ID: 0 PD Predictive failure:
-:-:2 57
96 [Warning, 1] 2012-10-14, 12:00:57 Controller ID: 0 PD Predictive failure:
-:-:2 56
96 [Warning, 1] 2012-10-13, 23:49:01 Controller ID: 0 PD Predictive failure:
-:-:2 55
96 [Warning, 1] 2012-10-13, 23:37:02 Controller ID: 0 PD Predictive failure:
-:-:2 54

Pred Fail Count растет. Пока читал логи, сервер опять виснет намертво.. Было принято решение сдернуть диск со 2го слота, но по ошибке сдернули с 3го.. Ладно опять загрузка Ос — рейд degraded. Вставили диск обратно — начался ребилд. После минуты ребилда уже замечено в логах:

Цитата:

109 [Fatal, 3] 2012-10-14, 02:55:41 Controller ID: 0 Unrecoverable medium error during rebuild: PD -:-:2 Location 0x618bb0 80
109 [Fatal, 3] 2012-10-14, 02:55:35 Controller ID: 0 Unrecoverable medium error during rebuild: PD -:-:2 Location 0x60b433 79

И так же сыпется:

Цитата:

96 [Warning, 1] 2012-10-14, 03:16:46 Controller ID: 0 PD Predictive failure: -:-:2 82

Но сервер не виснет. Часов за 5, ребилд был выполнен.

Цитата:

96 [Warning, 1] 2012-10-14, 08:36:46 Controller ID: 0 PD Predictive failure: -:-:2 120

Запустил Start Consistency Check, сразу выдало:

Цитата:

60 [Fatal, 3] 2012-10-14, 08:46:07 Controller ID: 0 Consistency Check detected uncorrectable multiple medium errors: (PD -:-:2 Location 0x618bb0, VD 0) 125
60 [Fatal, 3] 2012-10-14, 08:46:07 Controller ID: 0 Consistency Check detected uncorrectable multiple medium errors: (PD -:-:3 Location 0x618bb0, VD 0) 124
60 [Fatal, 3] 2012-10-14, 08:46:00 Controller ID: 0 Consistency Check detected uncorrectable multiple medium errors: (PD -:-:2 Location 0x60b433, VD 0) 123
60 [Fatal, 3] 2012-10-14, 08:46:00 Controller ID: 0 Consistency Check detected uncorrectable multiple medium errors: (PD -:-:3 Location 0x60b433, VD 0) 122

Часа 3 была проверка, под конец вроде как перестали Predictive failure появляться. Итог проверки

Цитата:

59 [Information, 0] 2012-10-14, 12:26:26 Controller ID: 0 Consistency Check done with corrections on VD: 0, (corrections = 6) 148

На 1 HDD, который в слоте 2: Pred Fail Count 54, Media Error Count 4
На 2 HDD, который в слоте 3: Pred Fail Count 0, Media Error Count 2

У кого какие мысли, что делать дальше? Первый винт на замену? С него же началось сыпать. На втором сейчас смущает Media Error Count 2

Источник

Controller id 0 unrecoverable medium error during rebuild pd 0 2

Профиль | Отправить PM | Цитировать

Вложения

Логи.zip
(23.2 Kb, 0 просмотров)

Комрады, нужна помощь в лечении RAID.
Raid 5 не хочет восстанавливаться, после вылета одного из винтов. Подсовывал разные винчестера, менял все SATA провода. На всех попытках, их было около 4-5, ребилд прерывался в разных местах. Лог в архиве целиком, а тут в сообщении последний строчки.

Конфигурация: Мать Intel Vernonia S5000XVN
SERVER—
OS name: Windows 2003
OS Version: 5.2
OS Architecture: x86_64
Driver Name: LSI MegaSR RAID5
Driver Version: 09.21.0914.2007
Application Version: RAID Web Console 2 — 14.08.01.04
HARDWARE—
Controller: Intel Embedded Server RAID Technology II(Bus 0,Dev 31)
Status: Needs attention
Firmware Package Version:
Firmware Version: null
BBU: NO
Enclosure(s): 0
Drive(s): 6
Virtual Drive(s): 1
Drives:—
PRODUCT ID VENDOR ID STATE DISK TYPE CAPACITY POWER STATE
ST3500320AS 5QM00GCF Online SATA 464.729 GB On
ST3500320AS 5QM008GE Online SATA 464.729 GB On
WDCWD5000AAKS0 WD-WCAS Online SATA 464.729 GB On
ST3500418AS 5VM3NZSW Online SATA 464.729 GB On
WDCWD5000AAKS0 WD-WCAS Unconfigured Good SATA 464.729 GB On
ST31000528AS 9VP95HXH Offline SATA 930.391 GB On
Virtual Drive(s):—
TARGET ID NAME CAPACITY STATE RAID LEVEL MegaRAID RECOVERY
0 — 1.815 TB Degraded RAID 5 NO

251 [Critical, 2] 2015-07-27, 04:38:13 Controller ID: 0 VD is now DEGRADED VD
0 2984
81 [Information, 0] 2015-07-27, 04:38:13 Controller ID: 0 State change on VD: 0
Previous = Offline Current =
Degraded 2983
0 [Information, 0] 2015-07-27, 04:38:13 Controller ID: 0 Firmware initialization started:
( PCI ID 0x2682/ 0x8086/ 0x3473 / 0x8086) 2982
114 [Information, 0] 2015-07-26, 03:38:06 Controller ID: 0 State change: PD
= -:-:5 Previous = Offline
Current = Failed 2981
114 [Information, 0] 2015-07-26, 03:38:06 Controller ID: 0 State change: PD
= -:-:5 Previous = Rebuild
Current = Offline 2980
197 [Fatal, 3] 2015-07-26, 03:38:06 Controller ID: 0 Bad block table is full; unable to log block: PD
= -:-:5, Block =
0x308f385c 2979
109 [Fatal, 3] 2015-07-26, 03:38:06 Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x308f385c 2978
109 [Fatal, 3] 2015-07-26, 03:38:04 Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x308f385b 2977
109 [Fatal, 3] 2015-07-26, 03:38:02 Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x308f385a 2976
109 [Fatal, 3] 2015-07-26, 03:38:00 Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x308f3859 2975
109 [Fatal, 3] 2015-07-26, 03:37:58 Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x308f3856 2974
109 [Fatal, 3] 2015-07-26, 03:37:56 Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x308f3855 2973
109 [Fatal, 3] 2015-07-26, 03:37:54 Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x308f26e3 2972
109 [Fatal, 3] 2015-07-26, 03:37:52 Controller ID: 0 Unrecoverable medium error during rebuild: PD 0 Location 0x308f26e2 2971

Источник

Кажись, все.. LSI Megaraid 9260-16i Raid6 и КД с архивом

Кажись, все.. LSI Megaraid 9260-16i Raid6 и КД с архивом

Сообщение JagO » 05 май 2016, 22:10

Как неоднократно говорилось всеми умными людьми — «Пока гром не грянет. «, ну а дальше и так всем уже понятно.

На работе есть сервер на Windows Server 2008 R2 являющийся одновременно главным контроллером домена и файловым сервером.
Собран на базе контроллера LSI Megaraid 9260-16i и восьми 2Тб жестких дисков Seagate ST2000DM001.
Диски объединены в массив RAID6.

Некоторое время назад практически одновременно два диска вылетели из массива — в логах были сообщения вида Uncorrectable Media Errors со ссылками на эти два диска, затем были сообщения об их отключении и включении по питанию, а затем оба диска перешли в состояние Failed, а состояние массива стало Degraded.
Данные с массива при этом были доступны, система нормально работала, при перезапуске сервера — он без проблем стартовал.

Были заказаны да аналогичных жестких диска. Немногим больше одной недели их закупали, потом еще примерно неделю я выжидал подходящего момента для замены. В праздники приступил к замене. Сменил статус двух «больных» дисков на — «подготовка к замене». По данным установленной в ОС программы MegaRaid Storage Manager эти диски в вышли из Virtual Drive, спустились ниже и стали Unconfigured Bad. Я извлек их из машины. Через некоторое время последовательно установил два диска им на замену. При этом контроллер самостоятельно не начинал процедуру «ребилда», и по этому я, перевел оба новых диска в состояние Global Hot Spare, затем обновил программу управления контроллером (в смысле refresh) — и увидел, что оба диска «подтянулись» в Virtual Drive и на них начался процесс Rebuild’а. Шел он последовательно, сперва прогресс-бар заполнился на одном винте, затем начался на другом. Я не стал дожидаться окончания процедуры. По журналу контроллера примерно через 6 часов оба диска уже были «в строю». И все пришло в норму.

Но, как выяснилось, не на долго. Неприятности ждали меня в первый рабочий день после праздников.
В журнале мониторинга MSM были строчки с руганью как раз на два новых жестких диска, вида:
Controller ID: 0 Puncturing bad block: PD -:-:12 Location 0xa6cbad78 Event ID:97
Controller ID: 0 Puncturing bad block: PD -:-:14 Location 0xa6cbad78 Event ID:97

а через некоторое время (по тому же журналу за прошлый день), к ним добавились строки вида:
Controller ID: 0 Unrecoverable medium error during recovery: PD -:-:12 Location 0xa6cbad7e Event ID:111
и Controller ID: 0 Unrecoverable medium error during recovery: PD -:-:8 Location 0xa6cbad78 Event ID:111

То есть, «задурил» еще один жесткий диск. При этом, он очень быстро пришел в «негодность» — проскочило сообщения о том, что он перешел в состояние Unconfired Bad и он окрасился рыже-красным значком.

То есть, когда я утром запустил MSM и увидел все эти события в логе, состояние массива было Partially degraded.
Так как я не достаточно знаком с терминологией и особенностями работы raid-массивов, в частности, очень редко посещал этот форум и не читал обязательной и рекомендованной тут литературы, первым делом принялся искать на просторах всемирной сети информацию о том, что собственно произошло, и чем это все может грозить.

Но было уже поздно. Сотрудники фирмы сообщили о проблемах с доступам к некоторым расположенным на этом сервере сетевым папкам и файлам. Я проверил права доступа — там все было в норме, но и с самого сервера (локально) я не мог открыть эти директории. Затем почти сразу отовсюду посыпались ошибки системы, ошибки с адресами в ОЗУ и ошибки доступа к системным файлам Windows. Буквально через пару минут моя терминальная сессия повисла, а затем закрылась. Сервер ушел на перезагрузку, и ОС с него уже не загружалась. И вот тут, я запаниковал, и сделал единственное что пришло в голову после поверхностного прочтения информации об ошибках их журнала с контроллера — нужно сделать Consistency Check. Я запустил эту процедуру из БИОСа контроллера. Спустя сутки она была завершена, но не принесла положительного результата — ОС так и не загружалась.

Через некоторое время, после подбора загрузочного диска с дистрибутивом Windows 2008 Server R2, и его записи на флешку с поддержкой UEFI (в противном случае другие дистрибутивы и загрузочные носители ругались на то, что Восстановление системы с этого диска невозможно, видимо, не определяя GPT структуру разделов в массиве), удалось с нее загрузиться и запустить Восстановление системы. Там было всего три пункта для выбора, и верхний из них предлагал восстановление системы из резервной копии образа. Так как регулярные бэкапы на сетевое хранилище выполнялись только для файлового хранилища, судя по всему, не неся в себе System State и другую информацию для восстановления ОС, я попробовал посмотреть резервную копию на локальном диске С. Но, открывшейся проводник не смог получить доступ в разделы C и D (раздел под установленную ОС и раздел с файловым архивом), и выставив Вид в проводнике в Таблицу — я увидел, что файловая система этих разделов с массива — RAW.

Собственно, в этот момент я понял, что могу дальше необдуманными действиями совсем все поломать или сделать еще хуже.
Подскажите, пожалуйста, как мне быть? Как вы считаете, что можно в сложившейся ситуации предпринять? Какими должны быть мои действия для восстановления данных и работоспособности сервера?

P.S. Мысли и вопросы на данную тему..

а) так как массив Partially degraded — будет ли ему (и данным на нем) лучше или хуже, если я доставлю еще один такой же диск на 2Тб и запущу процесс пересборки массива? Как это может сказаться на нем?

б) может, мне с установочного дистрибутива ОС запустить CHKDSK /F для системного раздела и файловая система и структура будут восстановлены? Читал, что есть мнения, о том, что для проблемных RAID5 этого лучше не делать, так как это может совсем испортить данные на диске. Но у меня проблемный массив RAID6 ([хотя, в текущем состоянии, он, наверное, ближе к проблемного RAID5), да и верно ли это утверждение о вреде CHKDSK для RAID массивов созданных на аппаратном контроллере с кэшем, памятью, батареей и тп?

в) начинаю с бэкапов восстанавливать данные на отдельный диск на другом ПК, что бы к ним доступ появился у сотрудников. Затем новый КД соберу и введу его в эксплуатацию. верная последовательность действий?

г) я так понимаю, что в любом случае, раз уж массив поврежден, сыпал указанными выше ошибками, то вне зависимости от того, получится с него данные восстановить и перенести в другое место, или не получится, я могу смело на этом же контроллере к оставшимся незадействованными портам подключать новые диски и создавать новый дисковый массив, что бы в дальнейшем его использовать, а поврежденный массив вывести из эксплуатации и забрать диски?

Источник

Обновлено 13.08.2016

Сообщение Corrected medium error during recovery на IBM ServeRAID M5015-01

Сообщение Corrected medium error during recovery на IBM ServeRAID M5015-01

Всем привет сегодня расскажу про сообщение Corrected medium error during recovery на IBM ServeRAID M5015. Ситуация следующая, пишет базист и сообщает что у него есть проблема на сервере с MS SQL 2014. MS SQL 2014 испытывает проблемы с выполнением запросов, SQL сервер генерит Exception. Стал разбираться в чем дело.

Ранее с этим сервером была проблема на уровне RAID контроллера о ней я писал тут (Код события 55, Структура файловой системы на диске повреждена и непригодна к использованию. Запустите программу CHKDSK на томе DeviceHarddiskVolume2). Первым делом полез на RAID контроллер через утилиты msm (megaraid storage manager). напомню megaraid storage manager это утилита для настройки RAID контроллера LSI. Внешне было все зеленым, но глаз привлекло вот такое информационное сообщение:

Controller ID:  0   Unexpected sense:   PD       =   -:-:4Unrecovered read error,   CDB   =    0x28 0x00 0x15 0xf4 0xd1 0xa1 0x00 0x00 0x5f 0x00    ,   Sense   =    0xf0 0x00 0x03 0x15 0xf4 0xd1 0xa1 0x18 0xa1 0x61 0x51 0x89 0x11 0x00 0x81 0x80 0x00 0xff 0x00 0x00 0x03 0x11 0x00 0x81 0x01 0x85 0xcc 0x01 0x05 0x92 0x00 0x00

и после этого предупреждения об ошибке было, что ошибка исправлена функцией Read Patrol

Controller ID: 0 Corrected medium error during recovery:PD-:-:4 Location 0x15f4d1a1

Controller ID:0 Corrected medium error during recovery:PD -:-:4 Location 0x15f4d1a0

Почитав форум LSI было понятно что в этом сообщение если оно не warning и не fatal error, ничего страшного нет. Просто были ошибки при записи RAID контроллер их исправил сам.

msm

Сообщение Corrected medium error during recovery на IBM ServeRAID M5015-02

для надежности сохранил логи msm, делается это просто либо правым кликом снизу и выбором пункта Save asd text.

megaraid storage manager

Сообщение Corrected medium error during recovery на IBM ServeRAID M5015-03

Либо пункт megaraid storage manager log-save as text

megaraid storage manager

Сообщение Corrected medium error during recovery на IBM ServeRAID M5015-04

megaraid storage manager больше нам не понадобится, на RAID больше не грешим. Следующим пунктом проверим Windows Server 2012 R2 в моем случае.

Проверка дисков Chkdsk в Windows Server 2012 R2

Далее проверим файловую систему NTFS с помощью утилиты Chkdsk, подробнее тут я уже описывал. У меня все с файловой системой было отлично вывод результатов был приблизительно таким. Посмотреть его можно в просмотре событий в журнале приложения код 26226.

Программа Chkdsk запущена на моментальном снимке тома в режиме сканирования.

Проверка файловой системы на C:

Этап 1. Проверка базовой структуры файловой системы…

Обработано записей файлов: 197120. Проверка файлов завершена.

Обработано больших файловых записей: 2453.
Обработано поврежденных файловых записей: 0.
Этап 2. Проверка связей имен файлов…

Обработано записей индекса: 279094. Проверка индексов завершена.

Этап 3. Проверка дескрипторов безопасности…
Проверка дескрипторов безопасности завершена.

Обработано файлов данных: 40988. CHKDSK проверяет журнал USN…

Обработано байт USN: 39594520. Завершена проверка журнала USN

Windows проверила файловую систему и не обнаружила проблем.
Дальнейшие действия не требуются.

209610751 КБ всего на диске.
42123992 КБ в 151742 файлах.
118088 КБ в 40989 индексах.
309739 КБ используется системой.
65536 КБ занято под файл журнала.
167058932 КБ свободно на диске.

Видим Chkdsk ничего плохого не показал.

Chkdsk

Сообщение Corrected medium error during recovery на IBM ServeRAID M5015-05

Поизучав еще более детально логи просмотра событий параллельно решил еще вот такую ошибку

sqlservr (1456) Не удалось открыть файл «C:Windowssystem32LogFilesSumSystemIdentity.mdb» для чтения и записи, системная ошибка 5 (0x00000005): «Отказано в доступе. «.  Операция открытия файла не будет выполнена, ошибка: -1032 (0xfffffbf8).

lsi megaraid storage manager

Сообщение Corrected medium error during recovery на IBM ServeRAID M5015-06

Проблема решается довольно просто нужно просто дать права на запись учетной записи от имени которой работает SQl на папку C:Windowssystem32LogFilesSum, но меня это натолкнуло посмотреть возможно ли проблема с SQL 2014.

Выскакивала еще вот такая вот ошибка

IBM ServeRAID M5015

Сообщение Corrected medium error during recovery на IBM ServeRAID M5015-07

В итоге надыбал вот это Error messages are logged when you execute a non-cacheable auto-parameterized query in SQL Server 2012 or 2014, где Microsoft предлагало поставить последний CU для SQL 2014. Скачиваем устанавливаем радуемся жизни, что ошибка ушла.

Материал сайта pyatilistnik.org

Модераторы: Trinity admin`s, Free-lance moderator`s

zaki

Junior member
Сообщения: 13
Зарегистрирован: 16 янв 2017, 22:58

Проблема с 2 дисками в RAID1 (LSI 9211-4i)

Появились тормоза при работе с базами 1с, в логах контроллера (LSI 9211-4i) вылезла ошибка «Controller ID: 0 PD Predictive failure: 0». После запустил «check consistency» и огорчился…. многочисленные повторяющиеся ошибки:
«Controller ID: 0 Unexpected sense: PD = 0-No defect spare location available»,
«Controller ID: 0 Consistency Check detected uncorrectable multiple medium errors: (PD -:-:-1 Location 0x4e36990, VD 0)»,
«Controller ID: 0 Unexpected sense: PD = -:-:0-Peripheral device write fault», «Controller ID: 0 Unexpected sense: PD = -:-:0-Unrecovered read error»
«Controller ID: 0 PD Predictive failure: -:-:0»
Полный лог в файле.
На 1 диске Media Error Count: 39, на 0 диске Media Error Count: 0
Контроллер пишет статус «оптимал»
Судя по ошибкам, проблемы сразу на двух дисках. Очень интересует мнение профессионалов, что лучше сделать в данной ситуации? Возможна ли замена только первого диска на котором Media Error Count: 39?

Вложения
2017-01-17_02-57-11 (2).png
DC1_1_17_2017.txt
лог
(1.39 МБ) 619 скачиваний


Аватара пользователя

Tert

Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Re: Проблема с 2 дисками в RAID1 (LSI 9211-4i)

Сообщение

Tert » 17 янв 2017, 10:23

zaki
Попробуйте заменить кабель от контроллера к дискам.
Если не поможет, то скорее всего надо менять диск. Проверьте его фирменной утилитой Seagate.


zaki

Junior member
Сообщения: 13
Зарегистрирован: 16 янв 2017, 22:58

Re: Проблема с 2 дисками в RAID1 (LSI 9211-4i)

Сообщение

zaki » 17 янв 2017, 11:35

1)Подскажите пожалуйста, какие именно ошибки указывают на замену кабеля. Не пойму, что и как сломалось в кабеле, т.к. 2 недели назад было все в порядке.
2)Можно поменять только первый диск (id1), где Media Error Count: 39?
Второй диск (id0) можно оставить или нет? По сообщениям ему прогнозируется отказ, проблемы с чтением и записью. На сколько критичны эти предупреждения для данного контроллера и диска?


Аватара пользователя

Tert

Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Re: Проблема с 2 дисками в RAID1 (LSI 9211-4i)

Сообщение

Tert » 17 янв 2017, 13:36

zaki
Media Error — это ошибки, возникающие при передаче. Поэтому разумно вначале проверить путь, по которому идут эти данные.


zaki

Junior member
Сообщения: 13
Зарегистрирован: 16 янв 2017, 22:58

Re: Проблема с 2 дисками в RAID1 (LSI 9211-4i)

Сообщение

zaki » 18 янв 2017, 12:01

По кабелю все понятно…. Еще интересует Ваше мнение по дискам, т.к. ошибок достаточно….


Аватара пользователя

Tert

Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Re: Проблема с 2 дисками в RAID1 (LSI 9211-4i)

Сообщение

Tert » 18 янв 2017, 14:56

zaki
О дисках Seagate вас должно интересовать только мнение этой программы :-).


zaki

Junior member
Сообщения: 13
Зарегистрирован: 16 янв 2017, 22:58

Re: Проблема с 2 дисками в RAID1 (LSI 9211-4i)

Сообщение

zaki » 19 янв 2017, 10:50

Согласен, но SeaTools for Windows видит только Logical Volume! Эта прога не знает контроллер LSI 9211-4i и не показывает смарт хардов. Программа Hard Disk Sentinel знает контроллер LSI 9211-4i и показывает всю информацию по хардам.


Аватара пользователя

Stranger03

Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Проблема с 2 дисками в RAID1 (LSI 9211-4i)

Сообщение

Stranger03 » 19 янв 2017, 12:56

zaki писал(а):Согласен, но SeaTools for Windows видит только Logical Volume! Нужна прога, которая знает контроллер LSI 9211-4i и покажет смарт хардов.

Если я правильно понимаю, то LSI 9211-4i — это HBA с возможностью создания простых уровней РАИД массивов, аля Intel ICH. Если бы вы на контроллере не стали делать массивов, а прокинули диски, то софт Сегейта смог бы увидеть физические диски. Но как только на уровне контроллера вы сделали массив, то ни один софт не увидит физический диск. Для этого вам нужен другой контроллер в режиме HBA.


zaki

Junior member
Сообщения: 13
Зарегистрирован: 16 янв 2017, 22:58

Re: Проблема с 2 дисками в RAID1 (LSI 9211-4i)

Сообщение

zaki » 19 янв 2017, 14:35

Stranger03 писал(а): Если бы вы на контроллере не стали делать массивов, а прокинули диски, то софт Сегейта смог бы увидеть физические диски. Но как только на уровне контроллера вы сделали массив, то ни один софт не увидит физический диск. Для этого вам нужен другой контроллер в режиме HBA.

Софт Сегейта вне массива видит диски, но у меня задача удаленно мониторить состояние смарт дисков состоящих в массиве.
Физические диски в созданном массиве на контроллере LSI 9211-4i видит программа Hard Disk Sentinel Professional Portable v4.71, проверено лично 10 минут назад.


Аватара пользователя

Tert

Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Re: Проблема с 2 дисками в RAID1 (LSI 9211-4i)

Сообщение

Tert » 19 янв 2017, 14:41

zaki
С помощью SeaTools надо однократно проверить подозрительный диск, подключив его к другому контроллеру.
Если программа говорит, что диск сбойный, то можете смело нести его в гарантию.

Всякие сторонние программы для гарантийщиков Seagate показателем работоспособности диска не являются.


zaki

Junior member
Сообщения: 13
Зарегистрирован: 16 янв 2017, 22:58

Re: Проблема с 2 дисками в RAID1 (LSI 9211-4i)

Сообщение

zaki » 19 янв 2017, 15:08

Tert писал(а):zaki
С помощью SeaTools надо однократно проверить подозрительный диск, подключив его к другому контроллеру.
Если программа говорит, что диск сбойный, то можете смело нести его в гарантию.

Всякие сторонние программы для гарантийщиков Seagate показателем работоспособности диска не являются.

Гарантия в данный момент не интересует, но спасибо за совет.


Аватара пользователя

Stranger03

Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Проблема с 2 дисками в RAID1 (LSI 9211-4i)

Сообщение

Stranger03 » 20 янв 2017, 08:24

zaki писал(а):Софт Сегейта вне массива видит диски, но у меня задача удаленно мониторить состояние смарт дисков состоящих в массиве.

В этом нет никакого смысла. В утилите управления контроллером настройте алерты на почту. Что будет с диском, прога сообщит, в логах будет все видно.


zaki

Junior member
Сообщения: 13
Зарегистрирован: 16 янв 2017, 22:58

Re: Проблема с 2 дисками в RAID1 (LSI 9211-4i)

Сообщение

zaki » 20 янв 2017, 12:27

Stranger03 писал(а):
В этом нет никакого смысла. В утилите управления контроллером настройте алерты на почту. Что будет с диском, прога сообщит, в логах будет все видно.

Утилита контроллера давно настроена, логи приходят на почту. Вопрос заключался в том, чтобы в подробностях посмотреть состояние диска (параметры смарт и др.), утилита присылает обобщенную информацию (типо: у диска 0 намечаются проблемы и т.д.)


Аватара пользователя

Tert

Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Re: Проблема с 2 дисками в RAID1 (LSI 9211-4i)

Сообщение

Tert » 23 янв 2017, 14:30

zaki
Диски, объединенные в массивы, на аппаратных RAID контроллерах обычно недоступны для мониторинга сторонними утилитами.
Только утилитой RAID контроллера. Но обычно этого достаточно.


Вернуться в «Массивы — Технические вопросы, решение проблем.»


Перейти

  • Серверы
  • ↳   Серверы — Конфигурирование
  • ↳   Конфигурации сервера для 1С
  • ↳   Серверы — Решение проблем
  • ↳   Серверы — ПО, Unix подобные системы
  • ↳   Серверы — ПО, Windows система, приложения.
  • ↳   Серверы — ПО, Базы Данных и их использование
  • ↳   Серверы — FAQ
  • Дисковые массивы, RAID, SCSI, SAS, SATA, FC
  • ↳   Массивы — RAID технологии.
  • ↳   Массивы — Технические вопросы, решение проблем.
  • ↳   Массивы — FAQ
  • Майнинг, плоттинг, фарминг (Добыча криптовалют)
  • ↳   Proof Of Work
  • ↳   Proof Of Space
  • Кластеры — вычислительные и отказоустойчивые ( SMP, vSMP, NUMA, GRID , NAS, SAN)
  • ↳   Кластеры, Аппаратная часть
  • ↳   Deep Learning и AI
  • ↳   Кластеры, Программное обеспечение
  • ↳   Кластеры, параллельные файловые системы
  • Медиа технологии, и цифровое ТВ, IPTV, DVB
  • ↳   Станции видеомонтажа, графические системы, рендеринг.
  • ↳   Видеонаблюдение
  • ↳   Компоненты Digital TV решений
  • ↳   Студийные системы, производство ТВ, Кино и рекламы
  • Инфраструктурное ПО и его лицензирование
  • ↳   Виртуализация
  • ↳   Облачные технологии
  • ↳   Резервное копирования / Защита / Сохранение данных
  • Сетевые решения
  • ↳   Сети — Вопросы конфигурирования сети
  • ↳   Сети — Технические вопросы, решение проблем
  • Общие вопросы
  • ↳   Обсуждение общих вопросов
  • ↳   Приколы нашего IT городка
  • ↳   Регистрация на форуме

About Lenovo

  • Our Company

  • News

  • Investor Relations

  • Sustainability

  • Product Compliance

  • Product Security

  • Lenovo Open Source

  • Legal Information

  • Jobs at Lenovo

Shop

  • Laptops & Ultrabooks

  • Tablets

  • Desktops & All-in-Ones

  • Workstations

  • Accessories & Software

  • Servers

  • Storage

  • Networking

  • Laptop Deals

  • Outlet

Support

  • Drivers & Software

  • How To’s

  • Warranty Lookup

  • Parts Lookup

  • Contact Us

  • Repair Status Check

  • Imaging & Security Resources

Resources

  • Where to Buy

  • Shopping Help

  • Sales Order Status

  • Product Specifications (PSREF)

  • Forums

  • Registration

  • Product Accessibility

  • Environmental Information

  • Gaming Community

  • LenovoEDU Community

  • LenovoPRO Community

©

Lenovo.

|
|
|
|

Okay, so this is a new one and lead to a near stoppage of the heart last evening:

image

The errors in order:

Controller ID: 0 Unrecoverable medium error during rebuild: PD –|—:0 Location 0x26f1640

Controller ID: 0 Puncturing bad block: PD –|—:0 Location 0x26f1640

Controller ID: 0 Puncturing bad block: PD –|—:1 Location 0x26f1640

PD 0 is the last original disk in this server that is giving us headaches. Both PD 1 and PD 2 (there are three hot swap bays in the SR1560SFH Intel Server System) were replaced with new drives.

The original PD 1 had failed during a server firmware including BMC update (previous blog post). The original PD 2, the then global hot spare, was rebuilt into the array with no errors . . . until a consistency check that ran later that afternoon produced some unrecoverable fatal errors.

Last night we dropped original PD 1 out of the configuration, replaced it with a new drive, had the new drive picked up as a hot spare. We then failed out the original hot spare PD 2 now RAID 1 array member assuming that it was the source of the errors we saw in the consistency check yesterday afternoon.

So, the above screenshot was taken after the new PD 1 was being rebuilt into the array with PD 0 as the source. Needless to say the heart definitely skipped a few beats with visions of index $0 running through my head (previous blog post)!

The rebuild did eventually finish successfully though?!?

We will be going back this evening to fail out the bad PD 0 and replace it with a new drive which will then be designated the new hot spare.

Once the PD 2, currently a hot spare, rebuild into the RAID 1 array has finished, Intel indicated to us that we need to run a consistency check. From there, hopefully ShadowProtect will finally give us a backup!

And one more thing, just what does “Puncturing bad block” really mean?

  • Bing Search: Puncturing bad block
    • Yields nada.
  • Google Search: Puncturing bad block
    • Yields: NEC MegaRAID Storage Manager Manual (PDF)

The suggestion in the above NEC linked document is to take the preventative measure and swap out the indicated drive(s) promptly. :)

It looks as though the RAID controller has found some bad sectors on the PD 0 and puncturing means to set those sectors as off limits on both array members.

But part of this whole puzzle is the fact that the RAID controller (Intel SRCSASRB with firmware 470) shows a media error level of 0 for both array members and a predictive failure count of 0 for both members!

Hopefully tomorrow we can rest easy with a backup in hand!

Philip Elder
MPECS Inc.
Microsoft Small Business Specialists
Co-Author: SBS 2008 Blueprint Book

*Our original iMac was stolen (previous blog post). We now have a new MacBook Pro courtesy of Vlad Mazek, owner of OWN.

Windows Live Writer

Понравилась статья? Поделить с друзьями:

Читайте также:

  • Control ошибка device removed
  • Control лицо врага баг как исправить
  • Control как изменить одежду
  • Control system tracking error
  • Control service startup error

  • 0 0 голоса
    Рейтинг статьи
    Подписаться
    Уведомить о
    guest

    0 комментариев
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии