Option rom post error 1719 slot 0 drive array

Hi All! Ранее один из дисков вылетел, но на Spare контроллер почему-то его не поменял... мои админы проворонили это и... теперь массив вообще не поднимается. По

Модераторы: Trinity admin`s, Free-lance moderator`s

Аватара пользователя

Stranger03

Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Развалился 5-ТБ массив на HP Smart Array P410i

igornov
Ну и еще:

Код: Выделить всё

===== Start of Option ROM POST Message Log =====
1719-Slot 0 Drive Array - A controller failure event occurred prior to this
     power-up.  (Previous lock up code = 0xAB)
1792-Slot 0 Drive Array - Valid Data Found in Array Accelerator
     Data will automatically be written to drive array.
1779-Slot 0 Drive Array - Replacement drive(s) detected OR previously failed
     drive(s) now appear to be operational:
         Port 2C: Box 1: Bays 5,6
         Port 4C: Box 2: Bays 2,3,4,5,6,7,8
     Logical drive(s) disabled due to possible data loss.
  Select "F1" to continue with logical drive(s) disabled
  Select "F2" to accept data loss and to re-enable logical drive(s)
 (RESUME = "F1" OR "F2" KEY)                    [default = "F1" in 45 seconds]  **TIMED OUT**                                                   

     The following disk drive(s) are failed and should be replaced:
         Port 4C: Box 2: Bay 1
===== End of Option ROM POST Message Log =====
[08/25 08:35:02]

После этого логический диск в состоянии disabled, возможно его удастся поднять без 1-го диска, ибо сбой произошел еще в 8-м диске. Но я бы сначала 8-й диск прогнал. А потом попробовал том перевключить.


Аватара пользователя

igornov

Advanced member
Сообщения: 194
Зарегистрирован: 15 окт 2002, 14:02
Откуда: Кривой Рог, Украина
Контактная информация:

Re: Развалился 5-ТБ массив на HP Smart Array P410i

Сообщение

igornov » 25 авг 2015, 14:12

Stranger03 писал(а):igornov
Вытаскивайте диски из 1-го и 8-го бокса, проверяйте утилитами. Если в 8-м боксе диск живой, попробуйте стартануть без 1-го диска. Может и получится. Хотспаре у вас не сработал.

в 1-м боксе как ни странно (судя по скринам) но диска уже нету физически … с 26 мая

А 8-й точно до 22 августа выпал по логам ? Мне позвонили ночью 21 августа примерно в 23:00 о том что пропал ресурс… Так вот 21.08 логического диска уже не было…


Аватара пользователя

Stranger03

Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Развалился 5-ТБ массив на HP Smart Array P410i

Сообщение

Stranger03 » 25 авг 2015, 14:15

igornov писал(а):А 8-й точно до 22 августа выпал по логам ? Мне позвонили ночью 21 августа примерно в 23:00 о том что пропал ресурс… Так вот 21.08 логического диска уже не было…

Ну судя по логам да, я ж не знаю, какое время там на сервере выставлено. Сбойнул именно 8-й диск, который сейчас в онлайне почему-то. И после него, судя по логам, массиву пришел привет с Колымы.


Аватара пользователя

igornov

Advanced member
Сообщения: 194
Зарегистрирован: 15 окт 2002, 14:02
Откуда: Кривой Рог, Украина
Контактная информация:

Re: Развалился 5-ТБ массив на HP Smart Array P410i

Сообщение

igornov » 25 авг 2015, 15:02

время на сервере синхронизируется с сервером времени и уже примерно в 23:00 21.08 логического диска не было… многочисленные перезагрузки ничего не давали.


Аватара пользователя

igornov

Advanced member
Сообщения: 194
Зарегистрирован: 15 окт 2002, 14:02
Откуда: Кривой Рог, Украина
Контактная информация:

Re: Развалился 5-ТБ массив на HP Smart Array P410i

Сообщение

igornov » 25 авг 2015, 15:18

Это могло произойти от скажем временного неконтакта в разъёме самого 8-го диска?


Аватара пользователя

igornov

Advanced member
Сообщения: 194
Зарегистрирован: 15 окт 2002, 14:02
Откуда: Кривой Рог, Украина
Контактная информация:

Re: Развалился 5-ТБ массив на HP Smart Array P410i

Сообщение

igornov » 25 авг 2015, 15:29

я в тех же логах нашёл:

[08/21 20:08:30]Fail Device: D014 physical_req 8090ec58 — reason code 20h
[08/21 20:08:30]PR 8090ec58h:D014 Op=2a PLErr=02 IopErr=0a S=52
[08/21 20:08:30] Unable to write ACL log, physical 0x8090ec58, drive 0xE, iop_error=0xA
[08/21 20:08:30]Fail Device: D015 physical_req 8090f1e8 — reason code 20h
[08/21 20:08:30]PR 8090f1e8h:D015 Op=2a PLErr=02 IopErr=0a S=52
[08/21 20:08:30] Unable to write ACL log, physical 0x8090f1e8, drive 0xF, iop_error=0xA
[08/21 20:08:30]Fail Device: D016 physical_req 8090f778 — reason code 20h
[08/21 20:08:32]PR 8090f778h:D016 Op=2a PLErr=02 IopErr=0a S=52
[08/21 20:08:32] Unable to write ACL log, physical 0x8090f778, drive 0x10, iop_error=0xA
[08/21 20:08:32]Fail Device: D017 physical_req 8090fd08 — reason code 20h

и ещё

Host time is 23:12:33, 8/21/2015
PCI slot 0

===== Start of Option ROM POST Message Log =====
1792-Slot 0 Drive Array — Valid Data Found in Array Accelerator
Data will automatically be written to drive array.
1784-Slot 0 Drive Array — Logical Drive Failure
The following disk drive(s) are failed and should be replaced:
Port 4C: Box 2: Bay 1
===== End of Option ROM POST Message Log =====
[08/21 23:12:33]

то есть ещё 21.08 уже не было логического диска


Аватара пользователя

igornov

Advanced member
Сообщения: 194
Зарегистрирован: 15 окт 2002, 14:02
Откуда: Кривой Рог, Украина
Контактная информация:

Re: Развалился 5-ТБ массив на HP Smart Array P410i

Сообщение

igornov » 25 авг 2015, 18:47

В подтверждение того что глюк возник 21.08 из логов сервера… см скрины. У меня выпали подобным образом диски 5 и 6 из первого бокса а потом ещё и 4 и 5 со второго…(из логов сервера)

сейчас диски все живые, проверил викторией — SMART идеальный, бедов нету…

Что ж это такое произошло? Помогите правильно пояснить руководству… а то судя по всему расстреляют… :( :( :(

Вложения
6_.JPG
5_.JPG
4_.JPG
3_.JPG


Аватара пользователя

Stranger03

Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Развалился 5-ТБ массив на HP Smart Array P410i

Сообщение

Stranger03 » 26 авг 2015, 10:53

igornov писал(а):Что ж это такое произошло? Помогите правильно пояснить руководству… а то судя по всему расстреляют… :( :( :(

Судя по логам батарейки у вас в контроллере нет. Кеш на запись вероятно включена. Произойти могло что угодно. Например скачек электропитания, перезагрузка, рассинхронизация данных из-за потери кеша контроллера. Ну а далее привет великому и ужасному.
П.С. Очень странно, что вы заметили сбойный массив спустя несколько месяцев. Ибо после сбоя система должна была жутко тормозить. Если вы ответственный за все это, то директор будет прав, если вас «расстреляет», увы и ах.


Аватара пользователя

igornov

Advanced member
Сообщения: 194
Зарегистрирован: 15 окт 2002, 14:02
Откуда: Кривой Рог, Украина
Контактная информация:

Re: Развалился 5-ТБ массив на HP Smart Array P410i

Сообщение

igornov » 26 авг 2015, 11:50

Stranger03 писал(а):

igornov писал(а):Что ж это такое произошло? Помогите правильно пояснить руководству… а то судя по всему расстреляют… :( :( :(

Судя по логам батарейки у вас в контроллере нет. Кеш на запись вероятно включена. Произойти могло что угодно. Например скачек электропитания, перезагрузка, рассинхронизация данных из-за потери кеша контроллера. Ну а далее привет великому и ужасному.
П.С. Очень странно, что вы заметили сбойный массив спустя несколько месяцев. Ибо после сбоя система должна была жутко тормозить. Если вы ответственный за все это, то директор будет прав, если вас «расстреляет», увы и ах.

Уже не расстреляет, массив успешно вернулся к жизни после нажатия F2 (в логах видно где) и тем самым перевключения логического диска. Но хотспаре так и не хочет замещать сбойный диск, хотя должен это сделать автоматически… Правда сбойный диск мы ещё тогда вынули… может в этом причина? Что касается тормозов массива так они были и до выпадения диска… батарейка есть и была, но вчера выключили кеш на запись и сняли батарейку (визуально уже надутая)

Как заставить Hot Spare встать на место недостающего диска? Принудительно


Аватара пользователя

Stranger03

Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Развалился 5-ТБ массив на HP Smart Array P410i

Сообщение

Stranger03 » 26 авг 2015, 12:37

igornov писал(а):Уже не расстреляет, массив успешно вернулся к жизни после нажатия F2 (в логах видно где) и тем самым перевключения логического диска.

Я вам это и предлагал сделать несколькими постами ранее. Ну хорошо, что восстановился. Сейчас я бы аварийно сделал фулл бекап всего, на всякий случай.

Как заставить Hot Spare встать на место недостающего диска? Принудительно

Честно на ХП процедуру не помню. Если сам не хочет, то я бы сделал так:
1. фулл бекап
2. убрал диск из хотспаре
3. диск (НЕ МАССИВ) проинициализировал заново
4. сказал на нем ребилд
Где, не знаю, под рукой таких серверов нет. Думаю где-нибудь по правым кнопкам на том самом диске.
П.С. после ребилда массива я бы еще запустил проверку целостности файловой системы.


Аватара пользователя

igornov

Advanced member
Сообщения: 194
Зарегистрирован: 15 окт 2002, 14:02
Откуда: Кривой Рог, Украина
Контактная информация:

Re: Развалился 5-ТБ массив на HP Smart Array P410i

Сообщение

igornov » 26 авг 2015, 12:59

Рано радовался, после попытки копирования на съемный диск (пока вычислялся объём данных для копирования) сервер наглухо завис. но при этом начал активно моргать hot spare…может начал подставляться… Пока не трогал. Может раздуплится.

не выдержал… вынул spare и… после перезапуска сервер загрузился, диск тоже есть — сливаю в оперативном порядке всё что могу. Ну и Спаре проверяю Викторией на всякий случай


Аватара пользователя

Stranger03

Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Развалился 5-ТБ массив на HP Smart Array P410i

Сообщение

Stranger03 » 26 авг 2015, 13:46

igornov писал(а):Рано радовался

Удачи в борьбе, :). Больше я врядли чем смогу помочь…


Аватара пользователя

igornov

Advanced member
Сообщения: 194
Зарегистрирован: 15 окт 2002, 14:02
Откуда: Кривой Рог, Украина
Контактная информация:

Re: Развалился 5-ТБ массив на HP Smart Array P410i

Сообщение

igornov » 26 авг 2015, 13:54

Stranger03 писал(а):

igornov писал(а):Рано радовался

Удачи в борьбе, :). Больше я врядли чем смогу помочь…

Благодарю за помощь!!!


Аватара пользователя

igornov

Advanced member
Сообщения: 194
Зарегистрирован: 15 окт 2002, 14:02
Откуда: Кривой Рог, Украина
Контактная информация:

Re: Развалился 5-ТБ массив на HP Smart Array P410i

Сообщение

igornov » 15 сен 2015, 21:28

Hi All!

Все данные с массива восстановил полностью. :yo: HP всё-таки железяка хорошая… но софт как по мне хромает (по сравнению с другими брендами и не совсем…). Из 13-ти дисков 4 уже с реалокейтами. Но массив выжил, хотя я его уже успел похоронить раза 2 как минимум :)


Аватара пользователя

Stranger03

Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Развалился 5-ТБ массив на HP Smart Array P410i

Сообщение

Stranger03 » 16 сен 2015, 08:15

igornov писал(а):Все данные с массива восстановил полностью. :yo:

Поздравляю, надеюсь советы помогли, :)


Вернуться в «Массивы — Технические вопросы, решение проблем.»


Перейти

  • Серверы
  • ↳   Серверы — Конфигурирование
  • ↳   Конфигурации сервера для 1С
  • ↳   Серверы — Решение проблем
  • ↳   Серверы — ПО, Unix подобные системы
  • ↳   Серверы — ПО, Windows система, приложения.
  • ↳   Серверы — ПО, Базы Данных и их использование
  • ↳   Серверы — FAQ
  • Дисковые массивы, RAID, SCSI, SAS, SATA, FC
  • ↳   Массивы — RAID технологии.
  • ↳   Массивы — Технические вопросы, решение проблем.
  • ↳   Массивы — FAQ
  • Майнинг, плоттинг, фарминг (Добыча криптовалют)
  • ↳   Proof Of Work
  • ↳   Proof Of Space
  • Кластеры — вычислительные и отказоустойчивые ( SMP, vSMP, NUMA, GRID , NAS, SAN)
  • ↳   Кластеры, Аппаратная часть
  • ↳   Deep Learning и AI
  • ↳   Кластеры, Программное обеспечение
  • ↳   Кластеры, параллельные файловые системы
  • Медиа технологии, и цифровое ТВ, IPTV, DVB
  • ↳   Станции видеомонтажа, графические системы, рендеринг.
  • ↳   Видеонаблюдение
  • ↳   Компоненты Digital TV решений
  • ↳   Студийные системы, производство ТВ, Кино и рекламы
  • Инфраструктурное ПО и его лицензирование
  • ↳   Виртуализация
  • ↳   Облачные технологии
  • ↳   Резервное копирования / Защита / Сохранение данных
  • Сетевые решения
  • ↳   Сети — Вопросы конфигурирования сети
  • ↳   Сети — Технические вопросы, решение проблем
  • Общие вопросы
  • ↳   Обсуждение общих вопросов
  • ↳   Приколы нашего IT городка
  • ↳   Регистрация на форуме

kubimike

Expert
Posts: 371
Liked: 41 times
Joined: Feb 03, 2017 2:34 pm
Full Name: MikeO
Contact:

Attn HP guys, big time bug in Smart Array firmware 4.52

Huge for us HP guys, KNOWN FLAW IN 4.52 FIRMWARE for PX4X CONTROLLERS!! Do not use 4.52!!! Its only included in the SPP for HP, removed from their website. Please download and install 4.58. I just did it, and I’m going to let it idle and see if the 0x13 error reoccurs!

http://h20564.www2.hpe.com/hpsc/doc/pub … -c05352202

I downloaded and tried the Windows installer it doesn’t work in Windows 2016. I had to boot from the latest SPP (871790_001_spp-2016.10.0-SPP2016100.2016_1015.191.iso) and use this procedure with the LINUX RPM Firmware update file

How to:
http://h20564.www2.hpe.com/hpsc/doc/pub … kc-0132754

Events under system will show Event ID 5001, 5002, 5006
Option ROM POST Error: 1719-Slot 3 Drive Array — A controller failure event occurred prior to this power-up. (Previous lock up code = 0x13) Action: Install the latest controller firmware. If the problem persists, replace the controller.
I’d also like to mention I only updated the controller showing the error messages. I do have two other controllers that are still on version 4.52



WimVD

Service Provider
Posts: 55
Liked: 19 times
Joined: Dec 23, 2014 4:04 pm
Contact:

Re: Attn HP guys, big time bug in Smart Array firmware 4.52

Post

by WimVD » Mar 22, 2017 10:20 am

Thanks Mike(s), I’m running P441 controllers with 4.52. Had no issues but upgrading to 4.58 just to be sure.
It is somewhat concerning that HPE has pulled the updates from their website. Latest available firmware at the moment is 4.02

Btw I had no issues using the windows installer on Server 2016 for updating my firmware. I did use «run as administrator».
Maybe that helped…


kubimike

Expert
Posts: 371
Liked: 41 times
Joined: Feb 03, 2017 2:34 pm
Full Name: MikeO
Contact:

Re: Attn HP guys, big time bug in Smart Array firmware 4.52

Post

by kubimike » Mar 22, 2017 11:10 am

@WimVD, yeah I tried running ‘As Administrator’ as well the .EXE would just crash. The crash was visible from the event log. I ran into the lock-up errors on my P841, my P441s haven’t exhibited the problem yet. My P841 is connected to external storage via SAS, Now HP needs to pull 4.52 from the SPP!


kubimike

Expert
Posts: 371
Liked: 41 times
Joined: Feb 03, 2017 2:34 pm
Full Name: MikeO
Contact:

Re: Attn HP guys, big time bug in Smart Array firmware 4.52

Post

by kubimike » Mar 22, 2017 2:09 pm

bad news, controller went offline this morning. same 0x13 stop error. Called back into HP, they have another customer with the same issue. Their case has been escalated to a level 2 engineer. I should get a call shortly with a new plan of action. What a nightmare this has been.


kubimike

Expert
Posts: 371
Liked: 41 times
Joined: Feb 03, 2017 2:34 pm
Full Name: MikeO
Contact:

Re: Attn HP guys, big time bug in Smart Array firmware 4.52

Post

by kubimike » Apr 03, 2017 1:52 pm
1 person likes this post

more info on this now HP is telling me after I had 5 days of open cases that there is another bug in the firmware. If you’re experiencing the volume suddenly disappearing turn off surface scans for now. I’ve been told another firmware will be released in April to address this issue.



WimVD

Service Provider
Posts: 55
Liked: 19 times
Joined: Dec 23, 2014 4:04 pm
Contact:

Re: Attn HP guys, big time bug in Smart Array firmware 4.52

Post

by WimVD » Apr 24, 2017 6:58 am

That’s quite a list of critical fixes :shock:
Thanks for the heads up. Time to update 8)

The following is a complete listing of the fixes included in version 5.04:

Kernel core dump using kdump might not complete in Linux when using Smart Array Gen9 firmware version 4.52.
Intermittent memory errors might cause the controller to stop responding. (POST Lockup 0x13)
System might stop responding if a parity error is found during surface scan of a RAID6 volume. (POST Lockup 0x13)
In rare cases, the controller might stop responding while running IO without displaying a lockup code.
Non-Maskable Interrupt (NMI) might occur on systems with a Windows OS and HPE Gen9 Smart Array or Smart HBA adapters and performing continuous reboot testing.
System IO might stop when using certain 6TiB and 8TiB SAS drives in a dual-path configuration with an HPE Gen9 Smart Array or Smart HBA adapter in HBA-mode, possibly resulting in an OS crash.
Physical slot location of SATA drives might not be returned correctly when using Microsoft Storage Spaces Direct (S2D).
Multiple direct attach SATA drives within a cluster might show the same World Wide Name (WWN) when using Microsoft Storage Spaces Direct (S2D).
Drive LED’s might be illuminated for the wrong drive and/or only illuminate momentarily when connected to an expander configuration with an HPE Gen9 Smart Array or Smart HBA adapter in HBA-mode.
Controllers using a 4GB cache module might fail data retention following an unexpected power event. (POST message 1793 — Data in Write-Back Cache has been Lost)


Who is online

Users browsing this forum: No registered users and 45 guests

Содержание

  1. Veeam R&D Forums
  2. Attn HP guys, big time bug in Smart Array firmware 4.52
  3. Attn HP guys, big time bug in Smart Array firmware 4.52
  4. Re: Attn HP guys, big time bug in Smart Array firmware 4.52
  5. Re: Attn HP guys, big time bug in Smart Array firmware 4.52
  6. Re: Attn HP guys, big time bug in Smart Array firmware 4.52
  7. Re: Attn HP guys, big time bug in Smart Array firmware 4.52
  8. Re: Attn HP guys, big time bug in Smart Array firmware 4.52
  9. Re: Attn HP guys, big time bug in Smart Array firmware 4.52
  10. Re: Attn HP guys, big time bug in Smart Array firmware 4.52
  11. BBWC: in theory a good idea but has one ever saved your data?

Veeam R&D Forums

Technical discussions about Veeam products and related data center technologies

Attn HP guys, big time bug in Smart Array firmware 4.52

Attn HP guys, big time bug in Smart Array firmware 4.52

Post by kubimike » Mar 21, 2017 8:39 pm 2 people like this post

Huge for us HP guys, KNOWN FLAW IN 4.52 FIRMWARE for PX4X CONTROLLERS!! Do not use 4.52. Its only included in the SPP for HP, removed from their website. Please download and install 4.58. I just did it, and I’m going to let it idle and see if the 0x13 error reoccurs!

I downloaded and tried the Windows installer it doesn’t work in Windows 2016. I had to boot from the latest SPP ( 871790_001_spp-2016.10.0-SPP2016100.2016_1015.191.iso ) and use this procedure with the LINUX RPM Firmware update file

Events under system will show Event ID 5001, 5002, 5006
Option ROM POST Error: 1719-Slot 3 Drive Array — A controller failure event occurred prior to this power-up. (Previous lock up code = 0x13) Action: Install the latest controller firmware. If the problem persists, replace the controller.
I’d also like to mention I only updated the controller showing the error messages. I do have two other controllers that are still on version 4.52

Re: Attn HP guys, big time bug in Smart Array firmware 4.52

Post by Mike Resseler » Mar 22, 2017 7:19 am this post

Thanks for this update and helping out other members. Really appreciated!

Another Mike

Re: Attn HP guys, big time bug in Smart Array firmware 4.52

Post by WimVD » Mar 22, 2017 10:20 am this post

Thanks Mike(s), I’m running P441 controllers with 4.52. Had no issues but upgrading to 4.58 just to be sure.
It is somewhat concerning that HPE has pulled the updates from their website. Latest available firmware at the moment is 4.02

Btw I had no issues using the windows installer on Server 2016 for updating my firmware. I did use «run as administrator».
Maybe that helped.

Re: Attn HP guys, big time bug in Smart Array firmware 4.52

Post by kubimike » Mar 22, 2017 11:10 am this post

Re: Attn HP guys, big time bug in Smart Array firmware 4.52

Post by kubimike » Mar 22, 2017 2:09 pm this post

Re: Attn HP guys, big time bug in Smart Array firmware 4.52

Post by kubimike » Apr 03, 2017 1:52 pm 1 person likes this post

Re: Attn HP guys, big time bug in Smart Array firmware 4.52

Post by Thrawn » Apr 23, 2017 8:20 pm 2 people like this post

Re: Attn HP guys, big time bug in Smart Array firmware 4.52

Post by WimVD » Apr 24, 2017 6:58 am this post

The following is a complete listing of the fixes included in version 5.04:

Kernel core dump using kdump might not complete in Linux when using Smart Array Gen9 firmware version 4.52.
Intermittent memory errors might cause the controller to stop responding. (POST Lockup 0x13)
System might stop responding if a parity error is found during surface scan of a RAID6 volume. (POST Lockup 0x13)
In rare cases, the controller might stop responding while running IO without displaying a lockup code.
Non-Maskable Interrupt (NMI) might occur on systems with a Windows OS and HPE Gen9 Smart Array or Smart HBA adapters and performing continuous reboot testing.
System IO might stop when using certain 6TiB and 8TiB SAS drives in a dual-path configuration with an HPE Gen9 Smart Array or Smart HBA adapter in HBA-mode, possibly resulting in an OS crash.
Physical slot location of SATA drives might not be returned correctly when using Microsoft Storage Spaces Direct (S2D).
Multiple direct attach SATA drives within a cluster might show the same World Wide Name (WWN) when using Microsoft Storage Spaces Direct (S2D).
Drive LED’s might be illuminated for the wrong drive and/or only illuminate momentarily when connected to an expander configuration with an HPE Gen9 Smart Array or Smart HBA adapter in HBA-mode.
Controllers using a 4GB cache module might fail data retention following an unexpected power event. (POST message 1793 — Data in Write-Back Cache has been Lost)

Источник

BBWC: in theory a good idea but has one ever saved your data?

I’m familiar with what a BBWC (Battery-backed write cache) is intended to do — and previously used them in my servers even with good UPS. There are obvously failures it does not provide protection for. I’m curious to understand whether it actually offers any real benefit in practice.

(NB I’m specifically looking for responses from people who have BBWC and had crashes/failures and whether the BBWC helped recovery or not)

Update

After the feedback here, I’m increasingly skeptical as whether a BBWC adds any value.

To have any confidence about data integrity, the filesystem MUST know when data has been committed to non-volatile storage (not necessarily the disk — a point I’ll come back to). It’s worth noting that a lot of disks lie about when data has been committed to the disk (http://brad.livejournal.com/2116715.html). While it seems reasonable to assume that disabling the on-disk cache might make the disks more honest, there’s still no guarantee that this is the case either.

Due to the typcally large buffers in a BBWC, a barrier can require significantly more data to be commited to disk therefore causing delays on writes: the general advice is to disable barriers when using a non-volatile write back cache (and to disable on-disk caching). However this would appear to undermine the integrity of the write operation — just because more data is maintained in non-volatile storage does not mean that it will be more consistent. Indeed, arguably without demarcation between logical transactions there seems to be less opportunity to ensure consistency than otherwise.

If the BBWC were to acknowledge barriers at the point the data enters it’s non-volatile storage (rather than being committed to disk) then it would appear to satisfy the data integrity requirement without a performance penalty — implying that barriers should still be enabled. However since these devices generally exhibit behaviour consistent with flushing the data to the physical device (significantly slower with barriers) and the widespread advice to disable barriers, they cannot therefore be behaving in this way. WHY NOT?

If the I/O in the OS is modelled as a series of streams then there is some scope to minimise the blocking effect of a write barrier when write caching is managed by the OS — since at this level only the logical transaction (a single stream) needs to be committed. On the other hand, a BBWC with no knowledge of which bits of data make up the transaction would have to commit its entire cache to disk. Whether the kernel/filesystems actually implement this in practice would require a lot more effort than I’m wiling to invest at the moment.

A combination of disks telling fibs about what has been committed and sudden loss of power undoubtedly leads to corruption — and with a Journalling or log structured filesystem which don’t do a full fsck after an outage its unlikely that the corruption will be detected let alone an attempt made to repair it.

In terms of the modes of failure, in my experience most sudden power outages occur because of loss of mains power (easily mitigated with a UPS and managed shutdown). People pulling the wrong cable out of rack implies poor datacentre hygene (labelling and cable management). There are some types of sudden power loss event which are not prevented by a UPS — failure in the PSU or VRM a BBWC with barriers would provide data integrity in the event of a failure here, however how common are such events? Very rare judging by the lack of responses here.

Certainly moving the fault tolerance higher in the stack is significantly more expensive the a BBWC — however implementing a server as a cluster has lots of other benefits for performance and availability.

An alternative way to mitigate the impact of sudden power loss would be to implement a SAN — AoE makes this a practical proposition (I don’t really see the point in iSCSI) but again there’s a higher cost.

Источник

Понравилась статья? Поделить с друзьями:

Читайте также:

  • Option error sorry fragment directive is not supported
  • Optimizing s with svgo failed with error s
  • Optimizing expected word error rate via sampling for speech recognition
  • Optimization running error running optimization not enough input arguments
  • Optical flares has encountered an unrecoverable error

  • 0 0 голоса
    Рейтинг статьи
    Подписаться
    Уведомить о
    guest

    0 комментариев
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии