I have a Dell R515 server that I upgraded so that all 8 hard-drives are solid state. Specifically, I have 8 of these SSDs in a RAID 10:
Code:
Samsung V-NAND SSD 860 EVO 1TB SATA 6Gbps
Model MZ-76E1T0
Model Code: MZ-76E1T0E
After a few months, Proxmox kept emailing me this error regarding disk 5 :
Code:
Device: /dev/bus/1 [megaraid_disk_05] [SAT], Read SMART Self-Test Log Failed
While, the server was on, I looked at the drive lights and noticed that disk 5 had no light at all. When I would reboot the server, though, the light on disk 5’s drive tray would come back on. But it wouldn’t be long before Proxmox would email me that same error above and the light would go back off, while the sever was running.
2 days ago, Proxmox emailed the same error again regarding that same drive. Yesterday, I removed that hot-swap-able drive (actually I’m not even sure that this SSD it is designed to be hot-swap-able) from the server while the server was running. I unscrewed it from the drive tray, and hooked it up to my Kubuntu 20.04 laptop via a USB drive dock.
I used gparted to view the drive, and it appeared like the drive had nothing on it, not even a partition table. So I created a GPT partition table, using Gparted, and then created an EXT4 partition at max size. These details probably don’t matter. I was just wanting to remove anything that might still be on the disk. After this, I removed the Ext4 partition, so that the drive had no partitions on it. I really didn’t know what RAID 10 wanted me to do to get that SSD into an optimal state for RAID 10 to rebuild the drive, but I’m just telling you what I did.
After this, I screwed the drive back into its drive tray, and re-inserted it back into the server’s drive bay. When I plugged it back in, its drive light came on, and I could see that drive 4 was rebuilding this drive 5, because both of their green lights were blinking rapidly while all of the other drive lights were at their normal activity levels.
Later that day, I check the lights again, and all lights were normal green with equal activity. So, I assume the drive was rebuilt by the RAID 10 successfully.
So far, everything is normal, and I’ve received no further notifications from Proxmox regarding drive 5.
I’m not sure my procedure was proper, so I’m not advising you follow it, I’m simply sharing what I did to make the error notifications go away. One dangerous thing I did, was hot-swaping that SSD without knowing if it was designed for hot-swapping. It would have been safer for me to perform these steps I did while the server was completely off (I suspect).
UPDATE: I was wrong. This didn’t fix my issue. I just got the same error again. I don’t know how to fix this. When I replaced all the hard drives in this server with SSDs, the guy I bought this from warned me that their could be consequences like this. I can’t remember exactly what he said, but I do recall him saying that it would work, but might generate some type of errors.
1
2
This email was generated by the smartd daemon running on:
host name: proxmox1
DNS domain: хххх.ru
NIS domain: (none)
The following warning/error was logged by the smartd daemon:
Device: /dev/sdb [SAT], Failed SMART usage Attribute: 1 Raw_Read_Error_Rate.
For details see host's SYSLOG.
You can also use the smartctl utility for further investigation.
Another email message will be sent in 24 hours if the problem persists.
# smartctl -a /dev/sdb
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-2.6.32-23-pve] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF INFORMATION SECTION ===
Device Model: WDC WD4000FYYZ-01UL1B0
Serial Number: WD-WCC130207477
LU WWN Device Id: 5 0014ee 207ac2a0c
Firmware Version: 01.01K01
User Capacity: 4,000,787,030,016 bytes [4.00 TB]
Sector Size: 512 bytes logical/physical
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Wed Jan 14 14:12:12 2015 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
See vendor-specific Attribute list for failed Attributes.
General SMART Values:
Offline data collection status: (0x85) Offline data collection activity
was aborted by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 241) Self-test routine in progress...
10% of test remaining.
Total time to complete Offline
data collection: (47100) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 255) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x70bd) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 001 001 051 Pre-fail Always FAILING_NOW 1264
3 Spin_Up_Time 0x0027 156 143 021 Pre-fail Always - 11200
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 41
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 080 080 000 Old_age Always - 14819
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 41
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 26
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 38
194 Temperature_Celsius 0x0022 107 088 000 Old_age Always - 45
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 14764 -
# 2 Short offline Completed without error 00% 14558 -
# 3 Short offline Completed without error 00% 14524 -
# 4 Short offline Completed without error 00% 14508 -
# 5 Short offline Completed without error 00% 14426 -
# 6 Short offline Completed without error 00% 14381 -
# 7 Short offline Completed without error 00% 14286 -
# 8 Short offline Completed without error 00% 14238 -
# 9 Short offline Completed without error 00% 14207 -
#10 Short offline Completed without error 00% 14160 -
#11 Short offline Completed without error 00% 14114 -
#12 Short offline Completed without error 00% 14073 -
#13 Short offline Completed without error 00% 14053 -
#14 Short offline Completed without error 00% 14021 -
#15 Short offline Completed without error 00% 13974 -
#16 Short offline Completed without error 00% 13961 -
#17 Short offline Completed without error 00% 13925 -
#18 Short offline Completed without error 00% 13904 -
#19 Short offline Completed without error 00% 13873 -
#20 Short offline Completed without error 00% 13830 -
#21 Short offline Completed without error 00% 13788 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
на глазах увеличивается счетчик Raw_Read_Error_Rate
Диск заменить или для WD эта ошибка ничего не значит?
На замену 4TB от WD пойдет 4TB от HITACHI HDD 4 Tb SATA 6Gb / s Hitachi Ultrastar 7K4000 < HUS724040ALA640 > 3.5″ 7200rpm 64Mb ?
Если менять то какой утилитой перетащить данные, диск поду управлением drbd, поверх drbd LVM с виртуалками KVM.
- Печать
Страницы: [1] 2 Все Вниз
Тема: Состояние диска, менять или еще поработает? (Прочитано 3983 раз)
0 Пользователей и 1 Гость просматривают эту тему.

Ввысь
Здравствуйте.
Подскажите, в syslog есть такое
smartd[654]: Device: /dev/sdb [SAT], 4 Currently unreadable (pending) sectors
smartd[654]: Device: /dev/sdb [SAT], 8 Offline uncorrectable sectors
Сервер прислал письмо
The following warning/error was logged by the smartd daemon:
Device: /dev/sdb [SAT], 8 Offline uncorrectable sectors
Device info:
WDC WD5003AZEX-00K1GA0, S/N:WD-WMC1S6579846, WWN:5-0014ee-003a9bfc9, FW:80.00A80, 500 GB
Прочел, что если smartctl -H /dev/sdb выдает PASSED то можно забить. Так ли это или замена?

ALiEN175
sudo smartctl -a /dev/sdb
ASUS P5K-C :: Intel Xeon E5450 @ 3.00GHz :: 8 GB DDR2 :: Radeon R7 260X :: XFCE
ACER 5750G :: Intel Core i5-2450M @ 2.50GHz :: 6 GB DDR3 :: GeForce GT 630M :: XFCE

Ввысь

ALiEN175
Пока показания маленькие, не страшно, но всё же: инфу сбекапить, следить за показателями 5, 197, 198, 200.
Если будут постоянно расти — на магнитики. Если нет — то поработает, но в любом случае, инфу без бекапов на нём хранить не стоит.
подробнее тут: https://www.ixbt.com/storage/hdd-smart-testing.shtml
Вообще, при любых подозрениях на неполадки с диском — бекапить инфу!
« Последнее редактирование: 03 Февраля 2018, 17:37:15 от ALiEN175 »
ASUS P5K-C :: Intel Xeon E5450 @ 3.00GHz :: 8 GB DDR2 :: Radeon R7 260X :: XFCE
ACER 5750G :: Intel Core i5-2450M @ 2.50GHz :: 6 GB DDR3 :: GeForce GT 630M :: XFCE

Ввысь
ALiEN175, понял. Спасибо.

mahinist
Ввысь, Уж какой год готовлюсь а он всё скрипит —

EvangelionDeath
mahinist, так то же Seagate =) И пока Raw_Read_Error_Rate = Hardware_ECC_Recovered нервничать не стоит) На них часто в некоторых параметрах просто заоблачные цифры)
HP Pro 840 G3: Intel i5-6300U, 32GB DDR4 2133MHz, Intel 520, Intel Pro 2500 180GB/Ubuntu 22.04
Dell Latitude 5590: Intel i5-8350U, 16GB DDR4 2400MHz, Intel 620, Samsung 1TB/Ubuntu 22.04

ALiEN175
mahinist, у вас в критичных показателях — всё по нулям.
а по 184 — кеш шалит.
I have seen many people report this error, but it never seems to cause problems if it occurs on its own.
http://www.tomshardware.co.uk/answers/id-2234966/hard-disk-end-end-error.html
И диск ваш всего-то пару лет проработал:
9 Power_On_Hours 0x0032 081 081 000 Old_age Always — 17064
У меня на одном диске уже за 59000 часов))
Почти семь лет
« Последнее редактирование: 03 Февраля 2018, 19:51:04 от ALiEN175 »
ASUS P5K-C :: Intel Xeon E5450 @ 3.00GHz :: 8 GB DDR2 :: Radeon R7 260X :: XFCE
ACER 5750G :: Intel Core i5-2450M @ 2.50GHz :: 6 GB DDR3 :: GeForce GT 630M :: XFCE

mahinist
нервничать не стоит
Дык знаем , спокоен , это же —
=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda 7200.12
Device Model: ST31000528AS
PS Для ТС — Не нужно паниковать , ваш ЖД может ещё долго проработать , однако лучше придерживаться выше данных советов .

snowin
на самом деле паниковать нужно

Ввысь
дочитал последние сообщения) да, по итогу решай как говорится сам) полностью противоположные мнения.

DimanBG

snowin
Ввысь, Все правильно, так и должно было быть
поскольку все зависит от того для чего ты используешь этот диск
одно дело использовать его в качестве системного носителя — я бы его прошел той же Викторией, и обнаружил бэды
с бэдами будешь использовать системный диск?
другое дело, если хранить на нем не значимую и не активно используемую инфу аля порно/фильмы/музыка, не значимые архивы
тогда еще может поработать.
по-сему — решать исключительно тебе

Ввысь
DimanBG, да, я эти расшифровки видел. Нет единого параметра указывающего на состояние, всё такое, общее.
snowin, короче проще заменить чем гадать сколько он протянет, понял, спасибо.

maks05
Ввысь, оно не общее, а волне конкретное. Вам же сказали, за какими параметрами следить, а у вас по ним всё в порядке. Вот будет расти пункт 5 — тогда да, срочно менять.
- Печать
Страницы: [1] 2 Все Вверх
В этой статье хотел немного углубиться в настройки smartd демона для мониторинга физических дисков. В предыдущих статьях речь шла о настройке мониторинга дисков за LSI Fusion-MPT SAS, Adaptec AACRaid, HP/Compaq Smart Array, LSI 2108 RAID контроллерами и с обычным SCSI,SAT,ATA интерфейсом используя атрибуты под дистрибутивом Ubuntu 12.04 используя специализированные утилиты и smartctl.
Т.е. мы мониторили диски за RAID-контроллерами, используя ручные скрипты и команды, которые можно прицепить к любой системе мониторинга, но на много удобней автоматизировать отправку сообщений о проблемах с дисками через почту именно в тот момент, когда она реально назревает или уже возникла. Для этих нужд и предназначен демон smartd.
Для начала советую вам ознакомиться с мануалом smartd, где все детально расписано.
root@s12:~# man smartd
Вся инструкция сводиться до трех конфигурационных файлов, т.е. нужно добавить нужные настройки и рестартануть демоны.
root@s12:~# cat /etc/rsyslog.d/60-smart.conf local3.* /var/log/smard.log root@s12:~# cat /etc/default/smartmontools start_smartd=yes smartd_opts="--interval=3600 --logfacility=local3" root@s12:~# cat /etc/smartd.conf #Диски, которые нужно мониторить /dev/sda -d sat -o on -S on -m support@support.com -M diminishing -a -s (S/../.././01|L/../../6/03) /dev/sdb -d sat -o on -S on -m support@support.com -M diminishing -a -s (S/../.././01|L/../../6/03) /dev/sdc -d sat -o on -S on -m support@support.com -M diminishing -a -s (S/../.././01|L/../../6/03) root@s12:~# /etc/init.d/rsyslog restart root@s12:~# /etc/init.d/smartd restart
Теперь давайте поэтапно разберем что это было.
По умолчанию, smartd пишет логи в /var/log/syslog, так как это системный журнал событий – в нем может писаться очень много информации, что затрудняет поиски нужного вывода. Для этого, после краткого осмотра документации по smartd, первым делом добавим свой лог-файл в который будет писаться вся информация о работе smartd демона. Редактируем rsyslog.
root@s12:~# vim /etc/rsyslog.d/50-default.conf ... local3.* /var/log/smard.log ...
Здесь,
- local3.* — включить все уровни логирования для объекта local3;
- /var/log/smard.log – файл, куда записать весь полученный вывод.
Ман по rsyslog.conf говорит, что можно брать любую не занятую facility в диапазоне local0 — local7.
priority можно подставить любой из debug, info, notice, warning, warn (same as warning), err, error (same as err), crit, alert, emerg, panic (same as emerg) или просто символ – «*», который включает все.
Т.е. в данном случаи у local3 объекта мы ловим сообщения с любым приоритетом (*) и записываем в файл. Так же можно все сообщения записывать в БД, передавать на другой хост или на локальный скрипт. Если передаем на локальный скрипт, то тело сообщения будет в arg[1] скрипта.
После внесения изменений в rsyslog делаем рестарт демона.
root@s12:~# /etc/init.d/rsyslog restart root@s12:~# initctl status rsyslog rsyslog start/running, process 5662
После рестарта у нас должен создаться файлик smard.log
root@s12:~# ls -l /var/log/smard.log -rw-r----- 1 syslog adm 0 Mar 29 18:01 /var/log/smard.log
Теперь при запуске демона smard нужно добавлять аргумент “-l locatl3”, что мы и сделаем отредактировав файл /etc/default/smartmontools.
root@s12:~# cat /etc/default/smartmontools # uncomment to start smartd on system startup start_smartd=yes # uncomment to pass additional options to smartd on startup smartd_opts="--interval=3600 --logfacility=local3"
Также было добавлено запуск демона smartd при старте системы (start_smartd=yes) и выставил интервал между проверками дисков в 1 час (—interval=3600).
Настройка мониторинга дисков
Мы разобрались с настройками запуска (аргументами и лог-файлами) smartd демона. Теперь же нужно правильно настроить проверку дисков. Ниже приведены самые употребляемые опции для мониторинга дисков через smartd.conf.
Опция |
Значение опции |
Описание |
-d | ata | Мониторинг дисков с ATA интерфейсом |
scsi | Мониторинг дисков с SCSI интерфейсом | |
sat | Мониторинг дисков с ATA интерфейсом, которые подключены через переходник SCSI | |
marvell | Мониторинг дисков за Marvell контроллером | |
megaraid,N | Мониторинг дисков за Megaraid RAID контроллером | |
3ware,N | Мониторинг дисков за 3ware контроллером | |
areca,N | Мониторинг дисков за Areca SATA контроллером | |
hpt,L/M/N | Мониторинг дисков за HighPoint RocketRAID контроллером | |
cciss,N | Мониторинг дисков за cciss RAID контроллером | |
-o | on | Включение SMART Automatic Offline тестов для обновления статуса атрибутов |
-S | on | Включить автосохранение атрибутов |
-Н | Проверить только здоровье диска (если значение Prefailure атрибута меньше за threshold — увидим, что диск не здоров) | |
-l-l | error | Уведомлять, если количество ошибок диска растет или тести заканчиваются с печальным результатом |
selftest | ||
-s | T/MM/DD/d/HH | T – тип теста (S – short, L – long, O – offline Immediate)MM – месяц (две цифры в диапазон 01-12)DD – день месяца (две цифры в диапазоне 01-31)d – день недели (одна цифра в диапазоне 1-7)
HH — время в часах (две цифры в диапазоне 00-23) «.» — любой единичный символ (A|B|C) — любой из трех вариантов Пример: -s (O/../.././(00|06|12|18)|S/../.././01|L/../../6/03) |
-m | your@mail.com | Кому отправлять письма о проблеме |
-M | test | Идет только в сочетании с “–m” (–m root –M test). Отправить тестовое письмо при старте демона smartd. |
diminishing | Периодически отсылать письма о проблеме ( 2*N период. Т.е. 1-го числа, второго, четвертого, восьмого и т.п. кратно двум ) | |
exec script.sh | Запустить скрипт, вместо обычной отправки письма. Демон smartd будет ждать, пока скрипт не завершит свою работу. Эта опция полезна, когда нужно провести некие действия с сообщением или выбрать другой почтовый клиент (по умолчанию /usr/bin/mail). | |
-f | [ATA only]Мониторинг Usage(Old_age) атрибутов на статус “failure”, связано с -H | |
-p | [ATA only]Мониторинг Prefail атрибутов | |
-u | [ATA only]Мониторинг Usage(Old_age) атрибутов | |
-t | [ATA only]Включение обоих проверок -p и –u | |
-f -i | ID | [ATA only]Игнорировать атрибут с номером ID при проверке Usage(Old_age) атрибута на статус «failure» |
-I | ID | [ATA only]Игнорировать смену значений атрибута с номером ID(только в сочетании с одним из -t,-u,-p) |
-R | ID | [ATA only]Мониторинг изменений Raw value атрибута с номером ID. Автоматом включает -r опцию |
-С | ID | [ATA only]Мониторинг количества секторов, которые помечены как pending, т.е. те, которые система обозначит как bad-сектора и переназначит (-C 197) |
-U | ID | [ATA only]Мониторинг неисправимых(битых) секторов атрибута с номером ID(-U 198) |
-W | d,i,c | Мониторинг температуры. Уведомляет, если измениться на d градусов или будет больше за INFO(i) или CRIT(c) градусов (-W 5,40,50) |
-а | Мониторинг, который включает в себе опции -H, -f, -t, -l selftest, -l error, -C 197,-U 198 |
Исходя из таблицы, настроим мониторинг трех SAT дисков.
Мы запускаем Short test каждый день в 1 час ночи и Long test тест каждую субботу в 3 часа ночи (-s). Уведомление об ошибках будет слаться на почтовый ящик(-m). Мониторинг включает стандартный набор атрибутов (–а), так же включено автоматического обновление атрибутов (-o) и их автосохранение (-S on). Так же, добавлена опция –M test, которая позволит отправить тестовое сообщение при старте демона.
root@s12:~# vim /etc/smartd.conf … /dev/sda -d sat -o on -S on -m frodo10@gmail.com -M test -a -s (S/../.././01|L/../../6/03) /dev/sdb -d sat -o on -S on -m frodo10@gmail.com -M test -a -s (S/../.././01|L/../../6/03) /dev/sdc -d sat -o on -S on -m frodo10@gmail.com -M test -a -s (S/../.././01|L/../../6/03) …
Теперь рестартуем демон и смотрим на логи и в свой почтовый ящик.
root@s12:~# /etc/init.d/smartd restart Stopping S.M.A.R.T. daemon: smartd. Starting S.M.A.R.T. daemon: smartd. root@s12:~# cat /var/log/smard.log Mar 31 14:34:33 s12 smartd[14930]: smartd 5.41 2011-06-09 r3365 [x86_64-linux-3.8.0-29-generic] (local build) Mar 31 14:34:33 s12 smartd[14930]: Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net Mar 31 14:34:33 s12 smartd[14930]: Opened configuration file /etc/smartd.conf Mar 31 14:34:33 s12 smartd[14930]: Configuration file /etc/smartd.conf parsed. Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sda [SAT], opened Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sda [SAT], ST31000340NS, S/N:9QJ2ADVC, WWN:5-000c50-00dd5f99b, FW:SN05, 1.00 TB Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sda [SAT], found in smartd database. Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sda [SAT], WARNING: There are known problems with these drives, Mar 31 14:34:33 s12 smartd[14930]: see the following Seagate web pages: Mar 31 14:34:33 s12 smartd[14930]: http://seagate.custkb.com/seagate/crm/selfservice/search.jsp?DocId=207931 Mar 31 14:34:33 s12 smartd[14930]: http://seagate.custkb.com/seagate/crm/selfservice/search.jsp?DocId=207963 Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sda [SAT], enabled SMART Attribute Autosave. Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sda [SAT], enabled SMART Automatic Offline Testing. Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sda [SAT], is SMART capable. Adding to "monitor" list. Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sda [SAT], state read from /var/lib/smartmontools/smartd.ST31000340NS-9QJ2ADVC.ata.state Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sdb [SAT], opened Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sdb [SAT], ST31000340NS, S/N:9QJ5HB9J, WWN:5-000c50-019998158, FW:SN06, 1.00 TB Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sdb [SAT], found in smartd database. Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sdb [SAT], enabled SMART Attribute Autosave. Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sdb [SAT], enabled SMART Automatic Offline Testing. Mar 31 14:34:34 s12 smartd[14930]: Device: /dev/sdb [SAT], is SMART capable. Adding to "monitor" list. Mar 31 14:34:34 s12 smartd[14930]: Device: /dev/sdc [SAT], opened Mar 31 14:34:34 s12 smartd[14930]: Device: /dev/sdc [SAT], WDC WD1003FBYX-01Y7B0, S/N:WD-WCAW30367458, WWN:5-0014ee-2affa9695, FW:01.01V01, 1.00 TB Mar 31 14:34:34 s12 smartd[14930]: Device: /dev/sdc [SAT], found in smartd database. Mar 31 14:34:34 s12 smartd[14930]: Device: /dev/sdc [SAT], enabled SMART Attribute Autosave. Mar 31 14:34:34 s12 smartd[14930]: Device: /dev/sdc [SAT], enabled SMART Automatic Offline Testing. Mar 31 14:34:34 s12 smartd[14930]: Device: /dev/sdc [SAT], is SMART capable. Adding to "monitor" list. Mar 31 14:34:34 s12 smartd[14930]: Monitoring 3 ATA and 0 SCSI devices Mar 31 14:34:34 s12 smartd[14930]: Executing test of mail to frodo10@gmail.com ... Mar 31 14:34:35 s12 smartd[14930]: Test of mail to frodo10@gmail.com: successful Mar 31 14:34:35 s12 smartd[14930]: Device: /dev/sda [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 79 to 80 Mar 31 14:34:35 s12 smartd[14930]: Device: /dev/sda [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 48 to 47 Mar 31 14:34:35 s12 smartd[14930]: Device: /dev/sda [SAT], previous self-test was interrupted by the host with a reset Mar 31 14:34:35 s12 smartd[14930]: Executing test of mail to frodo10@gmail.com... Mar 31 14:34:37 s12 smartd[14930]: Test of mail to frodo10@gmail.com: successful Mar 31 14:34:37 s12 smartd[14930]: Executing test of mail to frodo10@gmail.com ... Mar 31 14:34:37 s12 smartd[14930]: Test of mail to frodo10@gmail.com: successful Mar 31 14:34:37 s12 smartd[14930]: Device: /dev/sdc [SAT], offline data collection was suspended by an interrupting command from host (auto:on) Mar 31 14:34:37 s12 smartd[14930]: Device: /dev/sda [SAT], state written to /var/lib/smartmontools/smartd.ST31000340NS-9QJ2ADVC.ata.state Mar 31 14:34:37 s12 smartd[14930]: Device: /dev/sdb [SAT], state written to /var/lib/smartmontools/smartd.ST31000340NS-9QJ5HB9J.ata.state Mar 31 14:34:37 s12 smartd[14930]: Device: /dev/sdc [SAT], state written to /var/lib/smartmontools/smartd.WDC_WD1003FBYX_01Y7B0-WD_WCAW30367458.ata.state Mar 31 14:34:37 s12 smartd[14989]: smartd has fork()ed into background mode. New PID=14989. Mar 31 14:34:37 s12 smartd[14989]: file /var/run/smartd.pid written containing PID 14989
На почту должны прийти сообщения следующее типа:
This email was generated by the smartd daemon running on: host name: server01.homecorp.com DNS domain: homecorp.com NIS domain: (none) The following warning/error was logged by the smartd daemon: TEST EMAIL from smartd for device: /dev/sda [SAT] For details see host's SYSLOG.
Если письмо не пришло, то смотрите логи. Если все ок, то опцию “-M test” можно заменить на -M diminishing, которое постоянно напоминать об ошибке (через каждых 2*N дней, т.е. 1-го числа, второго, четвертого, восьмого и т.д.) или вообще ее убрать, тогда письмо о проблеме придет только один раз, так что будьте осторожны и не потеряйте его.
Пример мониторинга дисков за Megaraid LSI 2108 RAID контроллером, которые не поддерживают атрибуты.
root@s09:~# vim /etc/smartd.conf … /dev/sda -d megaraid,0 -m frodo10@gmail.com -a -s (S/../.././01|L/../../6/03) /dev/sda -d megaraid,1 -m frodo10@gmail.com -a -s (S/../.././01|L/../../6/03) …
И последний пример с игнорированием неважных атрибутов.
root@s09:~# vim /etc/smartd.conf … /dev/sda -o on -S on -H -f -t -l error -l selftest -C 197 -U 198 -W 40,50 -R 5 -I 190 -I 194 -m test@gmail.com -s (S/../.././02|L/../../7/04) …
Здесь проверяется статус здоровья диска (-H), с мониторингом статуса Usage(Old_age) атрибутов на статус “failure” (-f) и изменением значений Usage(Old_age) и Prefail атрибутов (-t), но игнорируются смена значений атрибутов связанных с температурой 190,194 (но приходит уведомление если значение температуры больше 40,50 — «-W»). Так же мониторим значение переназначенных (-R), помеченных битыми(-C) и неисправимых (-U) секторов. Кроме этого проверяется журнал ошибок и пройденных тестов (-l error -l selftest). Краткие тесты запускаются каждый день в 2 ночи, долгие – каждое воскресенье в 4 ночи (-s). Информация об ошибка шлется на почту (-m).
Тестируем работу smartd демона
smartd можно запустить в debug режиме для проверки настроек.
root@s12:~# smartd -d smartd 5.41 2011-06-09 r3365 [x86_64-linux-3.8.0-29-generic] (local build) Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net Opened configuration file /etc/smartd.conf Configuration file /etc/smartd.conf parsed. Device: /dev/sda, type changed from 'scsi' to 'sat' Device: /dev/sda [SAT], opened Device: /dev/sda [SAT], ST31000340NS, S/N:9QJ2ADVC, WWN:5-000c50-00dd5f99b, FW:SN05, 1.00 TB Device: /dev/sda [SAT], found in smartd database. Device: /dev/sda [SAT], WARNING: There are known problems with these drives, see the following Seagate web pages: http://seagate.custkb.com/seagate/crm/selfservice/search.jsp?DocId=207931 http://seagate.custkb.com/seagate/crm/selfservice/search.jsp?DocId=207963 Device: /dev/sda [SAT], enabled SMART Attribute Autosave. Device: /dev/sda [SAT], enabled SMART Automatic Offline Testing. Device: /dev/sda [SAT], is SMART capable. Adding to "monitor" list. Device: /dev/sda [SAT], state read from /var/lib/smartmontools/smartd.ST31000340NS-9QJ2ADVC.ata.state Monitoring 1 ATA and 0 SCSI devices Executing test of mail to virmagnavi2010@gmail.com ... Test of mail to virmagnavi2010@gmail.com: successful Device: /dev/sda [SAT], opened ATA device Device: /dev/sda [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 49 to 48 Device: /dev/sda [SAT], offline data collection was completed without error (auto:on) Device: /dev/sda [SAT], previous self-test was interrupted by the host with a reset Device: /dev/sda [SAT], state written to /var/lib/smartmontools/smartd.ST31000340NS-9QJ2ADVC.ata.state
В этом режиме можно проверить или правильно был настроен конфигурационный файл и проверить отправляется ли почта. Чтобы выйти с этого режима нужно нажать Ctrl+. Используя Ctrl+C – файл конфигурации будет перечитан в реальном времени.
Так же можно запустить один раз проверку настроек использую директиву “-q onecheck” с указанием пути к конфигурационному файлу, или без него.
root@s12:~# smartd -c /path/to/smartd.conf -q onecheck
Можно также проверить настройку без конфигурационного файла, передавая нужную строку на STDIN smartd демона.
root@s12:~# echo "/dev/sda -a -m user@home,vir@gmail.com -M test" | smartd -c - -q onecheck
Вот и все.
Содержание
- Системное администрирование и мониторинг Linux/Windows серверов и видео CDN
- Статьи по настройке и администрированию Windows/Linux систем
- S.M.A.R.T. (часть 7). Настройка smartd демона для мониторинга дисков под Ubuntu 12.04
- Настройка запуска smartd демона
- Настройка мониторинга дисков
- Тестируем работу smartd демона
- SMART прислал сообщение. Диск менять? какой прогой перетаскивать данные ?
Системное администрирование и мониторинг Linux/Windows серверов и видео CDN
Статьи по настройке и администрированию Windows/Linux систем
- Полезное
- Карта сайта
- Мой сайт-визитка
- Рубрики
- Linux
- VoIP
- Безопасность
- Видеопотоки
- Системы виртуализации
- Системы мониторинга
- Windows
- Интересное
- Сеть и Интернет
- Linux
- Мета
- Войти
- RSS Feed
S.M.A.R.T. (часть 7). Настройка smartd демона для мониторинга дисков под Ubuntu 12.04
В этой статье хотел немного углубиться в настройки smartd демона для мониторинга физических дисков. В предыдущих статьях речь шла о настройке мониторинга дисков за LSI Fusion-MPT SAS, Adaptec AACRaid, HP/Compaq Smart Array, LSI 2108 RAID контроллерами и с обычным SCSI,SAT,ATA интерфейсом используя атрибуты под дистрибутивом Ubuntu 12.04 используя специализированные утилиты и smartctl.
Т.е. мы мониторили диски за RAID-контроллерами, используя ручные скрипты и команды, которые можно прицепить к любой системе мониторинга, но на много удобней автоматизировать отправку сообщений о проблемах с дисками через почту именно в тот момент, когда она реально назревает или уже возникла. Для этих нужд и предназначен демон smartd.
Для начала советую вам ознакомиться с мануалом smartd, где все детально расписано.
Вся инструкция сводиться до трех конфигурационных файлов, т.е. нужно добавить нужные настройки и рестартануть демоны.
Теперь давайте поэтапно разберем что это было.
Настройка запуска smartd демона
По умолчанию, smartd пишет логи в /var/log/syslog, так как это системный журнал событий – в нем может писаться очень много информации, что затрудняет поиски нужного вывода. Для этого, после краткого осмотра документации по smartd, первым делом добавим свой лог-файл в который будет писаться вся информация о работе smartd демона. Редактируем rsyslog.
- local3.* — включить все уровни логирования для объекта local3;
- /var/log/smard.log – файл, куда записать весь полученный вывод.
Ман по rsyslog.conf говорит, что можно брать любую не занятую facility в диапазоне local0 — local7.
priority можно подставить любой из debug, info, notice, warning, warn (same as warning), err, error (same as err), crit, alert, emerg, panic (same as emerg) или просто символ – «*», который включает все.
Т.е. в данном случаи у local3 объекта мы ловим сообщения с любым приоритетом (*) и записываем в файл. Так же можно все сообщения записывать в БД, передавать на другой хост или на локальный скрипт. Если передаем на локальный скрипт, то тело сообщения будет в arg[1] скрипта.
После внесения изменений в rsyslog делаем рестарт демона.
После рестарта у нас должен создаться файлик smard.log
Теперь при запуске демона smard нужно добавлять аргумент “-l locatl3”, что мы и сделаем отредактировав файл /etc/default/smartmontools.
Также было добавлено запуск демона smartd при старте системы (start_smartd=yes) и выставил интервал между проверками дисков в 1 час (—interval=3600).
Настройка мониторинга дисков
Мы разобрались с настройками запуска (аргументами и лог-файлами) smartd демона. Теперь же нужно правильно настроить проверку дисков. Ниже приведены самые употребляемые опции для мониторинга дисков через smartd.conf.
-d ata Мониторинг дисков с ATA интерфейсом scsi Мониторинг дисков с SCSI интерфейсом sat Мониторинг дисков с ATA интерфейсом, которые подключены через переходник SCSI marvell Мониторинг дисков за Marvell контроллером megaraid,N Мониторинг дисков за Megaraid RAID контроллером 3ware,N Мониторинг дисков за 3ware контроллером areca,N Мониторинг дисков за Areca SATA контроллером hpt,L/M/N Мониторинг дисков за HighPoint RocketRAID контроллером cciss,N Мониторинг дисков за cciss RAID контроллером -o on Включение SMART Automatic Offline тестов для обновления статуса атрибутов -S on Включить автосохранение атрибутов -Н Проверить только здоровье диска (если значение Prefailure атрибута меньше за threshold — увидим, что диск не здоров) -l-l error Уведомлять, если количество ошибок диска растет или тести заканчиваются с печальным результатом selftest -s T/MM/DD/d/HH T – тип теста (S – short, L – long, O – offline Immediate)MM – месяц (две цифры в диапазон 01-12)DD – день месяца (две цифры в диапазоне 01-31)d – день недели (одна цифра в диапазоне 1-7)
HH — время в часах (две цифры в диапазоне 00-23)
«.» — любой единичный символ
(A|B|C) — любой из трех вариантов
-s (O/../.././(00|06|12|18)|S/../.././01|L/../../6/03) -m your@mail.com Кому отправлять письма о проблеме -M test Идет только в сочетании с “–m” (–m root –M test). Отправить тестовое письмо при старте демона smartd. diminishing Периодически отсылать письма о проблеме ( 2*N период. Т.е. 1-го числа, второго, четвертого, восьмого и т.п. кратно двум ) exec script.sh Запустить скрипт, вместо обычной отправки письма. Демон smartd будет ждать, пока скрипт не завершит свою работу. Эта опция полезна, когда нужно провести некие действия с сообщением или выбрать другой почтовый клиент (по умолчанию /usr/bin/mail). -f [ATA only]Мониторинг Usage(Old_age) атрибутов на статус “failure”, связано с -H -p [ATA only]Мониторинг Prefail атрибутов -u [ATA only]Мониторинг Usage(Old_age) атрибутов -t [ATA only]Включение обоих проверок -p и –u -f -i ID [ATA only]Игнорировать атрибут с номером ID при проверке Usage(Old_age) атрибута на статус «failure» -I ID [ATA only]Игнорировать смену значений атрибута с номером ID(только в сочетании с одним из -t,-u,-p) -R ID [ATA only]Мониторинг изменений Raw value атрибута с номером ID. Автоматом включает -r опцию -С ID [ATA only]Мониторинг количества секторов, которые помечены как pending, т.е. те, которые система обозначит как bad-сектора и переназначит (-C 197) -U ID [ATA only]Мониторинг неисправимых(битых) секторов атрибута с номером ID(-U 198) -W d,i,c Мониторинг температуры. Уведомляет, если измениться на d градусов или будет больше за INFO(i) или CRIT(c) градусов (-W 5,40,50) -а Мониторинг, который включает в себе опции -H, -f, -t, -l selftest, -l error, -C 197,-U 198
Исходя из таблицы, настроим мониторинг трех SAT дисков.
Мы запускаем Short test каждый день в 1 час ночи и Long test тест каждую субботу в 3 часа ночи (-s). Уведомление об ошибках будет слаться на почтовый ящик(-m). Мониторинг включает стандартный набор атрибутов (–а), так же включено автоматического обновление атрибутов (-o) и их автосохранение (-S on). Так же, добавлена опция –M test, которая позволит отправить тестовое сообщение при старте демона.
Теперь рестартуем демон и смотрим на логи и в свой почтовый ящик.
На почту должны прийти сообщения следующее типа:
Если письмо не пришло, то смотрите логи. Если все ок, то опцию “-M test” можно заменить на -M diminishing, которое постоянно напоминать об ошибке (через каждых 2*N дней, т.е. 1-го числа, второго, четвертого, восьмого и т.д.) или вообще ее убрать, тогда письмо о проблеме придет только один раз, так что будьте осторожны и не потеряйте его.
Пример мониторинга дисков за Megaraid LSI 2108 RAID контроллером, которые не поддерживают атрибуты.
И последний пример с игнорированием неважных атрибутов.
Здесь проверяется статус здоровья диска (-H), с мониторингом статуса Usage(Old_age) атрибутов на статус “failure” (-f) и изменением значений Usage(Old_age) и Prefail атрибутов (-t), но игнорируются смена значений атрибутов связанных с температурой 190,194 (но приходит уведомление если значение температуры больше 40,50 — «-W»). Так же мониторим значение переназначенных (-R), помеченных битыми(-C) и неисправимых (-U) секторов. Кроме этого проверяется журнал ошибок и пройденных тестов (-l error -l selftest). Краткие тесты запускаются каждый день в 2 ночи, долгие – каждое воскресенье в 4 ночи (-s). Информация об ошибка шлется на почту (-m).
Тестируем работу smartd демона
smartd можно запустить в debug режиме для проверки настроек.
В этом режиме можно проверить или правильно был настроен конфигурационный файл и проверить отправляется ли почта. Чтобы выйти с этого режима нужно нажать Ctrl+. Используя Ctrl+C – файл конфигурации будет перечитан в реальном времени.
Так же можно запустить один раз проверку настроек использую директиву “-q onecheck” с указанием пути к конфигурационному файлу, или без него.
Можно также проверить настройку без конфигурационного файла, передавая нужную строку на STDIN smartd демона.
Источник
SMART прислал сообщение. Диск менять? какой прогой перетаскивать данные ?
на глазах увеличивается счетчик Raw_Read_Error_Rate
Диск заменить или для WD эта ошибка ничего не значит?
На замену 4TB от WD пойдет 4TB от HITACHI HDD 4 Tb SATA 6Gb / s Hitachi Ultrastar 7K4000 3.5″ 7200rpm 64Mb ?
Если менять то какой утилитой перетащить данные, диск поду управлением drbd, поверх drbd LVM с виртуалками KVM.
Прогони в виктории. Может починит.
покажи это вашему админу, он знает, что делать
на глазах увеличивается счетчик Raw_Read_Error_Rate
В стодецальонный раз повторю — RAW_VALUE читают только роботы, это не для людей.
The raw value has different structure for different vendors and is often not meaningful as a decimal number.
или для WD эта ошибка ничего не значит?
Не, конечно ничего не значит, ты чо. // sarcasm.png
для кого это форум? для посылальщиков?
ничего не значит — имелось ввиду что беспокоиться не о чем в случае если эта ошибка появляется у производителя WD.
Для WD критичный параметр.
Круто, ну хоть у кого-то SMART работает и реально предупреждает.
Диск умирает (ну, или SMART так думает. Лучше поверить).
Я правильно понял, что RAID’а там нет?
ты умеешь вытащить смарт, но
Диск заменить или для WD эта ошибка ничего не значит?
ты не понимаешь что у тебя происходит, не знаешь оборудование или оно не твое
диск поду управлением drbd, поверх drbd LVM с виртуалками KVM.
весьма сложная конструкция, если бы ты это сделал это сам, то с элементарные вопросы тут не задавал бы, если таки натыкал эту конфигурацию в проксмоксе, и считаешь что этого достаточно, у меня для тебя плохие новости
Если менять то какой утилитой перетащить данные
ты не знаешь инструменты и следовательно не можешь уметь ими пользоваться т.е. ты не админ — логично позвать админа чтобы он сделал свою работу, из твоих вопросов, на мой взгляд, следует, что шансов справится у тебя немного.
следствие больного опыта, к счастью не моего
WD диск точно не мой, это диск WD как впрочем и остальное железо и софт. опыт такая штука, что он устаревает и нужно его освежать.
Если lvm, то vgextend, pvmove, vgreduce же.
да ради бга, освежи опыт, свежевать-то если чо, тебя будут.
Добавь в систему дополнительный диск. Сделай на нём LVM. И перетащи данные. Всё это можно сделать не отключая сервисы и не приостанавливая работу.
уже давно освеженный я
спасибо за ответы
Если менять то какой утилитой перетащить данные
cp и dd не предлагать?
использовал clonezilla
Но увы диск сдох окончательно — во время копирования были слышны постукивания, поскрипывания,пришлось брать новый и с нуля настраивать drbd.
Данные целы или из бэкапов ?
Данные целы, копия данных drbd ресурса была на второй ноде. После синхронизации данных кластер заработал, с резервной ноды виртуалки перехали на основную — на которой был заменен диск.
В целом время НЕ обслуживания кластером пользователей равнялось времени миграции виртуалок в основной ноды на резервную, после аварии с диском.
И это мне повезло — грохнулся не системный диск, а диск с drbd на котором были виртуалки. Думаю что системный диск нужно резервировать с использованием RAID контроллера, т.е. повысить изначально отказоустойчивость в два раза — сделать зеркало.
Вот если он грохнется, то тут меня освежевают.
А был бы простой mdadm без кластеров, наживую поменял бы диск и восстановил бы зеркало без простоя вообще — диски расходник. Аппаратные рейды — нафиг. Хорошо, что дрбд нормально отработал, он, кстати, по какой схеме собран ?
Думаю что системный диск нужно резервировать с использованием RAID контроллера, т.е. повысить изначально отказоустойчивость в два раза — сделать зеркало.
Еще один (почти) все понял. Я правильно понимаю, что все настройки через морду проксмокса делаются ?
На живую не получается, кластер на десктопном железе. Корзинки для горячей замены дисков нет. А так да все на горячую можно было бы сделать и с гораздо меньшими издержками. DRBD сорбран по схеме primary-primary, по инструкции на сайте proxmox. То что нормально drbd отработал, ну не знаю может повезло — хотя ведь так и должно быть. Иначе зачем оно?
Настройки drbd изначальные руками делаются.
во время устранения аварии с диском все системные операции руками. В админке proxmox только миграцию виртуалок запускал, после того как drbd восстановил.
mdadm — не рекомендован разрабами proxmox. Хотя и не панацея.
займусь этими командами для системного диска
Можешь гордиться, настоящее сообщение SMART большая редкость.
Температура диска высоковата и, и судя по значениям смарта была еще выше. Это не гут для дисков. Надо продумать вопрос с охлаждением.
Диск однозначно менять. Причем текущее состояние смарта — повод менять по гарантии, если еще есть.
Ты даже не представляешь, КАК тебе повезло. Смарт сработал на харде, на которых они обычно не работают, drbd в самом опасном режиме не сдох. На десктопном железе. Ты джекпот словил.
Про температруру для себя отметил когда менял винт, возможно в корпусе компа нужен доп вентилятор или новый корпус.
на других серверах у дисков температура 25,28,36 градусов.
собственно, вот таких осмысленных ответов и ожидаешь от форума
Источник
-
- #1
I received this mail from my OMV 5 server
«
This message was generated by the smartd daemon running on:host name: mod
DNS domain: [Empty]The following warning/error was logged by the smartd daemon:
Device: /dev/disk/by-id/ata-ST3000DM001-1ER166_Z503CJSH [SAT], Read SMART Error Log Failed
Device info:
ST3000DM001-1ER166, S/N:Z503CJSH, WWN:5-000c50-092117db3, FW:CC26, 3.00 TBFor details see host’s SYSLOG.
You can also use the smartctl utility for further investigation.
The original message about this issue was sent at Thu Jan 30 22:34:55 2020 CET
Another message will be sent in 24 hours if the problem persists.»As suggested, I ran the command from the terminal: smartctl -a /dev/disk/by-id/ata-ST3000DM001-1ER166_Z503CJSH
Here is the result:
But I’m not so navigated as to understand the result, can someone explain it to me in simple terms?
Thanks
-
- Offizieller Beitrag
- #2
There is a great page on Wikipedia about this:
https://en.m.wikipedia.org/wiki/S.M.A.R.T.
Zitat
S.M.A.R.T. (Self-Monitoring, Analysis and Reporting Technology; often written as SMART) is a monitoring system included in computer hard disk drives (HDDs), solid-state drives (SSDs), and eMMC drives.
Its primary function is to detect and report various indicators of drive reliability with the intent of anticipating imminent hardware failures.
When S.M.A.R.T. data indicates a possible imminent drive failure, software running on the host system may notify the user so preventative action can be taken to prevent data loss, and the failing drive can be replaced and data integrity maintained.
Alles anzeigen
And there you can find detailed information about what all the different indicators actually means. And what indicators are bad, using a warning triangle and highlighting. In my experience, once a hdd starts reporting S.M.A.R.T errors, things tend to go downhill fast. But not always. It is a good idea to monitor closely to see if things gets worse. And of course make sure one extra time that backups are good and a replacement drive is available.
If there are high costs associated with unplanned down time, it could be a good idea to schedule maintenance soon to swap the hdd before it fails at a bad time.
-
#1
Hi,
I just received a email notification:
Subject
SMART error (FailedOpenDevice) detected on host: FreeNAS
Body
This message was generated by the smartd daemon running on:
host name: FreeNAS
DNS domain: localThe following warning/error was logged by the smartd daemon:
Device: /dev/da3 [SAT], unable to open device
Device info:
WDC WD30EZRX-00DC0B0, S/N:WD-WCC1T1416374, WWN:5-0014ee-25e0bbcc2, FW:80.00A80, 3.00 TBFor details see host’s SYSLOG.
You can also use the smartctl utility for further investigation.
No additional messages about this problem will be sent.
Just wondering what the best course of action is from here. How do I confirm that the disk has failed?
I am running 4 drives on my M1015 controller (that has been reflashed) and 2 drives on my MB. Setup includes 6 x 3TB RAIDz2.
$ zpool status
Code:
pool: Volume4 state: DEGRADED status: One or more devices has been removed by the administrator. Sufficient replicas exist for the pool to continue functioning in a degraded state. action: Online the device using 'zpool online' or replace the device with 'zpool replace'. scan: resilvered 4.36G in 0h2m with 0 errors on Sat Nov 16 16:37:37 2013 config: NAME STATE READ WRITE CKSUM Volume4 DEGRADED 0 0 0 raidz2-0 DEGRADED 0 0 0 gptid/916ff50d-3151-11e3-92fc-f46d04de02ec ONLINE 0 0 0 gptid/92784bd8-3151-11e3-92fc-f46d04de02ec ONLINE 0 0 0 gptid/9372b04c-3151-11e3-92fc-f46d04de02ec ONLINE 0 0 0 gptid/94811c78-3151-11e3-92fc-f46d04de02ec ONLINE 0 0 0 gptid/958895ad-3151-11e3-92fc-f46d04de02ec ONLINE 0 0 0 8659309636289833160 REMOVED 0 0 0 was /dev/gptid/96a49781-3151-11e3-92fc-f46d04de02ec errors: No known data errors
Doing some searching on the forum. I have tried running some smart test again from shell.
$ smartctl -q noserial -a /dev/da3
Code:
smartctl 6.1 2013-03-16 r3800 [FreeBSD 9.1-STABLE amd64] (local build) Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org /dev/xpt0 control device couldn't opened: Permission denied Unable to get CAM device list /dev/da3: Unable to detect device type Please specify device type with the -d option. Use smartctl -h to get a usage summary
$ cat /usr/local/etc/smartd.conf
Code:
################################################ # smartd.conf generated by /etc/rc.d/ix-smartd ################################################ /dev/da0 -n never -W 0,55,60 -m email@gmail.com -m root /dev/ada1 -n never -W 0,55,60 -m email@gmail.com -m root /dev/da1 -n never -W 0,55,60 -m email@gmail.com -m root /dev/ada0 -n never -W 0,55,60 -m email@gmail.com -m root /dev/da2 -n never -W 0,55,60 -m email@gmail.com /dev/da3 -n never -W 0,55,60 -m email@gmail.com
Any help would be great. Thanks
P.S please indicate the shel commands to run as I am not familiar with running these tests. Doesnt look like the ones I ran above have been working.
-
#2
It appears that da3 has disconnected from the system. More than likely the disk just failed outright. The fact that its «REMOVED» tends to support that.
So you need to figure out which disk that is and pull it from the system and replace it with a new disk. That is, unless you were playing inside the server and accidentally bumped the cabling or something. You might be able to do a cold boot of the system and be able to query the smart data for da3, if it works long enough to let you.
-
#3
Thanks for your quick reply.
Hmm. I did have the cover open playing inside for a bit, but didnt think I had touch any sata cables. Also the FreeNAS was on and working fine whilst I received the notification.
I will try rebooting it now. By querying da3 do you mean
Code:
smartctl -q noserial -a /dev/da3
When I run this command for all of my disk ada0, ada1, da0, da1, da2, da3 I always get this
Code:
smartctl 6.1 2013-03-16 r3800 [FreeBSD 9.1-STABLE amd64] (local build) Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org /dev/xpt0 control device couldn't opened: Permission denied Unable to get CAM device list /dev/ada0: Unable to detect device type Please specify device type with the -d option. Use smartctl -h to get a usage summary
So for some reason it’s not giving me anything. Any ideas?
-
#4
ran anothe zpool status after reboot
Code:
pool: Volume4 state: DEGRADED status: One or more devices could not be opened. Sufficient replicas exist for the pool to continue functioning in a degraded state. action: Attach the missing device and online it using 'zpool online'. see: http://illumos.org/msg/ZFS-8000-2Q scan: resilvered 4.36G in 0h2m with 0 errors on Sat Nov 16 16:37:37 2013 config: NAME STATE READ WRITE CKSUM Volume4 DEGRADED 0 0 0 raidz2-0 DEGRADED 0 0 0 gptid/916ff50d-3151-11e3-92fc-f46d04de02ec ONLINE 0 0 0 gptid/92784bd8-3151-11e3-92fc-f46d04de02ec ONLINE 0 0 0 gptid/9372b04c-3151-11e3-92fc-f46d04de02ec ONLINE 0 0 0 gptid/94811c78-3151-11e3-92fc-f46d04de02ec ONLINE 0 0 0 gptid/958895ad-3151-11e3-92fc-f46d04de02ec ONLINE 0 0 0 8659309636289833160 UNAVAIL 0 0 0 was /dev/gptid/96a49781-3151-11e3-92fc-f46d04de02ec
Also still not allowing me to run the SMART util and above.
-
#5
I am now in the process of replacing the failed drive and am not sure how to proceed.
As per wiki http://doc.freenas.org/index.php/Volumes#Replacing_a_Failed_Drive_or_SSD Step 1 I have navigated to Storage → Volumes → View Volumes → Volume Status and locate the failed device. When I select the disk however, I have only got 1 button «Replace». I am missing the «Offline» button.
I ran zpool status as below and the failed disk is unavailable and not offline.
Code:
pool: Volume4 state: DEGRADED status: One or more devices could not be opened. Sufficient replicas exist for the pool to continue functioning in a degraded state. action: Attach the missing device and online it using 'zpool online'. see: http://illumos.org/msg/ZFS-8000-2Q scan: resilvered 4.36G in 0h2m with 0 errors on Sat Nov 16 16:37:37 2013 config: NAME STATE READ WRITE CKSUM Volume4 DEGRADED 0 0 0 raidz2-0 DEGRADED 0 0 0 gptid/916ff50d-3151-11e3-92fc-f46d04de02ec ONLINE 0 0 0 gptid/92784bd8-3151-11e3-92fc-f46d04de02ec ONLINE 0 0 0 gptid/9372b04c-3151-11e3-92fc-f46d04de02ec ONLINE 0 0 0 gptid/94811c78-3151-11e3-92fc-f46d04de02ec ONLINE 0 0 0 gptid/958895ad-3151-11e3-92fc-f46d04de02ec ONLINE 0 0 0 8659309636289833160 UNAVAIL 0 0 0 was /dev/gptid/96a49781-3151-11e3-92fc-f46d04de02ec errors: No known data errors
How do I proceed from here. Does this mean that maybe the sata cable has come loose or something (in the process of checking now) or can I change this to offline some how?
Thanks
-
#6
The disk is already offline. You just have to click the «replace» button and continue on as the manual dictates. I just fixed it for future manuals, but the current manual won’t reflect this change.
-
#7
Thanks mate,
Replaced the drive fine. Appreciate the help.
-
#8
Did you ever figure out why the SMART commands wont return any info though? I’m having the same problem. I also have a M1015 cross flashed controller.
-
#9
Did you ever figure out why the SMART commands wont return any info though? I’m having the same problem. I also have a M1015 cross flashed controller.
hey, sorry for the late reply.
No id didn’t. Im sure if I spent more time on it I would but dont have time too at the moment.