The following warning error was logged by the smartd daemon

Team, I keep getting the following errors via email: This message was generated by the smartd daemon running on: host name: hera DNS domain: domain.net The following warning/error was logged by the smartd daemon: Device: /dev/bus/0 [megaraid_disk_10], Read SMART Self-Test Log Failed...

I have a Dell R515 server that I upgraded so that all 8 hard-drives are solid state. Specifically, I have 8 of these SSDs in a RAID 10:

Code:

Samsung V-NAND SSD 860 EVO 1TB SATA 6Gbps
    Model MZ-76E1T0
    Model Code: MZ-76E1T0E

After a few months, Proxmox kept emailing me this error regarding disk 5 :

Code:

Device: /dev/bus/1 [megaraid_disk_05] [SAT], Read SMART Self-Test Log Failed

While, the server was on, I looked at the drive lights and noticed that disk 5 had no light at all. When I would reboot the server, though, the light on disk 5’s drive tray would come back on. But it wouldn’t be long before Proxmox would email me that same error above and the light would go back off, while the sever was running.

2 days ago, Proxmox emailed the same error again regarding that same drive. Yesterday, I removed that hot-swap-able drive (actually I’m not even sure that this SSD it is designed to be hot-swap-able) from the server while the server was running. I unscrewed it from the drive tray, and hooked it up to my Kubuntu 20.04 laptop via a USB drive dock.

I used gparted to view the drive, and it appeared like the drive had nothing on it, not even a partition table. So I created a GPT partition table, using Gparted, and then created an EXT4 partition at max size. These details probably don’t matter. I was just wanting to remove anything that might still be on the disk. After this, I removed the Ext4 partition, so that the drive had no partitions on it. I really didn’t know what RAID 10 wanted me to do to get that SSD into an optimal state for RAID 10 to rebuild the drive, but I’m just telling you what I did.

After this, I screwed the drive back into its drive tray, and re-inserted it back into the server’s drive bay. When I plugged it back in, its drive light came on, and I could see that drive 4 was rebuilding this drive 5, because both of their green lights were blinking rapidly while all of the other drive lights were at their normal activity levels.

Later that day, I check the lights again, and all lights were normal green with equal activity. So, I assume the drive was rebuilt by the RAID 10 successfully.

So far, everything is normal, and I’ve received no further notifications from Proxmox regarding drive 5.

I’m not sure my procedure was proper, so I’m not advising you follow it, I’m simply sharing what I did to make the error notifications go away. One dangerous thing I did, was hot-swaping that SSD without knowing if it was designed for hot-swapping. It would have been safer for me to perform these steps I did while the server was completely off (I suspect).

UPDATE: I was wrong. This didn’t fix my issue. I just got the same error again. I don’t know how to fix this. When I replaced all the hard drives in this server with SSDs, the guy I bought this from warned me that their could be consequences like this. I can’t remember exactly what he said, but I do recall him saying that it would work, but might generate some type of errors.


1

2

This email was generated by the smartd daemon running on:

   host name: proxmox1
  DNS domain: хххх.ru
  NIS domain: (none)

The following warning/error was logged by the smartd daemon:

Device: /dev/sdb [SAT], Failed SMART usage Attribute: 1 Raw_Read_Error_Rate.

For details see host's SYSLOG.

You can also use the smartctl utility for further investigation.
Another email message will be sent in 24 hours if the problem persists.
# smartctl -a /dev/sdb
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-2.6.32-23-pve] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD4000FYYZ-01UL1B0
Serial Number:    WD-WCC130207477
LU WWN Device Id: 5 0014ee 207ac2a0c
Firmware Version: 01.01K01
User Capacity:    4,000,787,030,016 bytes [4.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Wed Jan 14 14:12:12 2015 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
See vendor-specific Attribute list for failed Attributes.

General SMART Values:
Offline data collection status:  (0x85) Offline data collection activity
                                        was aborted by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 241) Self-test routine in progress...
                                        10% of test remaining.
Total time to complete Offline
data collection:                (47100) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 255) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x70bd) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   001   001   051    Pre-fail  Always   FAILING_NOW 1264
  3 Spin_Up_Time            0x0027   156   143   021    Pre-fail  Always       -       11200
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       41
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   080   080   000    Old_age   Always       -       14819
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       41
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       26
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       38
194 Temperature_Celsius     0x0022   107   088   000    Old_age   Always       -       45
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     14764         -
# 2  Short offline       Completed without error       00%     14558         -
# 3  Short offline       Completed without error       00%     14524         -
# 4  Short offline       Completed without error       00%     14508         -
# 5  Short offline       Completed without error       00%     14426         -
# 6  Short offline       Completed without error       00%     14381         -
# 7  Short offline       Completed without error       00%     14286         -
# 8  Short offline       Completed without error       00%     14238         -
# 9  Short offline       Completed without error       00%     14207         -
#10  Short offline       Completed without error       00%     14160         -
#11  Short offline       Completed without error       00%     14114         -
#12  Short offline       Completed without error       00%     14073         -
#13  Short offline       Completed without error       00%     14053         -
#14  Short offline       Completed without error       00%     14021         -
#15  Short offline       Completed without error       00%     13974         -
#16  Short offline       Completed without error       00%     13961         -
#17  Short offline       Completed without error       00%     13925         -
#18  Short offline       Completed without error       00%     13904         -
#19  Short offline       Completed without error       00%     13873         -
#20  Short offline       Completed without error       00%     13830         -
#21  Short offline       Completed without error       00%     13788         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

на глазах увеличивается счетчик Raw_Read_Error_Rate
Диск заменить или для WD эта ошибка ничего не значит?
На замену 4TB от WD пойдет 4TB от HITACHI HDD 4 Tb SATA 6Gb / s Hitachi Ultrastar 7K4000 < HUS724040ALA640 > 3.5″ 7200rpm 64Mb ?
Если менять то какой утилитой перетащить данные, диск поду управлением drbd, поверх drbd LVM с виртуалками KVM.

  • Печать

Страницы: [1] 2  Все   Вниз

Тема: Состояние диска, менять или еще поработает?  (Прочитано 3983 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн
Ввысь

Здравствуйте.

Подскажите, в syslog есть такое

smartd[654]: Device: /dev/sdb [SAT], 4 Currently unreadable (pending) sectors
smartd[654]: Device: /dev/sdb [SAT], 8 Offline uncorrectable sectors

Сервер прислал письмо

The following warning/error was logged by the smartd daemon:

Device: /dev/sdb [SAT], 8 Offline uncorrectable sectors

Device info:
WDC WD5003AZEX-00K1GA0, S/N:WD-WMC1S6579846, WWN:5-0014ee-003a9bfc9, FW:80.00A80, 500 GB

Прочел, что если smartctl -H /dev/sdb выдает PASSED то можно забить. Так ли это или замена?


Оффлайн
ALiEN175

sudo smartctl -a /dev/sdb

ASUS P5K-C :: Intel Xeon E5450 @ 3.00GHz :: 8 GB DDR2 :: Radeon R7 260X :: XFCE
ACER 5750G :: Intel Core i5-2450M @ 2.50GHz :: 6 GB DDR3 :: GeForce GT 630M :: XFCE


Оффлайн
Ввысь


Оффлайн
ALiEN175

Пока показания маленькие, не страшно, но всё же: инфу сбекапить, следить за показателями 5, 197, 198, 200.
Если будут постоянно расти — на магнитики. Если нет — то поработает, но в любом случае, инфу без бекапов на нём хранить не стоит.

подробнее тут: https://www.ixbt.com/storage/hdd-smart-testing.shtml

Вообще, при любых подозрениях на неполадки с диском — бекапить инфу!

« Последнее редактирование: 03 Февраля 2018, 17:37:15 от ALiEN175 »

ASUS P5K-C :: Intel Xeon E5450 @ 3.00GHz :: 8 GB DDR2 :: Radeon R7 260X :: XFCE
ACER 5750G :: Intel Core i5-2450M @ 2.50GHz :: 6 GB DDR3 :: GeForce GT 630M :: XFCE


Оффлайн
Ввысь

ALiEN175, понял. Спасибо.


Оффлайн
mahinist

Ввысь, Уж какой год готовлюсь а он всё скрипит  :)


Оффлайн
EvangelionDeath

mahinist, так то же Seagate =) И пока Raw_Read_Error_Rate = Hardware_ECC_Recovered нервничать не стоит) На них часто в некоторых параметрах просто заоблачные цифры)

HP Pro 840 G3: Intel i5-6300U, 32GB DDR4 2133MHz, Intel 520, Intel Pro 2500 180GB/Ubuntu 22.04
Dell Latitude 5590: Intel i5-8350U, 16GB DDR4 2400MHz, Intel 620, Samsung 1TB/Ubuntu 22.04


Оффлайн
ALiEN175

mahinist, у вас в критичных  показателях — всё по нулям.  ???
а по 184 — кеш шалит.

I have seen many people report this error, but it never seems to cause problems if it occurs on its own.

http://www.tomshardware.co.uk/answers/id-2234966/hard-disk-end-end-error.html

И диск ваш всего-то пару лет проработал:
9 Power_On_Hours          0x0032   081   081   000    Old_age   Always       —       17064

У меня на одном диске уже за 59000 часов))
Почти семь лет  :o

« Последнее редактирование: 03 Февраля 2018, 19:51:04 от ALiEN175 »

ASUS P5K-C :: Intel Xeon E5450 @ 3.00GHz :: 8 GB DDR2 :: Radeon R7 260X :: XFCE
ACER 5750G :: Intel Core i5-2450M @ 2.50GHz :: 6 GB DDR3 :: GeForce GT 630M :: XFCE


Оффлайн
mahinist

нервничать не стоит

Дык знаем  , спокоен  , это же —

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.12
Device Model:     ST31000528AS
  :)

PS Для ТС — Не нужно паниковать , ваш ЖД может ещё долго проработать , однако лучше придерживаться выше данных советов .


Оффлайн
snowin

на самом деле паниковать нужно


Оффлайн
Ввысь

дочитал последние сообщения) да, по итогу решай как говорится сам) полностью противоположные мнения.


Оффлайн
DimanBG


Оффлайн
snowin

Ввысь, Все правильно, так и должно было быть
поскольку все зависит от того для чего ты используешь этот диск
одно дело использовать его в качестве системного носителя — я бы его прошел той же Викторией, и обнаружил бэды
с бэдами будешь использовать системный диск?
другое дело, если хранить на нем не значимую и не активно используемую инфу аля порно/фильмы/музыка, не значимые архивы
тогда еще может поработать.
по-сему — решать исключительно тебе


Оффлайн
Ввысь

DimanBG, да, я эти расшифровки видел. Нет единого параметра указывающего на состояние, всё такое, общее.

snowin, короче проще заменить чем гадать сколько он протянет, понял, спасибо.


Оффлайн
maks05

Ввысь, оно не общее, а волне конкретное. Вам же сказали, за какими параметрами следить, а у вас по ним всё в порядке. Вот будет расти пункт 5 — тогда да, срочно менять.


  • Печать

Страницы: [1] 2  Все   Вверх

imagesВ этой статье хотел немного углубиться в настройки smartd демона для мониторинга физических дисков. В предыдущих статьях речь шла о настройке мониторинга дисков за LSI Fusion-MPT SAS, Adaptec AACRaid, HP/Compaq Smart Array, LSI 2108 RAID контроллерами и с обычным SCSI,SAT,ATA интерфейсом используя атрибуты под дистрибутивом Ubuntu 12.04 используя специализированные утилиты и smartctl.
Т.е. мы мониторили диски за RAID-контроллерами, используя ручные скрипты и команды, которые можно прицепить к любой системе мониторинга, но на много удобней автоматизировать отправку сообщений о проблемах с дисками через почту именно в тот момент, когда она реально назревает или уже возникла. Для этих нужд и предназначен демон smartd.
Для начала советую вам ознакомиться с мануалом smartd, где все детально расписано.

root@s12:~# man smartd

Вся инструкция сводиться до трех конфигурационных файлов, т.е. нужно добавить нужные настройки и рестартануть демоны.

root@s12:~# cat /etc/rsyslog.d/60-smart.conf
local3.*                         /var/log/smard.log
root@s12:~# cat /etc/default/smartmontools
start_smartd=yes
smartd_opts="--interval=3600 --logfacility=local3"
root@s12:~# cat /etc/smartd.conf
#Диски, которые нужно мониторить
/dev/sda -d sat -o on -S on -m support@support.com -M diminishing -a -s (S/../.././01|L/../../6/03)
/dev/sdb -d sat -o on -S on -m support@support.com -M diminishing -a -s (S/../.././01|L/../../6/03)
/dev/sdc -d sat -o on -S on -m support@support.com -M diminishing -a -s (S/../.././01|L/../../6/03)
root@s12:~# /etc/init.d/rsyslog restart
root@s12:~# /etc/init.d/smartd restart

Теперь давайте поэтапно разберем что это было.

По умолчанию, smartd пишет логи в /var/log/syslog, так как это системный журнал событий – в нем может писаться очень много информации, что затрудняет поиски нужного вывода. Для этого, после краткого осмотра документации по smartd, первым делом добавим свой лог-файл в который будет писаться вся информация о работе smartd демона. Редактируем rsyslog.

root@s12:~# vim /etc/rsyslog.d/50-default.conf
...
local3.*                        /var/log/smard.log
...

Здесь,

  • local3.* — включить все уровни логирования для объекта local3;
  • /var/log/smard.log – файл, куда записать весь полученный вывод.

Ман по rsyslog.conf говорит, что можно брать любую не занятую facility в диапазоне local0 — local7.
priority можно подставить любой из debug, info, notice, warning, warn (same as warning), err, error (same as err), crit, alert, emerg, panic (same as emerg) или просто символ – «*», который включает все.
Т.е. в данном случаи у local3 объекта мы ловим сообщения с любым приоритетом (*) и записываем в файл. Так же можно все сообщения записывать в БД, передавать на другой хост или на локальный скрипт. Если передаем на локальный скрипт, то тело сообщения будет в arg[1] скрипта.
После внесения изменений в rsyslog делаем рестарт демона.

root@s12:~# /etc/init.d/rsyslog restart
root@s12:~# initctl status rsyslog
rsyslog start/running, process 5662

После рестарта у нас должен создаться файлик smard.log

root@s12:~# ls -l /var/log/smard.log
-rw-r----- 1 syslog adm 0 Mar 29 18:01 /var/log/smard.log

Теперь при запуске демона smard нужно добавлять аргумент “-l locatl3”, что мы и сделаем отредактировав файл /etc/default/smartmontools.

root@s12:~# cat /etc/default/smartmontools
# uncomment to start smartd on system startup
start_smartd=yes

# uncomment to pass additional options to smartd on startup
smartd_opts="--interval=3600 --logfacility=local3"

Также было добавлено запуск демона smartd при старте системы (start_smartd=yes) и выставил интервал между проверками дисков в 1 час (—interval=3600).

Настройка мониторинга дисков

Мы разобрались с настройками запуска (аргументами и лог-файлами) smartd демона. Теперь же нужно правильно настроить проверку дисков. Ниже приведены самые употребляемые опции для мониторинга дисков через smartd.conf.

Опция

Значение опции

Описание

-d ata Мониторинг дисков с ATA интерфейсом
scsi Мониторинг дисков с SCSI интерфейсом
sat Мониторинг дисков с ATA интерфейсом, которые подключены через переходник SCSI
marvell Мониторинг дисков за Marvell контроллером
megaraid,N Мониторинг дисков за Megaraid RAID контроллером
3ware,N Мониторинг дисков за 3ware контроллером
areca,N Мониторинг дисков за Areca SATA контроллером
hpt,L/M/N Мониторинг дисков за HighPoint RocketRAID контроллером
cciss,N Мониторинг дисков за cciss RAID контроллером
-o on Включение SMART Automatic Offline тестов для обновления статуса атрибутов
-S on Включить автосохранение атрибутов
Проверить только здоровье диска (если значение Prefailure атрибута меньше за threshold — увидим, что диск не здоров)
-l-l error Уведомлять, если количество ошибок диска растет или тести заканчиваются с печальным результатом
selftest
-s T/MM/DD/d/HH T – тип теста (S – short, L – long, O – offline Immediate)MM – месяц (две цифры в диапазон 01-12)DD – день месяца (две цифры в диапазоне 01-31)d – день недели (одна цифра в диапазоне 1-7)

HH — время в часах (две цифры в диапазоне 00-23)

«.» — любой единичный символ

(A|B|C) — любой из трех вариантов

Пример:

-s (O/../.././(00|06|12|18)|S/../.././01|L/../../6/03)

-m your@mail.com Кому отправлять письма о проблеме
-M test Идет только в сочетании с “–m” (–m root –M test). Отправить тестовое письмо при старте демона smartd.
diminishing Периодически отсылать письма о проблеме ( 2*N период. Т.е. 1-го числа, второго, четвертого, восьмого и т.п. кратно двум )
exec script.sh Запустить скрипт, вместо обычной отправки письма. Демон smartd будет ждать, пока скрипт не завершит свою работу. Эта опция полезна, когда нужно провести некие действия с сообщением или выбрать другой почтовый клиент (по умолчанию /usr/bin/mail).
-f [ATA  only]Мониторинг Usage(Old_age) атрибутов на статус “failure”, связано с -H
-p [ATA  only]Мониторинг Prefail атрибутов
-u [ATA  only]Мониторинг Usage(Old_age) атрибутов
-t [ATA  only]Включение обоих проверок -p и –u
-f -i ID [ATA  only]Игнорировать атрибут с номером ID при проверке Usage(Old_age) атрибута на статус «failure»
-I ID [ATA  only]Игнорировать смену значений атрибута с номером ID(только в сочетании с одним из -t,-u,-p)
-R ID [ATA  only]Мониторинг изменений Raw value атрибута с номером ID. Автоматом включает -r опцию
ID [ATA  only]Мониторинг количества секторов, которые помечены как pending, т.е. те, которые система обозначит как bad-сектора и переназначит (-C 197)
-U ID [ATA  only]Мониторинг неисправимых(битых) секторов атрибута с номером ID(-U 198)
-W d,i,c Мониторинг температуры. Уведомляет, если измениться на d градусов или будет больше за INFO(i) или CRIT(c) градусов (-W 5,40,50)
Мониторинг, который включает в себе опции -H, -f, -t, -l selftest, -l error, -C 197,-U 198

Исходя из таблицы, настроим мониторинг трех SAT дисков.
Мы запускаем Short test каждый день в 1 час ночи и Long test тест каждую субботу в 3 часа ночи (-s). Уведомление об ошибках будет слаться на почтовый ящик(-m). Мониторинг включает стандартный набор атрибутов (–а), так же включено автоматического обновление атрибутов (-o) и их автосохранение (-S on). Так же, добавлена опция –M test, которая позволит отправить тестовое сообщение при старте демона.

root@s12:~# vim /etc/smartd.conf
…
/dev/sda -d sat -o on -S on -m frodo10@gmail.com -M test -a -s (S/../.././01|L/../../6/03)
/dev/sdb -d sat -o on -S on -m frodo10@gmail.com -M test -a -s (S/../.././01|L/../../6/03)
/dev/sdc -d sat -o on -S on -m frodo10@gmail.com -M test -a -s (S/../.././01|L/../../6/03)
…

Теперь рестартуем демон и смотрим на логи и в свой почтовый ящик.

root@s12:~# /etc/init.d/smartd restart
Stopping S.M.A.R.T. daemon: smartd.
Starting S.M.A.R.T. daemon: smartd.
root@s12:~# cat /var/log/smard.log
Mar 31 14:34:33 s12 smartd[14930]: smartd 5.41 2011-06-09 r3365 [x86_64-linux-3.8.0-29-generic] (local build)
Mar 31 14:34:33 s12 smartd[14930]: Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
Mar 31 14:34:33 s12 smartd[14930]: Opened configuration file /etc/smartd.conf
Mar 31 14:34:33 s12 smartd[14930]: Configuration file /etc/smartd.conf parsed.
Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sda [SAT], opened
Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sda [SAT], ST31000340NS, S/N:9QJ2ADVC, WWN:5-000c50-00dd5f99b, FW:SN05, 1.00 TB
Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sda [SAT], found in smartd database.
Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sda [SAT], WARNING: There are known problems with these drives,
Mar 31 14:34:33 s12 smartd[14930]: see the following Seagate web pages:
Mar 31 14:34:33 s12 smartd[14930]: http://seagate.custkb.com/seagate/crm/selfservice/search.jsp?DocId=207931
Mar 31 14:34:33 s12 smartd[14930]: http://seagate.custkb.com/seagate/crm/selfservice/search.jsp?DocId=207963
Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sda [SAT], enabled SMART Attribute Autosave.
Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sda [SAT], enabled SMART Automatic Offline Testing.
Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sda [SAT], is SMART capable. Adding to "monitor" list.
Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sda [SAT], state read from /var/lib/smartmontools/smartd.ST31000340NS-9QJ2ADVC.ata.state
Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sdb [SAT], opened
Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sdb [SAT], ST31000340NS, S/N:9QJ5HB9J, WWN:5-000c50-019998158, FW:SN06, 1.00 TB
Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sdb [SAT], found in smartd database.
Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sdb [SAT], enabled SMART Attribute Autosave.
Mar 31 14:34:33 s12 smartd[14930]: Device: /dev/sdb [SAT], enabled SMART Automatic Offline Testing.
Mar 31 14:34:34 s12 smartd[14930]: Device: /dev/sdb [SAT], is SMART capable. Adding to "monitor" list.
Mar 31 14:34:34 s12 smartd[14930]: Device: /dev/sdc [SAT], opened
Mar 31 14:34:34 s12 smartd[14930]: Device: /dev/sdc [SAT], WDC WD1003FBYX-01Y7B0, S/N:WD-WCAW30367458, WWN:5-0014ee-2affa9695, FW:01.01V01, 1.00 TB
Mar 31 14:34:34 s12 smartd[14930]: Device: /dev/sdc [SAT], found in smartd database.
Mar 31 14:34:34 s12 smartd[14930]: Device: /dev/sdc [SAT], enabled SMART Attribute Autosave.
Mar 31 14:34:34 s12 smartd[14930]: Device: /dev/sdc [SAT], enabled SMART Automatic Offline Testing.
Mar 31 14:34:34 s12 smartd[14930]: Device: /dev/sdc [SAT], is SMART capable. Adding to "monitor" list.
Mar 31 14:34:34 s12 smartd[14930]: Monitoring 3 ATA and 0 SCSI devices
Mar 31 14:34:34 s12 smartd[14930]: Executing test of mail to frodo10@gmail.com ...
Mar 31 14:34:35 s12 smartd[14930]: Test of mail to frodo10@gmail.com: successful
Mar 31 14:34:35 s12 smartd[14930]: Device: /dev/sda [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 79 to 80
Mar 31 14:34:35 s12 smartd[14930]: Device: /dev/sda [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 48 to 47
Mar 31 14:34:35 s12 smartd[14930]: Device: /dev/sda [SAT], previous self-test was interrupted by the host with a reset
Mar 31 14:34:35 s12 smartd[14930]: Executing test of mail to frodo10@gmail.com...
Mar 31 14:34:37 s12 smartd[14930]: Test of mail to frodo10@gmail.com: successful
Mar 31 14:34:37 s12 smartd[14930]: Executing test of mail to frodo10@gmail.com  ...
Mar 31 14:34:37 s12 smartd[14930]: Test of mail to frodo10@gmail.com: successful
Mar 31 14:34:37 s12 smartd[14930]: Device: /dev/sdc [SAT], offline data collection was suspended by an interrupting command from host (auto:on)
Mar 31 14:34:37 s12 smartd[14930]: Device: /dev/sda [SAT], state written to /var/lib/smartmontools/smartd.ST31000340NS-9QJ2ADVC.ata.state
Mar 31 14:34:37 s12 smartd[14930]: Device: /dev/sdb [SAT], state written to /var/lib/smartmontools/smartd.ST31000340NS-9QJ5HB9J.ata.state
Mar 31 14:34:37 s12 smartd[14930]: Device: /dev/sdc [SAT], state written to /var/lib/smartmontools/smartd.WDC_WD1003FBYX_01Y7B0-WD_WCAW30367458.ata.state
Mar 31 14:34:37 s12 smartd[14989]: smartd has fork()ed into background mode. New PID=14989.
Mar 31 14:34:37 s12 smartd[14989]: file /var/run/smartd.pid written containing PID 14989

На почту должны прийти сообщения следующее типа:

This email was generated by the smartd daemon running on:

   host name: server01.homecorp.com
  DNS domain: homecorp.com
  NIS domain: (none)

The following warning/error was logged by the smartd daemon:

TEST EMAIL from smartd for device: /dev/sda [SAT]

For details see host's SYSLOG.

Если письмо не пришло, то смотрите логи. Если все ок, то опцию “-M test” можно заменить на -M diminishing, которое постоянно напоминать об ошибке (через каждых 2*N дней, т.е. 1-го числа, второго, четвертого, восьмого и т.д.) или вообще ее убрать, тогда письмо о проблеме придет только один раз, так что будьте осторожны и не потеряйте его.

Пример мониторинга дисков за Megaraid LSI 2108 RAID контроллером, которые не поддерживают атрибуты.

root@s09:~# vim /etc/smartd.conf
…
/dev/sda -d megaraid,0 -m frodo10@gmail.com -a -s (S/../.././01|L/../../6/03)
/dev/sda -d megaraid,1 -m frodo10@gmail.com -a -s (S/../.././01|L/../../6/03)
…

И последний пример с игнорированием неважных атрибутов.

root@s09:~# vim /etc/smartd.conf
…
/dev/sda -o on -S on -H -f -t -l error -l selftest -C 197 -U 198 -W 40,50 -R 5 -I 190 -I 194 -m test@gmail.com -s (S/../.././02|L/../../7/04)
…

Здесь проверяется статус здоровья диска (-H), с мониторингом статуса Usage(Old_age) атрибутов на статус “failure” (-f) и изменением значений Usage(Old_age) и Prefail атрибутов (-t), но игнорируются смена значений атрибутов связанных с температурой 190,194 (но приходит уведомление если значение температуры больше 40,50 — «-W»). Так же мониторим значение переназначенных (-R), помеченных битыми(-C) и неисправимых (-U) секторов. Кроме этого проверяется журнал ошибок и пройденных тестов (-l error -l selftest). Краткие тесты запускаются каждый день в 2 ночи, долгие – каждое воскресенье в 4 ночи (-s). Информация об ошибка шлется на почту (-m).

Тестируем работу smartd демона

smartd можно запустить в debug режиме для проверки настроек.

root@s12:~# smartd -d
smartd 5.41 2011-06-09 r3365 [x86_64-linux-3.8.0-29-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

Opened configuration file /etc/smartd.conf
Configuration file /etc/smartd.conf parsed.
Device: /dev/sda, type changed from 'scsi' to 'sat'
Device: /dev/sda [SAT], opened
Device: /dev/sda [SAT], ST31000340NS, S/N:9QJ2ADVC, WWN:5-000c50-00dd5f99b, FW:SN05, 1.00 TB
Device: /dev/sda [SAT], found in smartd database.
Device: /dev/sda [SAT], WARNING: There are known problems with these drives,
see the following Seagate web pages:
http://seagate.custkb.com/seagate/crm/selfservice/search.jsp?DocId=207931
http://seagate.custkb.com/seagate/crm/selfservice/search.jsp?DocId=207963
Device: /dev/sda [SAT], enabled SMART Attribute Autosave.
Device: /dev/sda [SAT], enabled SMART Automatic Offline Testing.
Device: /dev/sda [SAT], is SMART capable. Adding to "monitor" list.
Device: /dev/sda [SAT], state read from /var/lib/smartmontools/smartd.ST31000340NS-9QJ2ADVC.ata.state
Monitoring 1 ATA and 0 SCSI devices
Executing test of mail to virmagnavi2010@gmail.com ...
Test of mail to virmagnavi2010@gmail.com: successful
Device: /dev/sda [SAT], opened ATA device
Device: /dev/sda [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 49 to 48
Device: /dev/sda [SAT], offline data collection was completed without error (auto:on)
Device: /dev/sda [SAT], previous self-test was interrupted by the host with a reset
Device: /dev/sda [SAT], state written to /var/lib/smartmontools/smartd.ST31000340NS-9QJ2ADVC.ata.state

В этом режиме можно проверить или правильно был настроен конфигурационный файл и проверить отправляется ли почта. Чтобы выйти с этого режима нужно нажать Ctrl+. Используя Ctrl+C – файл конфигурации будет перечитан в реальном времени.
Так же можно запустить один раз проверку настроек использую директиву “-q onecheck” с указанием пути к конфигурационному файлу, или без него.

root@s12:~# smartd -c /path/to/smartd.conf -q onecheck

Можно также проверить настройку без конфигурационного файла, передавая нужную строку на STDIN smartd демона.

root@s12:~# echo "/dev/sda -a -m user@home,vir@gmail.com -M test" | smartd -c - -q onecheck

Вот и все.

Содержание

  1. Системное администрирование и мониторинг Linux/Windows серверов и видео CDN
  2. Статьи по настройке и администрированию Windows/Linux систем
  3. S.M.A.R.T. (часть 7). Настройка smartd демона для мониторинга дисков под Ubuntu 12.04
  4. Настройка запуска smartd демона
  5. Настройка мониторинга дисков
  6. Тестируем работу smartd демона
  7. SMART прислал сообщение. Диск менять? какой прогой перетаскивать данные ?

Системное администрирование и мониторинг Linux/Windows серверов и видео CDN

Статьи по настройке и администрированию Windows/Linux систем

  • Полезное
    • Карта сайта
    • Мой сайт-визитка
  • Рубрики
    • Linux
      • VoIP
      • Безопасность
      • Видеопотоки
      • Системы виртуализации
      • Системы мониторинга
    • Windows
    • Интересное
    • Сеть и Интернет
  • Мета
    • Войти
    • RSS Feed

S.M.A.R.T. (часть 7). Настройка smartd демона для мониторинга дисков под Ubuntu 12.04

В этой статье хотел немного углубиться в настройки smartd демона для мониторинга физических дисков. В предыдущих статьях речь шла о настройке мониторинга дисков за LSI Fusion-MPT SAS, Adaptec AACRaid, HP/Compaq Smart Array, LSI 2108 RAID контроллерами и с обычным SCSI,SAT,ATA интерфейсом используя атрибуты под дистрибутивом Ubuntu 12.04 используя специализированные утилиты и smartctl.
Т.е. мы мониторили диски за RAID-контроллерами, используя ручные скрипты и команды, которые можно прицепить к любой системе мониторинга, но на много удобней автоматизировать отправку сообщений о проблемах с дисками через почту именно в тот момент, когда она реально назревает или уже возникла. Для этих нужд и предназначен демон smartd.
Для начала советую вам ознакомиться с мануалом smartd, где все детально расписано.

Вся инструкция сводиться до трех конфигурационных файлов, т.е. нужно добавить нужные настройки и рестартануть демоны.

Теперь давайте поэтапно разберем что это было.

Настройка запуска smartd демона

По умолчанию, smartd пишет логи в /var/log/syslog, так как это системный журнал событий – в нем может писаться очень много информации, что затрудняет поиски нужного вывода. Для этого, после краткого осмотра документации по smartd, первым делом добавим свой лог-файл в который будет писаться вся информация о работе smartd демона. Редактируем rsyslog.

  • local3.* — включить все уровни логирования для объекта local3;
  • /var/log/smard.log – файл, куда записать весь полученный вывод.

Ман по rsyslog.conf говорит, что можно брать любую не занятую facility в диапазоне local0 — local7.
priority можно подставить любой из debug, info, notice, warning, warn (same as warning), err, error (same as err), crit, alert, emerg, panic (same as emerg) или просто символ – «*», который включает все.
Т.е. в данном случаи у local3 объекта мы ловим сообщения с любым приоритетом (*) и записываем в файл. Так же можно все сообщения записывать в БД, передавать на другой хост или на локальный скрипт. Если передаем на локальный скрипт, то тело сообщения будет в arg[1] скрипта.
После внесения изменений в rsyslog делаем рестарт демона.

После рестарта у нас должен создаться файлик smard.log

Теперь при запуске демона smard нужно добавлять аргумент “-l locatl3”, что мы и сделаем отредактировав файл /etc/default/smartmontools.

Также было добавлено запуск демона smartd при старте системы (start_smartd=yes) и выставил интервал между проверками дисков в 1 час (—interval=3600).

Настройка мониторинга дисков

Мы разобрались с настройками запуска (аргументами и лог-файлами) smartd демона. Теперь же нужно правильно настроить проверку дисков. Ниже приведены самые употребляемые опции для мониторинга дисков через smartd.conf.

-d ata Мониторинг дисков с ATA интерфейсом scsi Мониторинг дисков с SCSI интерфейсом sat Мониторинг дисков с ATA интерфейсом, которые подключены через переходник SCSI marvell Мониторинг дисков за Marvell контроллером megaraid,N Мониторинг дисков за Megaraid RAID контроллером 3ware,N Мониторинг дисков за 3ware контроллером areca,N Мониторинг дисков за Areca SATA контроллером hpt,L/M/N Мониторинг дисков за HighPoint RocketRAID контроллером cciss,N Мониторинг дисков за cciss RAID контроллером -o on Включение SMART Automatic Offline тестов для обновления статуса атрибутов -S on Включить автосохранение атрибутов -Н Проверить только здоровье диска (если значение Prefailure атрибута меньше за threshold — увидим, что диск не здоров) -l-l error Уведомлять, если количество ошибок диска растет или тести заканчиваются с печальным результатом selftest -s T/MM/DD/d/HH T – тип теста (S – short, L – long, O – offline Immediate)MM – месяц (две цифры в диапазон 01-12)DD – день месяца (две цифры в диапазоне 01-31)d – день недели (одна цифра в диапазоне 1-7)

HH — время в часах (две цифры в диапазоне 00-23)

«.» — любой единичный символ

(A|B|C) — любой из трех вариантов

-s (O/../.././(00|06|12|18)|S/../.././01|L/../../6/03) -m your@mail.com Кому отправлять письма о проблеме -M test Идет только в сочетании с “–m” (–m root –M test). Отправить тестовое письмо при старте демона smartd. diminishing Периодически отсылать письма о проблеме ( 2*N период. Т.е. 1-го числа, второго, четвертого, восьмого и т.п. кратно двум ) exec script.sh Запустить скрипт, вместо обычной отправки письма. Демон smartd будет ждать, пока скрипт не завершит свою работу. Эта опция полезна, когда нужно провести некие действия с сообщением или выбрать другой почтовый клиент (по умолчанию /usr/bin/mail). -f [ATA only]Мониторинг Usage(Old_age) атрибутов на статус “failure”, связано с -H -p [ATA only]Мониторинг Prefail атрибутов -u [ATA only]Мониторинг Usage(Old_age) атрибутов -t [ATA only]Включение обоих проверок -p и –u -f -i ID [ATA only]Игнорировать атрибут с номером ID при проверке Usage(Old_age) атрибута на статус «failure» -I ID [ATA only]Игнорировать смену значений атрибута с номером ID(только в сочетании с одним из -t,-u,-p) -R ID [ATA only]Мониторинг изменений Raw value атрибута с номером ID. Автоматом включает -r опцию -С ID [ATA only]Мониторинг количества секторов, которые помечены как pending, т.е. те, которые система обозначит как bad-сектора и переназначит (-C 197) -U ID [ATA only]Мониторинг неисправимых(битых) секторов атрибута с номером ID(-U 198) -W d,i,c Мониторинг температуры. Уведомляет, если измениться на d градусов или будет больше за INFO(i) или CRIT(c) градусов (-W 5,40,50) -а Мониторинг, который включает в себе опции -H, -f, -t, -l selftest, -l error, -C 197,-U 198

Исходя из таблицы, настроим мониторинг трех SAT дисков.
Мы запускаем Short test каждый день в 1 час ночи и Long test тест каждую субботу в 3 часа ночи (-s). Уведомление об ошибках будет слаться на почтовый ящик(-m). Мониторинг включает стандартный набор атрибутов (–а), так же включено автоматического обновление атрибутов (-o) и их автосохранение (-S on). Так же, добавлена опция –M test, которая позволит отправить тестовое сообщение при старте демона.

Теперь рестартуем демон и смотрим на логи и в свой почтовый ящик.

На почту должны прийти сообщения следующее типа:

Если письмо не пришло, то смотрите логи. Если все ок, то опцию “-M test” можно заменить на -M diminishing, которое постоянно напоминать об ошибке (через каждых 2*N дней, т.е. 1-го числа, второго, четвертого, восьмого и т.д.) или вообще ее убрать, тогда письмо о проблеме придет только один раз, так что будьте осторожны и не потеряйте его.

Пример мониторинга дисков за Megaraid LSI 2108 RAID контроллером, которые не поддерживают атрибуты.

И последний пример с игнорированием неважных атрибутов.

Здесь проверяется статус здоровья диска (-H), с мониторингом статуса Usage(Old_age) атрибутов на статус “failure” (-f) и изменением значений Usage(Old_age) и Prefail атрибутов (-t), но игнорируются смена значений атрибутов связанных с температурой 190,194 (но приходит уведомление если значение температуры больше 40,50 — «-W»). Так же мониторим значение переназначенных (-R), помеченных битыми(-C) и неисправимых (-U) секторов. Кроме этого проверяется журнал ошибок и пройденных тестов (-l error -l selftest). Краткие тесты запускаются каждый день в 2 ночи, долгие – каждое воскресенье в 4 ночи (-s). Информация об ошибка шлется на почту (-m).

Тестируем работу smartd демона

smartd можно запустить в debug режиме для проверки настроек.

В этом режиме можно проверить или правильно был настроен конфигурационный файл и проверить отправляется ли почта. Чтобы выйти с этого режима нужно нажать Ctrl+. Используя Ctrl+C – файл конфигурации будет перечитан в реальном времени.
Так же можно запустить один раз проверку настроек использую директиву “-q onecheck” с указанием пути к конфигурационному файлу, или без него.

Можно также проверить настройку без конфигурационного файла, передавая нужную строку на STDIN smartd демона.

Источник

SMART прислал сообщение. Диск менять? какой прогой перетаскивать данные ?

на глазах увеличивается счетчик Raw_Read_Error_Rate
Диск заменить или для WD эта ошибка ничего не значит?
На замену 4TB от WD пойдет 4TB от HITACHI HDD 4 Tb SATA 6Gb / s Hitachi Ultrastar 7K4000 3.5″ 7200rpm 64Mb ?
Если менять то какой утилитой перетащить данные, диск поду управлением drbd, поверх drbd LVM с виртуалками KVM.

Прогони в виктории. Может починит.

покажи это вашему админу, он знает, что делать

на глазах увеличивается счетчик Raw_Read_Error_Rate

В стодецальонный раз повторю — RAW_VALUE читают только роботы, это не для людей.

The raw value has different structure for different vendors and is often not meaningful as a decimal number.

или для WD эта ошибка ничего не значит?

Не, конечно ничего не значит, ты чо. // sarcasm.png

для кого это форум? для посылальщиков?

ничего не значит — имелось ввиду что беспокоиться не о чем в случае если эта ошибка появляется у производителя WD.

Для WD критичный параметр.

Круто, ну хоть у кого-то SMART работает и реально предупреждает.

Диск умирает (ну, или SMART так думает. Лучше поверить).

Я правильно понял, что RAID’а там нет?

ты умеешь вытащить смарт, но

Диск заменить или для WD эта ошибка ничего не значит?

ты не понимаешь что у тебя происходит, не знаешь оборудование или оно не твое

диск поду управлением drbd, поверх drbd LVM с виртуалками KVM.

весьма сложная конструкция, если бы ты это сделал это сам, то с элементарные вопросы тут не задавал бы, если таки натыкал эту конфигурацию в проксмоксе, и считаешь что этого достаточно, у меня для тебя плохие новости

Если менять то какой утилитой перетащить данные

ты не знаешь инструменты и следовательно не можешь уметь ими пользоваться т.е. ты не админ — логично позвать админа чтобы он сделал свою работу, из твоих вопросов, на мой взгляд, следует, что шансов справится у тебя немного.

следствие больного опыта, к счастью не моего

WD диск точно не мой, это диск WD как впрочем и остальное железо и софт. опыт такая штука, что он устаревает и нужно его освежать.

Если lvm, то vgextend, pvmove, vgreduce же.

да ради бга, освежи опыт, свежевать-то если чо, тебя будут.

Добавь в систему дополнительный диск. Сделай на нём LVM. И перетащи данные. Всё это можно сделать не отключая сервисы и не приостанавливая работу.

уже давно освеженный я

спасибо за ответы

Если менять то какой утилитой перетащить данные

cp и dd не предлагать?

использовал clonezilla
Но увы диск сдох окончательно — во время копирования были слышны постукивания, поскрипывания,пришлось брать новый и с нуля настраивать drbd.

Данные целы или из бэкапов ?

Данные целы, копия данных drbd ресурса была на второй ноде. После синхронизации данных кластер заработал, с резервной ноды виртуалки перехали на основную — на которой был заменен диск.
В целом время НЕ обслуживания кластером пользователей равнялось времени миграции виртуалок в основной ноды на резервную, после аварии с диском.
И это мне повезло — грохнулся не системный диск, а диск с drbd на котором были виртуалки. Думаю что системный диск нужно резервировать с использованием RAID контроллера, т.е. повысить изначально отказоустойчивость в два раза — сделать зеркало.
Вот если он грохнется, то тут меня освежевают.

А был бы простой mdadm без кластеров, наживую поменял бы диск и восстановил бы зеркало без простоя вообще — диски расходник. Аппаратные рейды — нафиг. Хорошо, что дрбд нормально отработал, он, кстати, по какой схеме собран ?

Думаю что системный диск нужно резервировать с использованием RAID контроллера, т.е. повысить изначально отказоустойчивость в два раза — сделать зеркало.

Еще один (почти) все понял. Я правильно понимаю, что все настройки через морду проксмокса делаются ?

На живую не получается, кластер на десктопном железе. Корзинки для горячей замены дисков нет. А так да все на горячую можно было бы сделать и с гораздо меньшими издержками. DRBD сорбран по схеме primary-primary, по инструкции на сайте proxmox. То что нормально drbd отработал, ну не знаю может повезло — хотя ведь так и должно быть. Иначе зачем оно?
Настройки drbd изначальные руками делаются.
во время устранения аварии с диском все системные операции руками. В админке proxmox только миграцию виртуалок запускал, после того как drbd восстановил.
mdadm — не рекомендован разрабами proxmox. Хотя и не панацея.

займусь этими командами для системного диска

Можешь гордиться, настоящее сообщение SMART большая редкость.

Температура диска высоковата и, и судя по значениям смарта была еще выше. Это не гут для дисков. Надо продумать вопрос с охлаждением.

Диск однозначно менять. Причем текущее состояние смарта — повод менять по гарантии, если еще есть.

Ты даже не представляешь, КАК тебе повезло. Смарт сработал на харде, на которых они обычно не работают, drbd в самом опасном режиме не сдох. На десктопном железе. Ты джекпот словил.

Про температруру для себя отметил когда менял винт, возможно в корпусе компа нужен доп вентилятор или новый корпус.
на других серверах у дисков температура 25,28,36 градусов.

собственно, вот таких осмысленных ответов и ожидаешь от форума

Источник


    • #1

    I received this mail from my OMV 5 server

    «
    This message was generated by the smartd daemon running on:

    host name: mod
    DNS domain: [Empty]

    The following warning/error was logged by the smartd daemon:

    Device: /dev/disk/by-id/ata-ST3000DM001-1ER166_Z503CJSH [SAT], Read SMART Error Log Failed

    Device info:
    ST3000DM001-1ER166, S/N:Z503CJSH, WWN:5-000c50-092117db3, FW:CC26, 3.00 TB

    For details see host’s SYSLOG.

    You can also use the smartctl utility for further investigation.
    The original message about this issue was sent at Thu Jan 30 22:34:55 2020 CET
    Another message will be sent in 24 hours if the problem persists.»

    As suggested, I ran the command from the terminal: smartctl -a /dev/disk/by-id/ata-ST3000DM001-1ER166_Z503CJSH

    Here is the result:

    But I’m not so navigated as to understand the result, can someone explain it to me in simple terms?

    Thanks

    • Offizieller Beitrag
    • #2

    There is a great page on Wikipedia about this:

    https://en.m.wikipedia.org/wiki/S.M.A.R.T.


    Zitat

    S.M.A.R.T. (Self-Monitoring, Analysis and Reporting Technology; often written as SMART) is a monitoring system included in computer hard disk drives (HDDs), solid-state drives (SSDs), and eMMC drives.

    Its primary function is to detect and report various indicators of drive reliability with the intent of anticipating imminent hardware failures.

    When S.M.A.R.T. data indicates a possible imminent drive failure, software running on the host system may notify the user so preventative action can be taken to prevent data loss, and the failing drive can be replaced and data integrity maintained.

    Alles anzeigen

    And there you can find detailed information about what all the different indicators actually means. And what indicators are bad, using a warning triangle and highlighting. In my experience, once a hdd starts reporting S.M.A.R.T errors, things tend to go downhill fast. But not always. It is a good idea to monitor closely to see if things gets worse. And of course make sure one extra time that backups are good and a replacement drive is available.

    If there are high costs associated with unplanned down time, it could be a good idea to schedule maintenance soon to swap the hdd before it fails at a bad time.

  • #1

Hi,

I just received a email notification:

Subject

SMART error (FailedOpenDevice) detected on host: FreeNAS

Body

This message was generated by the smartd daemon running on:

host name: FreeNAS
DNS domain: local

The following warning/error was logged by the smartd daemon:

Device: /dev/da3 [SAT], unable to open device

Device info:
WDC WD30EZRX-00DC0B0, S/N:WD-WCC1T1416374, WWN:5-0014ee-25e0bbcc2, FW:80.00A80, 3.00 TB

For details see host’s SYSLOG.

You can also use the smartctl utility for further investigation.
No additional messages about this problem will be sent.

Just wondering what the best course of action is from here. How do I confirm that the disk has failed?

I am running 4 drives on my M1015 controller (that has been reflashed) and 2 drives on my MB. Setup includes 6 x 3TB RAIDz2.

$ zpool status

Code:

pool: Volume4
state: DEGRADED
status: One or more devices has been removed by the administrator.
    Sufficient replicas exist for the pool to continue functioning in a
    degraded state.
action: Online the device using 'zpool online' or replace the device with
    'zpool replace'.
  scan: resilvered 4.36G in 0h2m with 0 errors on Sat Nov 16 16:37:37 2013
config:
 
    NAME                                            STATE    READ WRITE CKSUM
    Volume4                                        DEGRADED    0    0    0
      raidz2-0                                      DEGRADED    0    0    0
        gptid/916ff50d-3151-11e3-92fc-f46d04de02ec  ONLINE      0    0    0
        gptid/92784bd8-3151-11e3-92fc-f46d04de02ec  ONLINE      0    0    0
        gptid/9372b04c-3151-11e3-92fc-f46d04de02ec  ONLINE      0    0    0
        gptid/94811c78-3151-11e3-92fc-f46d04de02ec  ONLINE      0    0    0
        gptid/958895ad-3151-11e3-92fc-f46d04de02ec  ONLINE      0    0    0
        8659309636289833160                        REMOVED      0    0    0  was /dev/gptid/96a49781-3151-11e3-92fc-f46d04de02ec
 
errors: No known data errors

Doing some searching on the forum. I have tried running some smart test again from shell.

$ smartctl -q noserial -a /dev/da3

Code:

smartctl 6.1 2013-03-16 r3800 [FreeBSD 9.1-STABLE amd64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
 
/dev/xpt0 control device couldn't opened: Permission denied
Unable to get CAM device list
/dev/da3: Unable to detect device type
Please specify device type with the -d option.
 
Use smartctl -h to get a usage summary

$ cat /usr/local/etc/smartd.conf

Code:

################################################
# smartd.conf generated by /etc/rc.d/ix-smartd
################################################
/dev/da0 -n never -W 0,55,60 -m email@gmail.com -m root
/dev/ada1 -n never -W 0,55,60 -m email@gmail.com -m root
/dev/da1 -n never -W 0,55,60 -m email@gmail.com -m root
/dev/ada0 -n never -W 0,55,60 -m email@gmail.com -m root
/dev/da2 -n never -W 0,55,60 -m email@gmail.com 
/dev/da3 -n never -W 0,55,60 -m email@gmail.com 

Any help would be great. Thanks

P.S please indicate the shel commands to run as I am not familiar with running these tests. Doesnt look like the ones I ran above have been working.

  • #2

It appears that da3 has disconnected from the system. More than likely the disk just failed outright. The fact that its «REMOVED» tends to support that.

So you need to figure out which disk that is and pull it from the system and replace it with a new disk. That is, unless you were playing inside the server and accidentally bumped the cabling or something. You might be able to do a cold boot of the system and be able to query the smart data for da3, if it works long enough to let you.

  • #3

Thanks for your quick reply.

Hmm. I did have the cover open playing inside for a bit, but didnt think I had touch any sata cables. Also the FreeNAS was on and working fine whilst I received the notification.

I will try rebooting it now. By querying da3 do you mean

Code:

smartctl -q noserial -a /dev/da3

When I run this command for all of my disk ada0, ada1, da0, da1, da2, da3 I always get this

Code:

smartctl 6.1 2013-03-16 r3800 [FreeBSD 9.1-STABLE amd64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
 
/dev/xpt0 control device couldn't opened: Permission denied
Unable to get CAM device list
/dev/ada0: Unable to detect device type
Please specify device type with the -d option.
 
Use smartctl -h to get a usage summary

So for some reason it’s not giving me anything. Any ideas?

  • #4

ran anothe zpool status after reboot

Code:

 pool: Volume4
 state: DEGRADED
status: One or more devices could not be opened.  Sufficient replicas exist for
the pool to continue functioning in a degraded state.
action: Attach the missing device and online it using 'zpool online'.
   see: http://illumos.org/msg/ZFS-8000-2Q
  scan: resilvered 4.36G in 0h2m with 0 errors on Sat Nov 16 16:37:37 2013
config:
 
NAME                                            STATE     READ WRITE CKSUM
Volume4                                         DEGRADED     0     0     0
 raidz2-0                                      DEGRADED     0     0     0
   gptid/916ff50d-3151-11e3-92fc-f46d04de02ec  ONLINE       0     0     0
   gptid/92784bd8-3151-11e3-92fc-f46d04de02ec  ONLINE       0     0     0
   gptid/9372b04c-3151-11e3-92fc-f46d04de02ec  ONLINE       0     0     0
   gptid/94811c78-3151-11e3-92fc-f46d04de02ec  ONLINE       0     0     0
   gptid/958895ad-3151-11e3-92fc-f46d04de02ec  ONLINE       0     0     0
   8659309636289833160                         UNAVAIL      0     0     0  was /dev/gptid/96a49781-3151-11e3-92fc-f46d04de02ec

Also still not allowing me to run the SMART util and above.

  • #5

I am now in the process of replacing the failed drive and am not sure how to proceed.

As per wiki http://doc.freenas.org/index.php/Volumes#Replacing_a_Failed_Drive_or_SSD Step 1 I have navigated to Storage → Volumes → View Volumes → Volume Status and locate the failed device. When I select the disk however, I have only got 1 button «Replace». I am missing the «Offline» button.

I ran zpool status as below and the failed disk is unavailable and not offline.

Code:

pool: Volume4
 state: DEGRADED
status: One or more devices could not be opened.  Sufficient replicas exist for
the pool to continue functioning in a degraded state.
action: Attach the missing device and online it using 'zpool online'.
   see: http://illumos.org/msg/ZFS-8000-2Q
  scan: resilvered 4.36G in 0h2m with 0 errors on Sat Nov 16 16:37:37 2013
config:
 
NAME                                            STATE     READ WRITE CKSUM
Volume4                                         DEGRADED     0     0     0
 raidz2-0                                      DEGRADED     0     0     0
   gptid/916ff50d-3151-11e3-92fc-f46d04de02ec  ONLINE       0     0     0
   gptid/92784bd8-3151-11e3-92fc-f46d04de02ec  ONLINE       0     0     0
   gptid/9372b04c-3151-11e3-92fc-f46d04de02ec  ONLINE       0     0     0
   gptid/94811c78-3151-11e3-92fc-f46d04de02ec  ONLINE       0     0     0
   gptid/958895ad-3151-11e3-92fc-f46d04de02ec  ONLINE       0     0     0
   8659309636289833160                         UNAVAIL      0     0     0  was /dev/gptid/96a49781-3151-11e3-92fc-f46d04de02ec
 
errors: No known data errors

How do I proceed from here. Does this mean that maybe the sata cable has come loose or something (in the process of checking now) or can I change this to offline some how?

Thanks

  • #6

The disk is already offline. You just have to click the «replace» button and continue on as the manual dictates. I just fixed it for future manuals, but the current manual won’t reflect this change.

  • #7

Thanks mate,

Replaced the drive fine. Appreciate the help.

  • #8

Did you ever figure out why the SMART commands wont return any info though? I’m having the same problem. I also have a M1015 cross flashed controller.

  • #9

Did you ever figure out why the SMART commands wont return any info though? I’m having the same problem. I also have a M1015 cross flashed controller.

hey, sorry for the late reply.

No id didn’t. Im sure if I spent more time on it I would but dont have time too at the moment.

Понравилась статья? Поделить с друзьями:
  • The following fatal alert was generated 10 the internal error state is 1203
  • The following error was reported 2147943712
  • The following error was encountered while trying to retrieve the url перевод
  • The following error was detected while installing matlab
  • The following error occurred while using kerberos authentication cannot find the computer