Ata status 51 drdy serv err error 84 icrc abrt

Модераторы: vadim64, terminus

Раз в сутки сервер требует перезагрузки

Модераторы: vadim64, terminus

Правила форума
Убедительная просьба юзать теги [cоde] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.

Денис

проходил мимо

Раз в сутки сервер требует перезагрузки

Доброго времени суток. Сервер — FreeBSD 9.1-RELEASE #0: Fri Sep 27 01:29:26 MSK 2013.
Система стоит на двух RAID

Код: Выделить всё

Name Status Components
mirror/boot COMPLETE ada0p1 (ACTIVE)
ada1p1 (ACTIVE)
mirror/swap COMPLETE ada0p2 (ACTIVE)
ada1p2 (ACTIVE)
mirror/root COMPLETE ada0p3 (ACTIVE)
ada1p3 (ACTIVE)
mirror/web COMPLETE ada2p1 (ACTIVE)
ada3p1 (ACTIVE)
mirror/storage COMPLETE ada2p2 (ACTIVE)
ada3p2 (ACTIVE)

Раз в сутки требует перезагрузки, причем примерно через 24 часа после предыдущего. Безошибочный способ nslookup — не может найти сервер. В логах ничего найти не могу, что могло бы подсказать в каком направлении искать. На сервере «крутится» все и почта и вэб и MySQl.
Еще один момент определить, что сервер «встал» можно по звуку — винты делают такой еле слышный «дзынкь», после этого проверяю nslookup, все отзыва нет. Подскажите пожалуйста где можно поискать причину.

Последний раз редактировалось f_andrey 2013-10-18 13:34:11, всего редактировалось 1 раз.

Причина: Автору. пожалуйста, выбирайте соответствующий раздел форума, оформляйте сообщение по человечески.


Хостинговая компания Host-Food.ru

Хостинг HostFood.ru

 

Услуги хостинговой компании Host-Food.ru

Хостинг HostFood.ru

Тарифы на хостинг в России, от 12 рублей: https://www.host-food.ru/tariffs/hosting/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2000 рублей (HP Proliant G5, Intel Xeon E5430 (2.66GHz, Quad-Core, 12Mb), 8Gb RAM, 2x300Gb SAS HDD, P400i, 512Mb, BBU):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/


Аватара пользователя

tom.cat

старшина
Сообщения: 446
Зарегистрирован: 2007-11-24 20:23:49
Откуда: Мытищи
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

tom.cat » 2013-10-18 14:49:06

snorlov писал(а):Как делаешь перезагрузку…

Reset button ?

When you see pigs fly it means Windows has become open source


Аватара пользователя

QweЯty

лейтенант
Сообщения: 796
Зарегистрирован: 2010-10-12 0:15:15
Откуда: Таганрог, Калининград
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

QweЯty » 2013-10-20 18:51:45

такс, в туже тему, тока разброс 3-5 суток, а бывает неделя…
перестает выдавать ip, отвечать по ssh, пинговаться… НО, судя по лампочкам работа продолжается…
в логах all.log

Oct 20 02:10:10 radist04ka named[6408]: client 80.77.172.138#62034 (xn--80aaasphcburb2bjg5q.su): query (cache) ‘xn--80aaasphcburb2bjg5q.su/SOA/IN’ denied
Oct 20 02:11:00 radist04ka /usr/sbin/cron[17823]: (root) CMD (/usr/local/etc/rrd/base/mem_update.sh)
Oct 20 02:11:00 radist04ka /usr/sbin/cron[17828]: (root) CMD (/usr/local/etc/rrd/base/net_graph.sh)
Oct 20 02:11:00 radist04ka /usr/sbin/cron[17830]: (operator) CMD (/usr/libexec/save-entropy)
Oct 20 02:11:00 radist04ka /usr/sbin/cron[17829]: (root) CMD (/usr/local/etc/rrd/base/net_update.sh)
Oct 20 02:11:00 radist04ka /usr/sbin/cron[17831]: (root) CMD (/usr/local/etc/rrd/base/cpu_graph.sh)
Oct 20 02:11:00 radist04ka /usr/sbin/cron[17834]: (root) CMD (/usr/local/etc/rrd/base/cpu_update.sh)
Oct 20 18:42:00 radist04ka syslogd: restart

Oct 20 18:42:00 radist04ka syslogd: kernel boot file is /boot/kernel/kernel
Oct 20 18:42:00 radist04ka kernel: Copyright (c) 1992-2013 The FreeBSD Project.
Oct 20 18:42:00 radist04ka kernel: Copyright (c) 1979, 1980, 1983, 1986, 1988, 1989, 1991, 1992, 1993, 1994
Oct 20 18:42:00 radist04ka kernel: The Regents of the University of California. All rights reserved.
Oct 20 18:42:00 radist04ka kernel: FreeBSD is a registered trademark of The FreeBSD Foundation.
Oct 20 18:42:00 radist04ka kernel: FreeBSD 9.1-STABLE #0: Sun Jul 28 15:55:49 FET 2013
Oct 20 18:42:00 radist04ka kernel: radist@radist04ka.localdoiman:/sys/i386/compile/RADIST.28.07.2013 i386
Oct 20 18:42:00 radist04ka kernel: gcc version 4.2.1 20070831 patched [FreeBSD]
Oct 20 18:42:00 radist04ka kernel: CPU: Intel(R) Pentium(R) 4 CPU 3.00GHz (3147.83-MHz 686-class CPU)
Oct 20 18:42:00 radist04ka kernel: Origin = «GenuineIntel» Id = 0xf34 Family = 0xf Model = 0x3 Stepping = 4

console.log

Oct 19 23:15:59 radist04ka kernel: Oct 19 23:15:59 radist04ka dhcpd: Dynamic and static leases present for 192.168.7.2.
Oct 19 23:15:59 radist04ka kernel: Oct 19 23:15:59 radist04ka dhcpd: Remove host declaration Loner-XP or remove 192.168.7.2
Oct 19 23:15:59 radist04ka kernel: Oct 19 23:15:59 radist04ka dhcpd: from the dynamic address pool for 192.168.7.0/24
Oct 19 23:45:59 radist04ka kernel: Oct 19 23:45:59 radist04ka dhcpd: Dynamic and static leases present for 192.168.7.2.
Oct 19 23:45:59 radist04ka kernel: Oct 19 23:45:59 radist04ka dhcpd: Remove host declaration Loner-XP or remove 192.168.7.2
Oct 19 23:45:59 radist04ka kernel: Oct 19 23:45:59 radist04ka dhcpd: from the dynamic address pool for 192.168.7.0/24
Oct 20 00:16:00 radist04ka kernel: Oct 20 00:16:00 radist04ka dhcpd: Dynamic and static leases present for 192.168.7.2.
Oct 20 00:16:00 radist04ka kernel: Oct 20 00:16:00 radist04ka dhcpd: Remove host declaration Loner-XP or remove 192.168.7.2
Oct 20 00:16:00 radist04ka kernel: Oct 20 00:16:00 radist04ka dhcpd: from the dynamic address pool for 192.168.7.0/24
Oct 20 18:42:00 radist04ka kernel: Setting hostuuid: 00020003-0004-0005-0006-000700080009.

Oct 20 18:42:00 radist04ka kernel: Setting hostid: 0x81f4ec68.
Oct 20 18:42:00 radist04ka kernel: Entropy harvesting: interrupts ethernet point_to_point kickstart.
Oct 20 18:42:00 radist04ka kernel: Starting file system checks:
Oct 20 18:42:00 radist04ka kernel: ** SU+J Recovering /dev/ada2p2
Oct 20 18:42:00 radist04ka kernel: ** Reading 33554432 byte journal from inode 4.
Oct 20 18:42:00 radist04ka kernel: ** Building recovery table.

dmesg.yesterday

(ada1:ata3:0:0:0): READ_DMA48. ACB: 25 00 bf 10 ff 40 73 00 00 00 00 01
(ada1:ata3:0:0:0): CAM status: ATA Status Error
(ada1:ata3:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 84 (ICRC ABRT )
(ada1:ata3:0:0:0): RES: 51 84 bf 10 ff 73 73 00 00 ef 00
(ada1:ata3:0:0:0): Retrying command
(ada1:ata3:0:0:0): READ_DMA48. ACB: 25 00 3f 46 a4 40 3c 00 00 00 00 01
(ada1:ata3:0:0:0): CAM status: ATA Status Error
(ada1:ata3:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 84 (ICRC ABRT )
(ada1:ata3:0:0:0): RES: 51 84 3f 46 a4 3c 3c 00 00 4f 00
(ada1:ata3:0:0:0): Retrying command
(ada1:ata3:0:0:0): READ_DMA48. ACB: 25 00 ff 5c c3 40 2b 00 00 00 00 01
(ada1:ata3:0:0:0): CAM status: ATA Status Error
(ada1:ata3:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 84 (ICRC ABRT )
(ada1:ata3:0:0:0): RES: 51 84 ff 5c c3 2b 2b 00 00 1f 00
(ada1:ata3:0:0:0): Retrying command
rl0: link state changed to DOWN
(ada1:ata3:0:0:0): READ_DMA48. ACB: 25 00 7f c2 7c 40 2f 00 00 00 a0 00
(ada1:ata3:0:0:0): CAM status: ATA Status Error
(ada1:ata3:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 84 (ICRC ABRT )
(ada1:ata3:0:0:0): RES: 51 84 7f c2 7c 2f 2f 00 00 0f 00
(ada1:ata3:0:0:0): Retrying command

потогает только отключение питания… рестарт буттон отключен в ядре)))

хм…. у меня что винт подыхает??????!!!!!!!!!!!!

Инженер не смотрит порно. Он ведет расчет бабы на усталость © Федор Сумкин
Изображение


Аватара пользователя

Dominator

мл. сержант
Сообщения: 123
Зарегистрирован: 2009-06-06 15:43:01
Откуда: Новосибирск/Кобург
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

Dominator » 2013-10-20 19:27:41

QweЯty писал(а):хм…. у меня что винт подыхает??????!!!!!!!!!!!!

Возможно, а CAM его добивает retry’ами. Я сразу на боевом севере (FreeBSD 9.1 amd64) CAM вырезал

Денис писал(а): Безошибочный способ nslookup — не может найти сервер.

/etc/rc.d/netif restart

Windows must die!


Аватара пользователя

QweЯty

лейтенант
Сообщения: 796
Зарегистрирован: 2010-10-12 0:15:15
Откуда: Таганрог, Калининград
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

QweЯty » 2013-10-20 20:12:41

Я сразу на боевом севере (FreeBSD 9.1 amd64) CAM вырезал

эм… а что это, что дает и как вырезать…

Инженер не смотрит порно. Он ведет расчет бабы на усталость © Федор Сумкин
Изображение


Аватара пользователя

QweЯty

лейтенант
Сообщения: 796
Зарегистрирован: 2010-10-12 0:15:15
Откуда: Таганрог, Калининград
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

QweЯty » 2013-10-20 22:35:27

———
#
# Areca 11xx and 12xx series of SATA II RAID controllers.
# CAM is required.
#
device arcmsr # Areca SATA II RAID

———————
#
# 3ware 9000 series PATA/SATA RAID controller driver and options.
# The driver is implemented as a SIM, and so, needs the CAM infrastructure.
#
options TWA_DEBUG # 0-10; 10 prints the most messages.
options TWA_FLASH_FIRMWARE # firmware image bundled when defined.
device twa # 3ware 9000 series PATA/SATA RAID
————-
#
# Adaptec FSA RAID controllers, including integrated DELL controllers,
# the Dell PERC 2/QC and the HP NetRAID-4M
device aac
device aacp # SCSI Passthrough interface (optional, CAM required)

# The ‘asr’ driver provides support for current DPT/Adaptec SCSI RAID
# controllers (SmartRAID V and VI and later).
# These controllers require the CAM infrastructure.
#
device asr

4ре места где встречает cam в notes…
но что за что отвечает….

правда в генерик есть:

cat GENERIC | grep CAM
options ATA_CAM # Handle legacy controllers with CAM
device ctl # CAM Target Layer
device aacp # SCSI passthrough for aac (requires CAM)

Инженер не смотрит порно. Он ведет расчет бабы на усталость © Федор Сумкин
Изображение


snorlov

подполковник
Сообщения: 3918
Зарегистрирован: 2008-09-04 11:51:25
Откуда: Санкт-Петербург

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

snorlov » 2013-10-21 8:19:14

QweЯty писал(а):

Я сразу на боевом севере (FreeBSD 9.1 amd64) CAM вырезал

эм… а что это, что дает и как вырезать…

Кабель еще поменяй…


Аватара пользователя

QweЯty

лейтенант
Сообщения: 796
Зарегистрирован: 2010-10-12 0:15:15
Откуда: Таганрог, Калининград
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

QweЯty » 2013-10-21 22:13:28

менял кабель(((
многа раз…

Инженер не смотрит порно. Он ведет расчет бабы на усталость © Федор Сумкин
Изображение


Аватара пользователя

QweЯty

лейтенант
Сообщения: 796
Зарегистрирован: 2010-10-12 0:15:15
Откуда: Таганрог, Калининград
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

QweЯty » 2013-10-29 19:20:50

в общем дело не в этом винте…
с 2013-10-21 23:13:28 +/- пара часов по сегодня работало без проблемного винта

в логах тоже тишина…

Инженер не смотрит порно. Он ведет расчет бабы на усталость © Федор Сумкин
Изображение


Аватара пользователя

Dominator

мл. сержант
Сообщения: 123
Зарегистрирован: 2009-06-06 15:43:01
Откуда: Новосибирск/Кобург
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

Dominator » 2014-02-15 14:56:30

QweЯty писал(а):

Я сразу на боевом севере (FreeBSD 9.1 amd64) CAM вырезал

эм… а что это, что дает и как вырезать…

В конфигах ядра все упоминание про CAM убираешь, заместо этого вводишь что-то вроде

Точнее не помню — загляни в дефолтный конфиг FreeBSD 8.0

Windows must die!


guest

проходил мимо

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

guest » 2014-02-15 17:32:16

Dominator писал(а):

QweЯty писал(а):

Я сразу на боевом севере (FreeBSD 9.1 amd64) CAM вырезал

эм… а что это, что дает и как вырезать…

В конфигах ядра все упоминание про CAM убираешь, заместо этого вводишь что-то вроде

Точнее не помню — загляни в дефолтный конфиг FreeBSD 8.0

бред, «cam» он вырезал…
«cam добивает диск ретраями» — видимо из лога, только слово retry поняли

CAM — Common Access Method, изначально разработан для SCSI устройств, но представляет из себя универсальный
метод доступа, новый ATA драйвер переписан с использованием CAM интерфейса


Аватара пользователя

Dominator

мл. сержант
Сообщения: 123
Зарегистрирован: 2009-06-06 15:43:01
Откуда: Новосибирск/Кобург
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

Dominator » 2014-02-16 7:10:40

guest писал(а):
бред, «cam» он вырезал…

Не знаю, как у кого, а у меня после этого намного меньше мусора стало в логах и бракованный винт смог отбекапировать. Так что, прежде чем бросаться громкими заявлениями, рекомендую проверить на тестовой машине сие действие.

P.S. guest, я вижу лишь твои эмоции, но не аргументы

Windows must die!


guest

проходил мимо

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

guest » 2014-02-16 12:31:59

Dominator писал(а):

guest писал(а):
бред, «cam» он вырезал…

Не знаю, как у кого, а у меня после этого намного меньше мусора стало в логах и бракованный винт смог отбекапировать. Так что, прежде чем бросаться громкими заявлениями, рекомендую проверить на тестовой машине сие действие.

P.S. guest, я вижу лишь твои эмоции, но не аргументы

какие эмоции и аргументы могут быть в ответ на бред.

Вы чисто для общего представления почитайте что есть CAM и подумайте как старый и новый ATA драйвера могут
влиять на HDD и портить их и меньше писать в логи.


Аватара пользователя

Dominator

мл. сержант
Сообщения: 123
Зарегистрирован: 2009-06-06 15:43:01
Откуда: Новосибирск/Кобург
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

Dominator » 2014-02-16 19:35:43

guest писал(а):Вы чисто для общего представления почитайте что есть CAM и подумайте как старый и новый ATA драйвера могут
влиять на HDD и портить их и меньше писать в логи.

Как бы это все красиво не было написано, без проверки в боевых условиях, это ничто. Я не привык верить написанному, пока сам не проверю. Такого засирания консоли я еще не видел, как это было с CAM.

После отката на старый драйвер, который был в восьмерке, было одно ругательное сообщение в консоли и всед за ним ругань mc, при помощи которого спасал то, что можно спасти. И самое главное, все было быстро, в отличие от cam, который после каждого битого блока «просирался» по 2-3 минуты

P.S. Я так сильно не ругался с 2009 года, когда дернул неотмонтированную флешку на 6.2 во время установки прог из портов и повредил конфигурацию оных. Поэтому, что бы там ни говорили, я с CAM больше не дружу — сразу под скальпель. Хотя признаюсь, у него есть удобные плюшки.

Windows must die!


Модератор: Bizdelnick

dergachev

Сообщения: 847
ОС: archlinux

Решено: Ошибки при загрузке — что-то про DMA

Собственно, не знаю, какое отношение это имеет к юниксам (скорее всего дело в железе), но поскольку в венде я бы об этом так никогда и не узнал бы, то пишу сюда.
Имеются вот такие ошибки.

Код: Выделить всё

ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
ata2.01: BMDMA stat 0x64
ata2.01: failed command: READ DMA EXT
ata2.01: cmd 25/00:08:01:ad:ee/00:00:22:00:00/f0 tag 0 dma 4096 in
         res 51/84:00:08:ad:ee/84:00:22:00:00/f0 Emask 0x10 (ATA bus error)
ata2.01: status: { DRDY ERR }
ata2.01: error: { ICRC ABRT }
ata2: soft resetting link
ata2.00: configured for UDMA/33
ata2.01: configured for UDMA/100
ata2: EH complete
ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
ata2.01: BMDMA stat 0x64
ata2.01: failed command: READ DMA EXT
ata2.01: cmd 25/00:08:01:ad:ee/00:00:22:00:00/f0 tag 0 dma 4096 in
         res 51/84:00:08:ad:ee/84:00:22:00:00/f0 Emask 0x10 (ATA bus error)
ata2.01: status: { DRDY ERR }
ata2.01: error: { ICRC ABRT }
ata2: soft resetting link
ata2.00: configured for UDMA/33
ata2.01: configured for UDMA/100
ata2: EH complete
ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
ata2.01: BMDMA stat 0x64
ata2.01: failed command: READ DMA EXT
ata2.01: cmd 25/00:08:01:ad:ee/00:00:22:00:00/f0 tag 0 dma 4096 in
         res 51/84:00:08:ad:ee/84:00:22:00:00/f0 Emask 0x10 (ATA bus error)
ata2.01: status: { DRDY ERR }
ata2.01: error: { ICRC ABRT }
ata2: soft resetting link
ata2.00: configured for UDMA/33
ata2.01: configured for UDMA/100
ata2: EH complete
ata2.01: limiting speed to UDMA/66:PIO4
ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
ata2.01: BMDMA stat 0x64
ata2.01: failed command: READ DMA EXT
ata2.01: cmd 25/00:08:01:ad:ee/00:00:22:00:00/f0 tag 0 dma 4096 in
         res 51/84:00:08:ad:ee/84:00:22:00:00/f0 Emask 0x10 (ATA bus error)
ata2.01: status: { DRDY ERR }
ata2.01: error: { ICRC ABRT }
ata2: soft resetting link
ata2.00: configured for UDMA/33
ata2.01: configured for UDMA/66
ata2: EH complete

При этом недавно накрылась windows 7: сначала стала просто грузиться по десять минут, потом при загрузке давала какой-то input-output error; а вот в разных линуксах при загрузке стали сыпаться примерно такие ошибки, хотя потом всё идеально работает. Причем при подключении одного конкретного диска они тоже порой сыпятся где-то по десять минут прежде чем что-либо начнет работать, а если его не подключать (то есть не монтировать) — только то, что показано выше.

Что делать?

Код: Выделить всё

# fdisk -l

Диск /dev/sda: 750.2 ГБ, 750156374016 байт
255 heads, 63 sectors/track, 91201 cylinders
Units = цилиндры of 16065 * 512 = 8225280 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0xbfb2917c

Устр-во Загр     Начало       Конец       Блоки   Id  Система
/dev/sda1               1        1101     8843751   83  Linux
/dev/sda2   *        1102       91201   723728249    7  HPFS/NTFS

Диск /dev/sdc: 300.1 ГБ, 300069052416 байт
255 heads, 63 sectors/track, 36481 cylinders
Units = цилиндры of 16065 * 512 = 8225280 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0xf515ed38

Устр-во Загр     Начало       Конец       Блоки   Id  Система
/dev/sdc1               1        6785    54500481   83  Linux
/dev/sdc2            6786       36481   238533120   83  Linux

Диск /dev/sdb: 320.1 ГБ, 320072933376 байт
255 heads, 63 sectors/track, 38913 cylinders
Units = цилиндры of 16065 * 512 = 8225280 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x2f479f33

Устр-во Загр     Начало       Конец       Блоки   Id  Система
/dev/sdb1               1        8317    66806271   83  Linux
/dev/sdb3            8318       38914   245757952    7  HPFS/NTFS
Раздел 3 не заканчивается на границе цилиндра.

Аватара пользователя

xoomer

Сообщения: 201

Re: Решено: Ошибки при загрузке — что-то про DMA

Сообщение

xoomer » 05.05.2010 00:14

dergachev, а если попробовать вbIключить UDMA и включить режим PIO на всех дисках?

dergachev писал(а): ↑

04.05.2010 21:18

ata2.01: failed command: READ DMA EXT
ata2.01: cmd 25/00:08:01:ad:ee/00:00:22:00:00/f0 tag 0 dma 4096 in
res 51/84:00:08:ad:ee/84:00:22:00:00/f0 Emask 0x10 (ATA bus error)
ata2.01: status: { DRDY ERR }
ata2.01: error: { ICRC ABRT }

знать бbI, что значит ata2.01 — ето как я понимаю накопитель на 4-м коннекторе SATA ?? (возможно, ошибаюсь)

Что я бbI сделал:
— насчет PIO я уже писал
— попробовал бbI отключить вторую ветку SATA-контроллера
— и подумал бbI о сохранении даннbIх на жестких дисках и о сохранении самих жестких дисков. Желательно бbI старbIй диск для разбора етого всего дела, т.к. я понимаю проблема не в HDD, а в чем-то другом…

Far behind the skies…

dergachev

Сообщения: 847
ОС: archlinux

Re: Решено: Ошибки при загрузке — что-то про DMA

Сообщение

dergachev » 15.06.2010 19:24

Поскольку я недавно тут очень удивился тому, как высоко unixforum.org в поисковиках сидит, решил-таки отписаться о решении.
Таки да, плохой IDE-проводочек был, поменял — и наступило счастье.
Правда, за это время уже наступил локальный вендекапец, ну так ему и надо :rolleyes:

root@joe:~ # smartctl -a /dev/ada0
smartctl 6.2 2013-07-26 r3841 [FreeBSD 9.2-RELEASE amd64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.10
Device Model:     ST3250620A
Serial Number:    6RT019EX
Firmware Version: 3.AAE
User Capacity:    250,058,268,160 bytes [250 GB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA/ATAPI-7 (minor revision not indicated)
Local Time is:    Wed Dec 18 14:34:25 2013 PST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(  430) seconds.
Offline data collection
capabilities: 			 (0x5b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					No Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 (  74) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   117   087   006    Pre-fail  Always       -       139942552
  3 Spin_Up_Time            0x0003   095   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   099   099   020    Old_age   Always       -       1894
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   086   060   030    Pre-fail  Always       -       450350568
  9 Power_On_Hours          0x0032   083   083   000    Old_age   Always       -       15249
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   020    Old_age   Always       -       1364
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   056   050   045    Old_age   Always       -       44 (Min/Max 28/44)
194 Temperature_Celsius     0x0022   044   050   000    Old_age   Always       -       44 (0 16 0 0 0)
195 Hardware_ECC_Recovered  0x001a   077   051   000    Old_age   Always       -       132265437
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   197   000    Old_age   Always       -       575
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 Data_Address_Mark_Errs  0x0032   100   253   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 1840 (device log contains only the most recent five errors)
	CR = Command Register [HEX]
	FR = Features Register [HEX]
	SC = Sector Count Register [HEX]
	SN = Sector Number Register [HEX]
	CL = Cylinder Low Register [HEX]
	CH = Cylinder High Register [HEX]
	DH = Device/Head Register [HEX]
	DC = Device Command Register [HEX]
	ER = Error register [HEX]
	ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 1840 occurred at disk power-on lifetime: 15247 hours (635 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 00 00 00 f0  Error: ICRC, ABRT at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 01 00 00 00 f0 00      00:02:59.958  READ DMA
  c8 00 01 00 00 00 f0 00      00:02:59.526  READ DMA
  c8 00 01 00 00 00 f0 00      00:03:04.822  READ DMA
  c8 00 01 00 00 00 f0 00      00:03:04.380  READ DMA
  c8 00 01 00 00 00 f0 00      00:03:03.938  READ DMA

Error 1839 occurred at disk power-on lifetime: 15247 hours (635 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 00 00 00 f0  Error: ICRC, ABRT at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 01 00 00 00 f0 00      00:02:59.958  READ DMA
  c8 00 01 00 00 00 f0 00      00:02:59.526  READ DMA
  c8 00 01 00 00 00 f0 00      00:02:58.740  READ DMA
  c8 00 01 00 00 00 f0 00      00:03:04.380  READ DMA
  c8 00 01 80 00 00 f0 00      00:03:03.938  READ DMA

Error 1838 occurred at disk power-on lifetime: 15247 hours (635 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 00 00 00 f0  Error: ICRC, ABRT at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 01 00 00 00 f0 00      00:02:59.958  READ DMA
  c8 00 01 00 00 00 f0 00      00:02:59.526  READ DMA
  c8 00 01 00 00 00 f0 00      00:02:58.740  READ DMA
  c8 00 01 80 00 00 f0 00      00:02:58.298  READ DMA
  c8 00 01 10 00 00 f0 00      00:03:03.938  READ DMA

Error 1837 occurred at disk power-on lifetime: 15247 hours (635 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 00 00 00 f0  Error: ICRC, ABRT at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 01 00 00 00 f0 00      00:02:59.958  READ DMA
  c8 00 01 00 00 00 f0 00      00:02:59.526  READ DMA
  c8 00 01 80 00 00 f0 00      00:02:58.740  READ DMA
  c8 00 01 10 00 00 f0 00      00:02:58.298  READ DMA
  c8 00 01 10 00 00 f0 00      00:02:57.856  READ DMA

Error 1836 occurred at disk power-on lifetime: 15247 hours (635 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 00 00 00 f0  Error: ICRC, ABRT at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 01 00 00 00 f0 00      00:02:59.958  READ DMA
  c8 00 01 80 00 00 f0 00      00:02:59.526  READ DMA
  c8 00 01 10 00 00 f0 00      00:02:58.740  READ DMA
  c8 00 01 10 00 00 f0 00      00:02:58.298  READ DMA
  c8 00 01 10 00 00 f0 00      00:02:57.856  READ DMA

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     15246         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Topic: [SOLVED] CAM status: ATA Status Error  (Read 23670 times)

Hi Everyone,
I have 2 Soekris devices installed with CF-card running Opnsense 16.7.2-i386.

On both I get the following messages in the System Log File:
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): Error 5, Retries exhausted
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): RES: 51 04 6f 63 6b 45 45 00 00 01 00
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 04 (ABRT )
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): CAM status: ATA Status Error
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): DSM TRIM. ACB: 06 01 00 00 00 40 00 00 00 00 01 00
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): Retrying command
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): RES: 51 04 6f 63 6b 45 45 00 00 01 00
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 04 (ABRT )
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): CAM status: ATA Status Error
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): DSM TRIM. ACB: 06 01 00 00 00 40 00 00 00 00 01 00
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): Retrying command
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): RES: 51 04 6f 63 6b 45 45 00 00 01 00
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 04 (ABRT )
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): CAM status: ATA Status Error
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): DSM TRIM. ACB: 06 01 00 00 00 40 00 00 00 00 01 00
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): Retrying command
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): RES: 51 04 6f 63 6b 45 45 00 00 01 00
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 04 (ABRT )
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): CAM status: ATA Status Error
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): DSM TRIM. ACB: 06 01 00 00 00 40 00 00 00 00 01 00
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): Retrying command
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): RES: 51 04 6f 63 6b 45 45 00 00 01 00
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 04 (ABRT )
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): CAM status: ATA Status Error
Aug 26 12:16:51    kernel: (ada0:ata0:0:0:0): DSM TRIM. ACB: 06 01 00 00 00 40 00 00 00 00 01 00

It has to do with the disk, anyone seen this before and is there a solution for this?

Greets,
Rosie

« Last Edit: August 31, 2016, 04:29:06 pm by franco »


Logged


Hi Rosie,

CF card and TRIM in the same post is suspicious.

Assuming this is a Nano image, can you edit your /etc/fstab accordingly:

DISCLAIMER: Editing the fstab should not be done lightly, system bootup may fail. That’s why OPNsense code never touches the file beyond image building or the bsdinstaller’s installation process.

Add » # notrim» (no quotes) at the very end of the root partition line (the device should be /dev/ufs/opnsense0) and reboot.

It’ll disable TRIM and hopefully the errors go away as the CF card is likely unable to handle the command.

Cheers,
Franco

« Last Edit: August 26, 2016, 06:32:03 pm by franco »


Logged


Hi Franco,
thanks for the reply.
I have done research as well and found tunefs and fsck.
As I have a CF there are 2 slices.
ad0s1a has trim enabled and ad0s2a has trim disabled.
When I try to disabled it on ad0s1a i’m not able due to the fact that this slice is still readonly.
I thought by booting in second slice i could disable it, but still no success.
Can you tell me how to enable writing to the first slice.
Greetings,
Rosie


Logged


Didn’t you mean it’s still read-write? That’s when you can’t run the tunefs to modify.

If you use the fstab trick the RC system will do the disabling for you on reboot. That’s why I mentioned it. :)

Cheers,
Franco


Logged


Hi Franco,
i’m still strugling with this one.
What I do:
First reboot and start Opnsense with option 2.
I do:
# cat /etc/fstab
/dev/ufs/OPNsense0 / ufs rw,async,noatime 1 1
# vi /etc/fstab
ex/vi: Error: /var/tmp/vi.recover/: Read-only file system
ex/vi: Modifications not recoverable if the session fails
ex/vi: Error: /etc/fstab: Read-only file system
ex/vi: Error: Unable to create temporary file: Read-only file system
#
Sorry, but I still don’t know how to get this partition read write.
I’m missing knowledge to get this slice read write.
What is the trick?


Logged


Franco,
don’t know what happened but system is back to OPNsense 15.7.18_1-i386 and i had to assing nics and ips again.
I was trying with serial connection and I reset the soekris system with reset button.
I will build the system up again and see what happens.
Keep you informed.
Roro


Logged


Well I booted system with OPNsense1, I will update this slice and see whats happening next.
Fetching the update files now. Upgrade in progress:
Fetching libevent2-2.0.22_1.txz: 100%  254 KiB 260.0kB/s    00:01
Fetching libedit-3.1.20150325_1.txz: 100%  119 KiB 121.8kB/s    00:01
Fetching ldns-1.6.17_5.txz: 100%  379 KiB 388.3kB/s    00:01
Fetching jansson-2.7_1.txz: 100%   39 KiB  40.4kB/s    00:01
Fetching idnkit-1.0_5.txz: 100%  184 KiB 188.5kB/s    00:01
Fetching gmp-5.1.3_2.txz: 100%  474 KiB 484.9kB/s    00:01
Fetching gettext-runtime-0.19.6.txz: 100%  144 KiB 147.7kB/s    00:01
Fetching freetype2-2.6.2.txz: 100%  535 KiB 547.4kB/s    00:01
Fetching easy-rsa-3.0.1.txz: 100%   31 KiB  32.1kB/s    00:01
Fetching dnsmasq-2.75_1,1.txz: 100%  257 KiB 262.7kB/s    00:01
Fetching dhcp6-20080615_5.txz: 100%  104 KiB 106.2kB/s    00:01
Fetching curl-7.46.0_2.txz: 100%    1 MiB   1.5MB/s    00:01
Fetching choparp-20150613.txz: 100%    7 KiB   7.2kB/s    00:01
Fetching ca_root_nss-3.21.txz: 100%  330 KiB 337.7kB/s    00:01
Fetching bind910-9.10.3P2.txz: 100%    6 MiB   5.9MB/s    00:01
Fetching apinger-0.6.1_4.txz: 100%   32 KiB  33.0kB/s    00:01
Fetching libucl-0.7.3_1.txz: 100%   79 KiB  80.7kB/s    00:01
Checking integrity… done (0 conflicting)
[1/74] Upgrading openssl from 1.0.2_4 to 1.0.2_6…
[1/74] Extracting openssl-1.0.2_6:  62%


Logged


I’m not exactly sure what you’re trying to do. The second slice is dormant, so it wasn’t up to date. It doesn’t have a shared configuration directory, that’s also by design. We’d either go ahead and make the second slice of nano usable, or we’d at some point see that the second slice isn’t as useful. We’ve now seen the latter. :)

Boot from the first slice as usual (not single-user mode), edit /etc/fstab accordingly and reboot and TRIM will be off…

Cheers,
Franco


Logged


The whole evening upgrading the opnsense cf i386 soekris box from version 15.x.x to 16.7.2 OpenSSL.
1  OPNsense
2  OPNsense

F6 PXE
Boot:  2

Took a long time but no errors at all.
As usuall I go from openssl to libressl and then the messages about:

(ada0:ata0:0:0:0): CAM status: ATA Status Error
etc.

appears again. After that I went to sleep.

Now I will go back to OpenSSL and see whats happening.

System is running now OPNsense 16.7.2 (i386/OpenSSL), but:

 0) Logout                             7) Ping host
 1) Assign Interfaces                  8) Shell
 2) Set interface(s) IP address        9) pfTop
 3) Reset the root password           10) Filter Logs
 4) Reset to factory defaults         11) Restart web interface
 5) Power off system                  12) Upgrade from console
 6) Reboot system                     13) Restore a configuration

Enter an option: (ada0:ata0:0:0:0): DSM TRIM. ACB: 06 01 00 00 00 40 00 00 00 00
 01 00
(ada0:ata0:0:0:0): CAM status: ATA Status Error
(ada0:ata0:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 04 (ABRT )
(ada0:ata0:0:0:0): RES: 51 04 20 3c 2f 74 74 00 00 01 00
(ada0:ata0:0:0:0): Retrying command

So I think the switch from OpenSSL to LibreSSL causes these messages in the system log.
Is this solvable in the installation or otherwise?

Greets.


Logged


If it’s not the TRIM support the SD card’s first slice is wearing out. LibreSSL will not cause physical errors on your media. Note that your second slice is pretty young in terms of write cycles as opposed to the first one.


Logged


Recap:
after a few days of hard try and error.
Soekris net5501-70 serial.
Opnsense i386 cf-card.

Findings:
1. because I could not see much via serial (soekris 9600, opnsense 115200). fixed
2. the nanobsd boot menu. Here you can choose:
   1  OPNsense
   2  OPNsense

   F6 PXE
   Boot:  1

3. then the freebsd/opnsense logo will come, but it doesn’t display well on serial output, so you miss the freebsd/opnsense menu with Multiuser, Singleuser etc.

4. then I had issues with VI and /etc/fstab. I choose to use EE to edit this file and I was able to add «# notrim».

5. Finally SUCCES. The trim messages are gone. Thanks to Franco’s help.

root@opn01:~ # tunefs -p /dev/ad0s1a
tunefs: POSIX.1e ACLs: (-a)                                disabled
tunefs: NFSv4 ACLs: (-N)                                   disabled
tunefs: MAC multilabel: (-l)                               disabled
tunefs: soft updates: (-n)                                 enabled
tunefs: soft update journaling: (-j)                       disabled
tunefs: gjournal: (-J)                                     disabled
tunefs: trim: (-t)                                         disabled
tunefs: maximum blocks per file in a cylinder group: (-e)  512
tunefs: average file size: (-f)                            16384
tunefs: average number of files in a directory: (-s)       64
tunefs: minimum percentage of free space: (-m)             8%
tunefs: space to hold for metadata blocks: (-k)            1032
tunefs: optimization preference: (-o)                      time
tunefs: volume label: (-L)                                 OPNsense0

root@opn01:~ # tunefs -p /dev/ada0s1a
tunefs: POSIX.1e ACLs: (-a)                                disabled
tunefs: NFSv4 ACLs: (-N)                                   disabled
tunefs: MAC multilabel: (-l)                               disabled
tunefs: soft updates: (-n)                                 enabled
tunefs: soft update journaling: (-j)                       disabled
tunefs: gjournal: (-J)                                     disabled
tunefs: trim: (-t)                                         disabled
tunefs: maximum blocks per file in a cylinder group: (-e)  512
tunefs: average file size: (-f)                            16384
tunefs: average number of files in a directory: (-s)       64
tunefs: minimum percentage of free space: (-m)             8%
tunefs: space to hold for metadata blocks: (-k)            1032
tunefs: optimization preference: (-o)                      time
tunefs: volume label: (-L)                                 OPNsense0
root@opn01:~ #
root@opn01:~ #


Logged


Hi Rosie,

Sounds good. I’m not entirely sure why the system things the card is TRIM-capable but there were only ever two cases I heard of. I think chemlud had similar issues, we added # notrim upon his request. Maybe he has more background on this?

You can probably improve the console experience in terms of disabling the second console (new in 16.7.3) and changing the serial speed as well to match Soekris, all under System: Settings: Administration.

Cheers,
Franco


Logged


Hi Franco,
i’m still getting the messages again.
Is it also possible to turn of:
tunefs: soft updates: (-n)                                 enabled
Greets


Logged


and it driving crazy. >:(


Logged


Try » # notrim,nosoft» instead. :)


Logged


  • #1

After months of problem-free operation, I’m getting the following error messages on boot:

CAM status: ATA Status Error
ATA status: 51 (DRDY SERV ERR), error: 84 (ICRC ABRT )
RES: 51 84 a8 91 3f 00 00 00 00 00 00
Retrying command

(repeated over and over, except that the address in the RES line changes each time)

I occasionally had similar issues when this box ran Linux. The issues would come and go, and multiple drives were sometimes affected, although SMART was always clean (and still is now). After doing a bit of searching, I came across suggestions that it might not even be the hard drive(s) that were the problem, but rather faulty SATA cables, or «noise» (interference) from the power supply, or a bad motherboard, or…

Anyway, what can I do to track down the source of the error? I’m on FreeNAS-9.1.1-RELEASE-x64 (a752d35), in case that makes a difference. I’m not worried about data loss, because I’ve been exporting snapshots to an external drive regularly, and if this goes down for a week or two while I get parts, it won’t be a big deal. But I would like to fix this.

zpool status -v outputs the following:

Code:

  pool: Primary
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://illumos.org/msg/ZFS-8000-9P
  scan: resilvered 121M in 0h6m with 0 errors on Thu May 15 21:06:08 2014
config:
 
NAME                                            STATE     READ WRITE CKSUM
Primary                                         ONLINE       0     0     0
  raidz1-0                                      ONLINE       0     0     0
    gptid/125bca84-5550-11e3-b667-485b39a7a747  ONLINE       0     0     0
    gptid/12d05cf3-5550-11e3-b667-485b39a7a747  ONLINE       0     0     0
    gptid/133f9e29-5550-11e3-b667-485b39a7a747  ONLINE       0     0     0
 
    gptid/139fe25f-5550-11e3-b667-485b39a7a747  ONLINE       0     0     3

Ericloewe


  • #2

We could use more info about your system. Without that, the best advice we can give is to replace the SATA cables if you suspect them, run S.M.A.R.T. tests ASAP and check for any loose connections.

  • #3

Thanks! I guess I’ll start with the cables…SMART tests come back clean, which is part of why I’m not so sure it’s the drive. (Plus the intermittency.) I’m about to be traveling for a while, but I’ll see about doing more troubleshooting when I get back.

Ericloewe


  • #4

Thanks! I guess I’ll start with the cables…SMART tests come back clean, which is part of why I’m not so sure it’s the drive. (Plus the intermittency.) I’m about to be traveling for a while, but I’ll see about doing more troubleshooting when I get back.

Did you run a long test?

  • #5

Yeah, I just ran a long self test and it came up clean; past runs when I was seeing issues also came up clean. (Also, when I rebooted my box before running the test, the errors I was seeing in `zpool status -v` went away too…the intermittency is frustrating.)

Ericloewe


  • #6

What hardware are you using, specifically?

  • #7

Yeah, I just ran a long self test and it came up clean; past runs when I was seeing issues also came up clean. (Also, when I rebooted my box before running the test, the errors I was seeing in `zpool status -v` went away too…the intermittency is frustrating.)

Check the power connections, not just the data cables.

  • #8

The error counts in zpool status clear when you reboot the box(or unmount the pool). So that’s totally normal.

  • #9

Ah, okay, that’s good to know that the error counts clearing is normal. The error messages I was seeing earlier didn’t show back up on screen, though. Good call on the power cables; I can check those too. (I’ve definitely unplugged/replugged them in the past, but perhaps they should be replaced or something, along with the SATA cables?)

As far as hardware, here’s what I’m using:

Motherboard: ASUS M4A785TD-V EVO AM3 (AMD)
Power supply: OCZ Fatal1ty 550W
RAM: 12 GB ECC RAM
Hard drives:
— 3 are Hitachi HDS721050CLA362 (0F10381) 500GB 7200 RPM 16MB Cache SATA
— unfortunately, I don’t remember what the fourth is, nor do I remember if the «failing» one is a Hitach or if it’s the fourth drive (and I just left for an internship, so I won’t be able to check for a couple of months)
— on the other hand, that may not matter too much, since I’ve had multiple drives exhibit this behavior…I’m not convinced it’s really the drives
SATA cables: appear to be shielded (silver braid is visible through the clear plastic exterior), don’t remember the brand, probably pretty cheap
HD power cables: don’t remember right now, unfortunately

Is there any other hardware that might affect things?

July 11 2013, 11:04

Помогите разобраться в ошибке диска

FreeBSD 9.1. Периодически лезут ошибки вида

Jul 10 21:16:04 book-mf-1 kernel: (ada5:ahcich5:0:0:0): FLUSHCACHE48. ACB: ea 00 00 00 00 40 00 00 00 00 00 00
Jul 10 21:16:04 book-mf-1 kernel: (ada5:ahcich5:0:0:0): CAM status: ATA Status Error
Jul 10 21:16:04 book-mf-1 kernel: (ada5:ahcich5:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 04 (ABRT )
Jul 10 21:16:04 book-mf-1 kernel: (ada5:ahcich5:0:0:0): RES: 51 04 38 df f7 47 00 00 00 00 00
Jul 10 21:16:04 book-mf-1 kernel: (ada5:ahcich5:0:0:0): Retrying command
Jul 10 21:17:13 book-mf-1 kernel: ahcich5: Timeout on slot 23 port 0
Jul 10 21:17:13 book-mf-1 kernel: ahcich5: is 00000000 cs 00800000 ss 00000000 rs 00800000 tfd 10c1 serr 00000000 cmd 0004d717
Jul 10 21:17:13 book-mf-1 kernel: ahcich5: Error while READ LOG EXT
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 12 02 75 13 40 21 00 00 00 00 00
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): CAM status: ATA Status Error
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): ATA status: 00 ()
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): RES: 00 00 00 00 00 00 00 00 00 00 00
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): Retrying command
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 08 1c 75 13 40 21 00 00 00 00 00
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): CAM status: ATA Status Error
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): ATA status: 00 ()
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): RES: 00 00 00 00 00 00 00 00 00 00 00
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): Retrying command

Замена диска не привела к устранению ошибок. Контроллер на матери. Может ли это быть проблема с кабелем? что можно предпринять для уточнения ситуации (заменять материнскую плату, машину в сборе, государственный строй РФ, орбиту Земли не предлагать)?

I have an SD-VIA-1A2S PCI card with 2 sata ports (and one ATA-133 that isn’t used). Two new Western Digital Caviar Green drives (WD10EARS 1TB) throw repeated errors in kern.log (removed date/time/host info for brevity):

[    7.376475] ata2.00: exception Emask 0x12 SAct 0x0 SErr 0x1000500 action 0x6
[    7.376480] ata2.00: BMDMA stat 0x5
[    7.376483] ata2: SError: { UnrecovData Proto TrStaTrns }
[    7.376489] ata2.00: cmd c8/00:40:20:00:00/00:00:00:00:00/e0 tag 0 dma 32768 in
[    7.376490]          res 51/84:2f:20:00:00/00:00:00:00:00/e0 Emask 0x12 (ATA bus error)
[    7.376493] ata2.00: status: { DRDY ERR }
[    7.376495] ata2.00: error: { ICRC ABRT }
[    7.376504] ata2: hard resetting link

I’m using Ubuntu 9.04 — 2.6.28-18-generic, though I have tried live cds of Ubuntu 9.10, Fedora 12 and OpenSUSE 11.2 — all running various 2.6.31 kernels — and all received the same error.

Based on testing these drives and this card in two other machines and combos of connecting the drives directly to the motherboard or the add-in card, I’m relatively convinced that it’s the VIA chipset that is the problem. Another computer that also has an onboard VIA SATA chipset (like the add-in card) produces the same errors when the drives are directly on that motherboard. I have been able to verify that the drives are perfectly good, and I tried everything I can think of in terms of swapping cables, psu isn’t overloaded, etc.

The error happens on boot once or twice, after using fdisk on the drive once or twice, and constantly when attempting to sync a new mdadm raid 1 array created on the two drives.

Any thoughts on where to go from here — driver/kernel wise?

I’m completely open to buying a new PCI add-in card if someone can recommend one with 2 internal sata ports that works well in Debian/Ubuntu.

Thanks!

Автор Сообщение

Заголовок сообщения: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 5:31 pm 

Не в сети
Аватара пользователя



Зарегистрирован: Чт 20 фев, 2014 10:26 am
Сообщения: 75

Подскажите что с диском. Freebsd 9.2 на нем samba. Стали жаловаться что пишет нет места на шарах. Стал смотреть ls — половина папок input/output error. Ребутнул, при ребуте писал что secondary gpt corrupt, восстановил gpart recover. потом пишет not clean — прошелся fsck’ом — почистил. Ребутнул вроде все самонтировалось. но потом опять ребутал несколько раз — пишет dma read error — куча таких ошибок, также CAM status: ATA Status Error. В общем я думаю что диск посыпался (переезд был может долбанули в машине комп), он еще поскрипывает както нехорошо когда к нему чем нибудь обращаюсь. Сейчас из всей шары некоторых папок и файлов нет — перезагружу — уже других нет — все рандомно, диск сыпется?

Вернуться к началу

Профиль  

erema15

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 5:53 pm 

Не в сети



Зарегистрирован: Вт 17 авг, 2010 8:48 pm
Сообщения: 494
Откуда: Беларусь

Вернуться к началу

Профиль  

grayich

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 6:03 pm 



Зарегистрирован: Вт 10 авг, 2004 2:24 am
Сообщения: 3359
Откуда: Харьков

смарт глянь
ну и badblocks можно прогнать

Вернуться к началу

Профиль  

gmax007

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 6:28 pm 



Зарегистрирован: Чт 20 фев, 2014 10:26 am
Сообщения: 75

там смарт то уже говорит не знаю тип устройства а на бэд блоки может на ночь поставлю если сейчас подключусь к работе и вообще если там диск не отвалился полностью пока я домой ехал) такой вопрос: от перегрева может такое случится и на сколько критичен перегрев? обидно, хотел туда еще одну шару перелить гигов на 100 и с другим сервером rsynk сделать — неуспел)

Последний раз редактировалось gmax007 Пн 02 июн, 2014 6:42 pm, всего редактировалось 1 раз.

Вернуться к началу

Профиль  

grayich

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 6:39 pm 



Зарегистрирован: Вт 10 авг, 2004 2:24 am
Сообщения: 3359
Откуда: Харьков

не слышал такого, что б смарт нельзя было получить .. возможно он просто не активирован

Код:

smartctl -s on /dev/ad0 # включить
smartctl -a /dev/ad0 # текущая инфа
smartctl -t long /dev/ad0  # тест, после которого может значительно измениться инфа по smartctl -a /dev/ad0

/dev/ad0 естественно на свой заменить

может кабельконтролер полетели?
к другому тазику подключить не помешает

Вернуться к началу

Профиль  

gmax007

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 6:49 pm 



Зарегистрирован: Чт 20 фев, 2014 10:26 am
Сообщения: 75

смарт включен должен был быть, он мне постоянно логи слал на почту, его там никто не отключал. хз. сейчас зайти через путти не могу — там кирдык походу все отвалилось. ну вот бэкап залью им и буду этот комп тестировать до изнеможения и тазики менять. да кстати я его раскрывал — думал переткну кабеля. сата-питание прям в руках разлетелся наконечник пластмассовый) — поменял сразу но толку так и не было. Подскажите вообще насколько часто могут быть подобные проблемы связаны с памятью оперативной или БП — то есть хочу понять насколько опасно старые компы как сервера гонять

Вернуться к началу

Профиль  

grayich

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 7:02 pm 



Зарегистрирован: Вт 10 авг, 2004 2:24 am
Сообщения: 3359
Откуда: Харьков

по питанию часто проблемы для старых тазов, в остальном обычно нормально
часто кондёры вздуваются на матери и в БП, перепайка решает.

Вернуться к началу

Профиль  

xemul

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 7:37 pm 

Не в сети



Зарегистрирован: Ср 14 окт, 2009 2:26 pm
Сообщения: 617

Про электролиты на мамке и в БП Вам уже сказали.
Проверьте также состояние контактов на плате контроллера диска. Бита Torex T9 под рукой найдётся?

Гонять любые тесты (даже на чтение) при непонятном состоянии железа настоятельно не рекомендую.

Вернуться к началу

Профиль  

gmax007

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 7:54 pm 



Зарегистрирован: Чт 20 фев, 2014 10:26 am
Сообщения: 75

биту могу у кореша попросить такую. надо начальство на новый комп, пару дисков и райд контроллер разводить, про сервер уж молчу — нищета же.
Кстати про непонятное состояние железа, когда первый раз я комп перезагружал было зависание на самом первом этапе до начала POST на картинке вендора материнки. это из-за чего бывает? ну потом на этом месте не висло. а вообще какие жесткие диски посоветуете брать естественно не энтерпрайзес-уровня, ну вообще по надежности для самба-сервера на фряхе небольшой конторы

Вернуться к началу

Профиль  

grayich

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 8:10 pm 



Зарегистрирован: Вт 10 авг, 2004 2:24 am
Сообщения: 3359
Откуда: Харьков

зависания на посте, может питание, может чип

Вернуться к началу

Профиль  

xemul

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 8:14 pm 

Не в сети



Зарегистрирован: Ср 14 окт, 2009 2:26 pm
Сообщения: 617

Телепатически — на 99% проблемы с питанием, и именно с электролитами на мамке.
Из ширпотребных дисков за последние годы у меня, пожалуй, наиболее положительная статистика по WD Green (если не забыть на них отключить «зелёный» таймаут). Из 3 дисков в RAIDZ и 4 ГБ памяти получается дешёвая (домашняя) файлопомойка.

Вернуться к началу

Профиль  

gmax007

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 9:46 pm 



Зарегистрирован: Чт 20 фев, 2014 10:26 am
Сообщения: 75

я вот собственно и упоминал питание, потому диск не так уж давно и куплен и вечно там дохнет что-то. причем пару лет назад на том компе был другой диск был, который при мне же полетел. стоял тогда CentOS 5. Там какая то беда вечно на том компе. на вид то кондеры ничо вроде, но понятно чтобы был вердикт нужно мерить все цепи питания и ключевые элементы. комп старье проще выкинуть. потом с ним беда была сломалось крепление для cpu_fan — херня — я его прям к плате привинтил. короче этот компьютер еще тот «выживальщик»)). Зеленый таймаут, это всмысле что такое, с прошивкой диска что-то связано? насчет домашней, у меня около 30 «домочадцев» пользуют помойку, вот приведите на ваш взгляд примерную конфу железа на 30 человек для фряхи и самбы. 4 гб памяти — не не слышал)

Вернуться к началу

Профиль  

xemul

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Вт 03 июн, 2014 11:26 am 

Не в сети



Зарегистрирован: Ср 14 окт, 2009 2:26 pm
Сообщения: 617

Чтобы был вердикт, все цепи «мерить» не надо. Достаточно немного потыкать осциллографом.
Верхняя часть старых процовых сокетов (с ушами для крепления кулера) легко заменяется. Прикрутить кулер к мамке — тоже вариант, — каждый ССЗБ.
Ваш рассказ в духе «А в остальном всё хорошо» захватывает, жду развития интриги.
Серия WD Green паркует головки и тормозит шпиндель при отсутствии обращений в течение программируемого таймаута (по умолчанию, по-моему, 8 с), который можно отключить. Гуглите wdidle на сайте WD.
За конфигурацию ничего не скажу, т.к. критерия «30 «домочадцев»» недостаточно даже для выбора офисной мебели.

На клаве есть разные полезные кнопки типа Shift, Enter, … Не стесняйтесь их использовать.

Вернуться к началу

Профиль  

gmax007

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Вт 03 июн, 2014 1:59 pm 



Зарегистрирован: Чт 20 фев, 2014 10:26 am
Сообщения: 75

Забрал комп из серверной, диск горячий как ад, остыл, загрузился без ошибок все замонтировалось, прогнал на бэды с помощью dd rescue — err 0. На сколько я понял у меня он мозги крутил из-за перегрева

Вернуться к началу

Профиль  

Кто сейчас на конференции

Зарегистрированные пользователи: Bing [Bot]

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Яндекс.Метрика

  • Печать

Страницы: [1]   Вниз

Тема: Что это значит? ata1.00: status: { DRDY ERR } , ata1.00: error: { ABRT }  (Прочитано 15149 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн
kiggiss

Добрый день. Подскажите что происходит. Начинает виснуть система, монитор диммиться, т.е. как бы не хватает ресурсов, при этом с ресурсами ОК, 500Мб свободной памяти и 0Мб свопа, проц загружен на 12% не больше. При выходе в терминальный режим (Ctrl+Alt+F1) валиться следующая ерунда, она же и в syslog.

Не означает ли это что моему ЖД приходит конец?


Оффлайн
Vened


Оффлайн
victor00000

поменять новый БП или ЖД.


Оффлайн
kiggiss

Понятно. Подозрения подтвердились. ЖД накрывается, шлейфа нет, т.к. это лаптоп. SMART кстати выдал только критический показатель по температуре, что тоже думаю критерий к замене. Спасибо.  :)


  • Печать

Страницы: [1]   Вверх

Понравилась статья? Поделить с друзьями:
  • Ata readsysinfo13 failed error 0x51 phison not detected 2 exit
  • Ata readsysinfo13 failed error 0x51 ata readinfoblock28 failed error 0x51
  • Ata readinfoblock failed error 0x51
  • Ata readinfoblock failed error 0x21
  • Ata read dma error