Ata status 51 drdy serv err error 40 unc

Hello, I am not clear on where the error is coming from, therefore I'm uncertain of where to post this. It started about 2 weeks ago with a daily ZFS snapshot getting stuck around midnight, I believe it was taking a snapshot of a filesystem on ada5, which is part of a mirror with ada4...

  • #1

Hello,

I am not clear on where the error is coming from, therefore I’m uncertain of where to post this.

It started about 2 weeks ago with a daily ZFS snapshot getting stuck around midnight, I believe it was taking a snapshot of a filesystem on ada5, which is part of a mirror with ada4 encrypted with geli(). The next day the computer froze and I had to power off the system. I had to reboot three times for the boot drive to be found. Once it started to reboot I received the following error message repeatedly:

Code:

(ada5:ata5:0:0:0): Retrying command
(ada5:ata5:0:0:0): READ_DMA48. ACB: 25 00 60 6d 76 40 42 00 00 00 08 00
(ada5:ata5:0:0:0): CAM status: ATA Status Error
(ada5:ata5:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 40 (UNC )
(ada5:ata5:0:0:0): RES: 51 40 67 6d 76 42 42 00 00 00 00
(ada5:ata5:0:0:0): Retrying command
(ada5:ata5:0:0:0): READ_DMA48. ACB: 25 00 60 6d 76 40 42 00 00 00 08 00
(ada5:ata5:0:0:0): CAM status: ATA Status Error
(ada5:ata5:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 40 (UNC )
(ada5:ata5:0:0:0): RES: 51 40 66 6d 76 42 42 00 00 00 00
(ada5:ata5:0:0:0): Error 5, Retries exhausted
GEOM_ELI: g_eli_read_done() failed ada5p2.eli[READ(offset=527958720512, length=4096)]

I had another stuck ZFS snapshot a few days ago on ada5 directory, but I was able to shut the computer down before there were problems. Upon reboot I received the same message as above.

smartd

reports no errors with any of the drives. zpool status -x also reports no errors and no full filesystems, the same with df -h.

Yesterday, while editing a file in

Emacs

the user space,

KDE

, froze with a screeching noise from the speaker. I was not able to do anything in the user space and, since I had no other device to SSH in with, I did a hard power cycle again. Upon reboot, the same issues as above and the file that I had been working with in

Emacs

had been overwritten and was 0kB in size. I am unclear if these things are related, as I had similar issues in the distant past with

Emacs

that seemed to go away with an update of the port.

Essentially, I am looking for help on trying to figure out what is wrong with the disk, geli or ZFS here. This is my workstation and I have a grant due in the next week. I cannot afford to upgrade anything as sometimes upgrades don’t work.

All the filesystems, including the boot drive, are ZFS. The output of camcontrol devlist:

Code:

<Samsung SSD 840 PRO Series DXM06B0Q>  at scbus1 target 0 lun 0 (ada0,pass0)
<Samsung SSD 840 EVO 1TB EXT0BB6Q>  at scbus2 target 0 lun 0 (ada1,pass1)
<Samsung SSD 840 EVO 1TB EXT0BB6Q>  at scbus3 target 0 lun 0 (ada2,pass2)
<LaCie 2Big Quadra USB3 0301>  at scbus7 target 0 lun 0 (pass3,da0)
<WDC WD3000HLFS-01G6U4 04.04V06>  at scbus8 target 0 lun 0 (ada3,pass4)
<WDC WD1001FALS-00E8B0 05.00K05>  at scbus8 target 1 lun 0 (ada4,pass5)
<WDC WD1001FALS-00J7B0 05.00K05>  at scbus9 target 0 lun 0 (ada5,pass6)
<Optiarc DVD RW AD-7241S 1.03>  at scbus9 target 1 lun 0 (cd0,pass7)

And my system:

Code:

FreeBSD freeenv 10.1-RELEASE-p19 FreeBSD 10.1-RELEASE-p19 #0: Sat Aug 22 03:55:09 UTC 2015  root@amd64-builder.daemonology.net:/usr/obj/usr/src/sys/GENERIC  amd64

Thanks very much for any suggestions.

Aric

Last edited by a moderator: Jun 19, 2016

  • #2

That is a hardware error. UNC means uncorrectable data error. Either you have a cable going bad or that FALS-00J7B0 drive is failing.
As to why smartd and ZFS both think it’s fine, maybe it’s just intermittent at this stage, but I’d look at trying a new cable/replacing that drive.

  • Thread Starter

  • #3

Thank you very much for your reply!

  • #4

SMART is not a completely reliable indicator if the disk is faulty or not, if it tells you that there are no errors on the disk that is not evidence that the disk is all good. The other way is of course different, if SMART shows errors on the disk it is probably worth taking that seriously and replace it asap.

  • #1

I have a HP Proliant N40L Microserver, that previously has FreeNAS 92

It has four SATA drives, and FreeNAS 9.2 (Beta, I can’t recall which build) installed on a USB stick.

I recently decided to wipe the USB stick, and install FreeNAS 9.3. release onto it.

However, during the boot, I’m getting a whole bunch of error messages about «CAM Status: ATA Status Error» and «
ATA status: 51 (DRDY SERV ERR), error: 40 (UNC )»
on what I believe is the USB stick (/dev/ada1 — the SATA drives shouldn’t have been mounted at this point).

I’ve tried two different USB sticks (one of which is known good, and the other is the one that was previously running 9.2 Beta successfully for several months), and it exhibits the same symptoms each time.

lD9UPy2.jpg

bEK2ur1.jpg

0CphNPF.jpg

Eventually, it does finish booting, if you leave it long enough — however, then when you try to run the initial wizard from a web browser, it then prints out those errors again, and hangs.

Any thoughts on what’s going on, or what the next diagnosis steps might be?

  • #2

Damn, I’m silly — I’m fairly sure /dev/ada1 is was one of the SATA drives, not the USB stick. I just booted it up with all SATA drives ejected, and it booted up fine, no error messages.

Hmm, ok, that’s not good.

I have three SATA drives in them — this is an old NAS I had setup at my parent’s place, I was visiting today so I figured I’d upgrade it.

I am really hoping that I set it up in RAID-Z mode…otherwise I’m guessing I’m out of luck, right? Three disks, hmm, yeah, RAID-Z still works…right….ugh.

/dev/ada1 would put it as the second drive in the set — so slot 2? Or is the ordering of the device names not really related?

Should I boot up the machine with that disk ejected, and see how things go?

Would it be safe to do a ZFS import with only two drives, and see what happens there?

Or what else would a safe next step?

If it helps, the drives are Toshiba (Hitachi) DT01ACA300 3.0 TB drives.

  • #3

Hi,

I just booted it up with the second SATA drive ejected.

I ran a «zpool import» from the shell:

Code:

[root@freenas] ~# zpool import
   pool: datastore
     id: 17291458680710033870
  state: DEGRADED
status: The pool was last accessed by another system.
action: The pool can be imported despite missing or damaged devices.  The
    fault tolerance of the pool may be compromised if imported.
   see: http://illumos.org/msg/ZFS-8000-EY
config:

    datastore                                       DEGRADED
     raidz1-0                                      DEGRADED
       gptid/b9f41d31-67ca-11e2-b39e-a0b3cce4fa18  ONLINE
       14864991909925225739                        UNAVAIL  cannot open
       gptid/baf7d360-67ca-11e2-b39e-a0b3cce4fa18  ONLINE

I am glad I setup my parent’s NAS the same as I’d setup mine…sigh.

Ok, hmm, so I assume my best option at this stage is to go out, buy another drive, and try to re-import and get it to re-silver onto that drive, to get back up to 1 redundant drive?

Or will that perhaps cause issues for the remaining drives, in terms of additional load on them? The drives are identical models, and were probably purchased at the same time.

Regards,
Victor

  • #4

«smartctl -a /dev/ada1» would tell you the serial number of the failing disk. «zpool import» will tell you the pool configuration if it isn’t mounted; «zpool status» if it is. If it shows RAIDZ1, you may not be completely hosed.

FWIW, the ATA status errors are often the result of a bad cable, but the failed SMART attributes are definitely something with the drive itself.

  • #5

Our posts crossed. Yes, your best bet is to replace the drive. Yes, there’s a danger that the resilvering could put additional stress on your remaining disks and lead to a failure—that’s why RAIDZ1 isn’t recommended. The other option would be to buy two disks, back up your data, destroy the pool, and create a RAIDZ2 pool instead. This would be recommended in terms of redundancy, but of course you’d need a place to store the backup.

  • #6

Hi,

Aha, yes, ships in the night — sorry about that.

Hmm, ok, if I buy two disks — what did you mean by backup the data?

As in, import the ZFS pool as-is, and copy the data off that first? If I copy off all of the data first, will that not be similar load to doing the resilvering? Or is it less?

Or did you mean something else?

I recently purchased a 4TB Hitachi Deskstar 7200RPM (0S03666) for myself, I’m thinking of buying another of these to replace my parent’s drive. I assume there’s no issues with using this drive with FreeNAS?

Cheers,
Victor

  • #7

Sorry, double post — if a mod sees this, are they able to delete this post please? Thanks!

(I couldn’t see an option to delete a post, only edit).

Last edited: Mar 1, 2015

  • #8

Also, I figured I’d get the smartctl data off the two other drives whilst it’s booted up:

Code:

[root@freenas] ~# smartctl -a /dev/ada0
smartctl 6.3 2014-07-26 r3976 [FreeBSD 9.3-RELEASE-p10 amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     Hitachi HDS723030BLE640
Serial Number:    MS79215X046YRA
LU WWN Device Id: 5 000cca 37ec1eb9b
Firmware Version: MX6OAAB0
User Capacity:    3,000,592,982,016 bytes [3.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sun Mar  1 04:30:09 2015 PST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84)    Offline data collection activity
                    was suspended by an interrupting command from host.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever
                    been run.
Total time to complete Offline
data collection:         (23943) seconds.
Offline data collection
capabilities:             (0x5b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine
recommended polling time:     (   1) minutes.
Extended self-test routine
recommended polling time:     ( 399) minutes.
SCT capabilities:           (0x003d)    SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   139   139   054    Pre-fail  Offline      -       73
  3 Spin_Up_Time            0x0007   180   180   024    Pre-fail  Always       -       348 (Average 289)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   124   124   020    Pre-fail  Offline      -       33
  9 Power_On_Hours          0x0012   098   098   000    Old_age   Always       -       15491
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       24
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       153
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       153
194 Temperature_Celsius     0x0002   181   181   000    Old_age   Always       -       33 (Min/Max 21/42)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Code:

[root@freenas] ~# smartctl -a /dev/ada1
smartctl 6.3 2014-07-26 r3976 [FreeBSD 9.3-RELEASE-p10 amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     Hitachi HDS723030BLE640
Serial Number:    MS79215X03WEAA
LU WWN Device Id: 5 000cca 37ec1c415
Firmware Version: MX6OAAB0
User Capacity:    3,000,592,982,016 bytes [3.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sun Mar  1 04:30:15 2015 PST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84)    Offline data collection activity
                    was suspended by an interrupting command from host.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever
                    been run.
Total time to complete Offline
data collection:         (22508) seconds.
Offline data collection
capabilities:             (0x5b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine
recommended polling time:     (   1) minutes.
Extended self-test routine
recommended polling time:     ( 376) minutes.
SCT capabilities:           (0x003d)    SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   139   139   054    Pre-fail  Offline      -       72
  3 Spin_Up_Time            0x0007   175   175   024    Pre-fail  Always       -       286 (Average 369)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   124   124   020    Pre-fail  Offline      -       33
  9 Power_On_Hours          0x0012   098   098   000    Old_age   Always       -       17888
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       24
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       429
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       429
194 Temperature_Celsius     0x0002   181   181   000    Old_age   Always       -       33 (Min/Max 21/44)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

  • #9

I can see you don’t have any scheduled SMART tests. You should have setup the SMART tests right after you put the NAS online, think about doing that after you’ve recovered your files ;)

The CAM status errors are likely due to the failing drive BTW.

  • #10

Just thought I’d post an update:

Code:

[root@freenas] ~# zpool status datastore
  pool: datastore
 state: ONLINE
status: Some supported features are not enabled on the pool. The pool can
    still be used, but some features are unavailable.
action: Enable all features using 'zpool upgrade'. Once this is done,
    the pool may no longer be accessible by software that does not support
    the features. See zpool-features(7) for details.
  scan: resilvered 1.73T in 4h44m with 0 errors on Mon Mar  2 09:32:07 2015
config:

    NAME                                            STATE     READ WRITE CKSUM
    datastore                                       ONLINE       0     0     0
     raidz1-0                                      ONLINE       0     0     0
       gptid/b9f41d31-67ca-11e2-b39e-a0b3cce4fa18  ONLINE       0     0     0
       gptid/48ffb4af-c0da-11e4-b365-a0b3cce4fa18  ONLINE       0     0     0
       gptid/baf7d360-67ca-11e2-b39e-a0b3cce4fa18  ONLINE       0     0     0

errors: No known data errors

So it seems to be sorted =), thanks to all involved for your advice — and yes, I’ll look into getting some SMART tests scheduled. Will need a SMTP service to use for the mail alerts, I may look into using Mailgun or something like that (I use 2FA for Gmail, which means I’d need to setup an application password to use it as my SMTP service).

On the failing disks, it turns out it is out of warranty, unfortunately — the Toshiba DT01ACA300 only has 2-years warranty, not 3 — otherwise it would still be covered under warranty.

The WD (Hitachi) version of the Deskstar I just bought has 3 years warranty, lol, not sure what that says about their confidence in the drives…lol.

Содержание

  1. Solved CAM status: ATA Status Error
  2. Ordoban
  3. SirDice
  4. Ordoban
  5. Ordoban
  6. worldi
  7. Ordoban
  8. Terry_Kennedy
  9. Ordoban
  10. emmex
  11. CAM status: ATA Status Error
  12. SmallGuy
  13. cyberjock
  14. SmallGuy
  15. cyberjock
  16. UFS CAM status : ATA Status Error while I try to boot FreeBSD in multi-user-mode.
  17. ziomario
  18. diizzy
  19. ziomario
  20. eternal_noob
  21. LiveCDs – smartmontools
  22. grahamperrin@
  23. ziomario
  24. System doesn’t recognize hdd after boot
  25. Vovas
  26. Vovas
  27. Sebulon
  28. Vovas
  29. Sebulon
  30. Upgrade from 9.2 to 9.3 — CAM status: ATA Status Error on /dev/ada1 (HP 40L, Toshiba DT01ACA300)
  31. victorhooi
  32. victorhooi

Solved CAM status: ATA Status Error

Ordoban

On one server I got some disk related errors. There are not many (the shown dmesg(1) is about 5 months), but frightening anyway. I have no data loss until now, many thanks to mirrored ZFS. Does this messages point to a real harddisk controller failure? Or only a bad configured kernel module? Are there some kernel-parameters to tweak? Something like bus timing settings?

Reactions: Nyantastic

SirDice

Administrator

Re: CAM status: ATA Status Error

Looking at the lifetime (982 days) and the type of errors my first guess would be a disk that’s close to dying.

Ordoban

Re: CAM status: ATA Status Error

Both at the same time?

Re: CAM status: ATA Status Error

Ordoban

Re: CAM status: ATA Status Error

This are 2 different errors: the «CAM status» one and the «swap_pager» one. The first are rare and seems not critical, but the second one leads me to a real disk fault. The Reallocated_Sector_Ct of the first disk is jumped up from 0 to

20k at last 2 days! The disk is replaced now and all is fine.

(How i can mark this thread as solved?)

worldi

Re: CAM status: ATA Status Error

Ordoban

Terry_Kennedy

Re: CAM status: ATA Status Error

This does seem a bit fishy:

Ordoban

emmex

Re: CAM status: ATA Status Error

This does seem a bit fishy:

You don’t indicate the drive manufacturer / model, but it seems odd that 2 drives had an error on the same disk block, and that block just happened to be the «magic» last addressable LBA in pre-LBA48 mode. In theory, a drive should reject a command to access a block outside its capacity, but it may be that the model you’re using barfs and logs a SMART error instead.

Источник

CAM status: ATA Status Error

SmallGuy

Then I have proceed to a short follwing by a long SMART test and all seems to be fine:

Find also the gpart list (I don’t have enough knoledge to extract any information from that):

I have try to change the SATA cable and I have test the RAM with Memetest and nothing to notice.
I don’t understand what’s happend, and what to do now.
Has somebody any idea?

cyberjock

Inactive Account

I got nothing. Everything looks fine. Even the cable error values are zero per SMART. So you should start looking elsewhere. Maybe a crappy power supply or something?

You have made the choice to buy an Asus desktop motherboard, which is not exactly a choice that is even remotely recommended around here. You also didn’t go with ECC RAM, not recommended around here. Granted, ECC shouldn’t be making drives sound funny. But there’s 2 ways to build a server. The way we recommend and any other way. The recommended way is obviously easier as you KNOW everything should work properly. As soon as you want to go any other way you accept certain risks.

Unfortunately, you are on your own at this point as none of your info gives me any impression anything is wrong. This is why I think its smarter for people just learning FreeNAS/FreeBSD to stick to recommended hardware as you are not familiar enough with the OS to go out buying random hardware. This isn’t Windows. 100% of your hardware won’t work in FreeBSD. Even if it works, that doesn’t mean it will work properly or even work reliably.

SmallGuy

I got nothing. Everything looks fine. Even the cable error values are zero per SMART. So you should start looking elsewhere. Maybe a crappy power supply or something?

You have made the choice to buy an Asus desktop motherboard, which is not exactly a choice that is even remotely recommended around here. You also didn’t go with ECC RAM, not recommended around here. Granted, ECC shouldn’t be making drives sound funny. But there’s 2 ways to build a server. The way we recommend and any other way. The recommended way is obviously easier as you KNOW everything should work properly. As soon as you want to go any other way you accept certain risks.

Unfortunately, you are on your own at this point as none of your info gives me any impression anything is wrong. This is why I think its smarter for people just learning FreeNAS/FreeBSD to stick to recommended hardware as you are not familiar enough with the OS to go out buying random hardware. This isn’t Windows. 100% of your hardware won’t work in FreeBSD. Even if it works, that doesn’t mean it will work properly or even work reliably.

cyberjock

Inactive Account

1. Sure, but Asus adds their own stuff to the board. Are you 100% sure that Asus own additions to the board aren’t responsible? Hint: You cannot answer that with a «yes» unless you have a duplicate system with the exact same hardware and BIOS version and it doesn’t do it.
2. No, but that error is usually caused by an issue like a bad hard drive. In your case it gives a generic ATA status error and no disk. This makes me thing something is up with your SATA or something is interfering with your SATA and controller causing the problem.
3. If it only appears after a disk replacement then I’d ignore it. It should not be giving that error on disk replacement if your hardware supports hotswap. Hot plugging and hot swapping will depend on if you hardware supports it and if the FreeBSD driver supports it. Hot plugging is NOT the same as hot swapping.
4. You’re right. And that’s why I think it might be an unspecified error with your hardware. Unfortunately, you are totally on your own since you aren’t using hardware that’s been used alot. If you had a board like mine and still had the error at least I(or someone on the forums) could vouch that it *should* be working properly with a given version. But we can’t since you are on an island by yourself regarding the hardware. There’s nobody to vouch that your exact hardware should work.
5. If you look at gpart list‘s output you’ll see a line for each disk that says «state: OK». That means it is definitely NOT a partition problem. Of course, the error made it obvious(in my opinion) that it wasn’t a partition problem, but that state: OK makes it a «for certain» condition.

And regarding Haswell, I don’t recommend them yet because of those issues. Those issues are similar to yours in that the error messages are unspecified and you’d have to figure it out by process of elimination or by finding someone with the same error(remember, you can’t do this because of your hardware).

Unless you can provide more specific conditions on which the error occurs you are pretty much on your own to find the cause. Sorry.

Источник

UFS CAM status : ATA Status Error while I try to boot FreeBSD in multi-user-mode.

ziomario

Something bad happened to the disk where I was working. I have never seen the error before and I don’t know what to do. I tried to fix the error with fsck -y /dev/ada2p2 (the main partition) in single user mode but it didn’t work. Very odd error. I can boot FreeBSD in single user mode but I can’t boot it multi user mode. I did the check several times,only the first time it cleaned the disk. the other times it was already cleaned. The error is still there. fsck is not able to fix that kind of error. I suspect that there is a bug behind that.

diizzy

ziomario

eternal_noob

LiveCDs – smartmontools

Reactions: ziomario and richardtoohey2

grahamperrin@

Single user mode requires reading from a subset of the file system.

An exit (from single user mode) to multi-user mode will require reading from a larger set, and some writes. If it’s a hard disk, there might be a problem with an area of the disk that’s occupied by all or part of a file in the larger set.

If I’m not mistaken, your photograph shows failure before multi-user mode. Do check the disk but also, check cabling and other hardware.

If you temporarily disconnect:

  • the other two or more internal disks
  • all non-essential peripherals (leaving only the keyboard, mouse and display)

– then can the computer boot in multi-user mode from the suspect disk alone?

ziomario

-–> then can the computer boot in multi-user mode from the suspect disk alone ?

No. The other disks are good. The only damaged disk is the disk where I have installed FreeBSD. If I was in Linux,I would have used the USB Live cd. But It seems that for FreeBSD there isn’t any Live cd. (For Live CD I mean the full OS which run on the USB stick). Someone should create it. Its useful

Источник

System doesn’t recognize hdd after boot

Vovas

Vovas

Sebulon

could you please also share the output of:
# gpart show

and:
# zdb | grep ashift

Vovas

Sebulon

Thank you. You have different «problems» also, which are unlikely contributors to your problem, but I can start by explaining it to you at least.

The disks you have used to build your pool with are «Advanced Format(AF)»-drives that have 4k large physical sectors, but they lie and present themselves as 512b, as to not confuse lesser knowing beeings, like Windows XP .e.g. When you create the pool with these drives raw, ZFS sends all IO unaligned which severely impacts performance. So the first thing you have to do is to partition the hard drives aligned to 1MiB.

The second problem is the ashift-value that ZFS uses to determine the smallest IO it can send. «ashift: 9» stands for «I will send 512b IO´s», while «ashift: 12» stands for «I will send 4k IO´s», which is what these drives like, since that´s what they really are.

Remediation; Backup and recreate. Sorry, there´s no other way.

Aligned partitioning:
# gpart create -s gpt ada(1,2,3)
# gpart add -t freebsd-zfs -b 2048 -a 4k -l disk(1,2,3) ada(1,2,3)

Pool creation with «ashift: 12»:
# gnop create -S 4096 /dev/gpt/disk1
# zpool create storage raidz gpt/disk1[b].nop[/b] gpt/disk2 gpt/disk3
# zpool export storage
# gnop destroy /dev/gpt/disk1.nop
# zpool import -d /dev/gpt storage

Will land you with aligned partitions and ZFS sending 4k IO´s for optimal performance.

But there´s another «snag» about these drives, and that is their firmware that says «park the read-head if idle for 5 secs». The problem with that is that ZFS is a transactional database that buffers IO for about 5 secs between flushes, which means that these drives parks and unparks their heads a gazillion times more than any other drive used with ZFS. Although the specification says that they should be good for about a gazillion times parking, but it may cause unnecessary ware for them to be acting like that. So there is some sort of DOS firmware modifier that removes that behavior. I think it is called «wdidle». Might be worth looking in to.

About your original issue, maybe BIOS is wonky? Make sure it´s set in AHCI-mode and that all SATA are treated equal.

Источник

Upgrade from 9.2 to 9.3 — CAM status: ATA Status Error on /dev/ada1 (HP 40L, Toshiba DT01ACA300)

victorhooi

Contributor

I have a HP Proliant N40L Microserver, that previously has FreeNAS 92

It has four SATA drives, and FreeNAS 9.2 (Beta, I can’t recall which build) installed on a USB stick.

I recently decided to wipe the USB stick, and install FreeNAS 9.3. release onto it.

However, during the boot, I’m getting a whole bunch of error messages about «CAM Status: ATA Status Error» and »
ATA status: 51 (DRDY SERV ERR), error: 40 (UNC )»
on what I believe is the USB stick (/dev/ada1 — the SATA drives shouldn’t have been mounted at this point).

I’ve tried two different USB sticks (one of which is known good, and the other is the one that was previously running 9.2 Beta successfully for several months), and it exhibits the same symptoms each time.

Eventually, it does finish booting, if you leave it long enough — however, then when you try to run the initial wizard from a web browser, it then prints out those errors again, and hangs.

Any thoughts on what’s going on, or what the next diagnosis steps might be?

victorhooi

Contributor

Damn, I’m silly — I’m fairly sure /dev/ada1 is was one of the SATA drives, not the USB stick. I just booted it up with all SATA drives ejected, and it booted up fine, no error messages.

Hmm, ok, that’s not good.

I have three SATA drives in them — this is an old NAS I had setup at my parent’s place, I was visiting today so I figured I’d upgrade it.

I am really hoping that I set it up in RAID-Z mode. otherwise I’m guessing I’m out of luck, right? Three disks, hmm, yeah, RAID-Z still works. right. ugh.

/dev/ada1 would put it as the second drive in the set — so slot 2? Or is the ordering of the device names not really related?

Should I boot up the machine with that disk ejected, and see how things go?

Would it be safe to do a ZFS import with only two drives, and see what happens there?

Or what else would a safe next step?

If it helps, the drives are Toshiba (Hitachi) DT01ACA300 3.0 TB drives.

Источник

July 11 2013, 11:04

Помогите разобраться в ошибке диска

FreeBSD 9.1. Периодически лезут ошибки вида

Jul 10 21:16:04 book-mf-1 kernel: (ada5:ahcich5:0:0:0): FLUSHCACHE48. ACB: ea 00 00 00 00 40 00 00 00 00 00 00
Jul 10 21:16:04 book-mf-1 kernel: (ada5:ahcich5:0:0:0): CAM status: ATA Status Error
Jul 10 21:16:04 book-mf-1 kernel: (ada5:ahcich5:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 04 (ABRT )
Jul 10 21:16:04 book-mf-1 kernel: (ada5:ahcich5:0:0:0): RES: 51 04 38 df f7 47 00 00 00 00 00
Jul 10 21:16:04 book-mf-1 kernel: (ada5:ahcich5:0:0:0): Retrying command
Jul 10 21:17:13 book-mf-1 kernel: ahcich5: Timeout on slot 23 port 0
Jul 10 21:17:13 book-mf-1 kernel: ahcich5: is 00000000 cs 00800000 ss 00000000 rs 00800000 tfd 10c1 serr 00000000 cmd 0004d717
Jul 10 21:17:13 book-mf-1 kernel: ahcich5: Error while READ LOG EXT
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 12 02 75 13 40 21 00 00 00 00 00
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): CAM status: ATA Status Error
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): ATA status: 00 ()
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): RES: 00 00 00 00 00 00 00 00 00 00 00
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): Retrying command
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 08 1c 75 13 40 21 00 00 00 00 00
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): CAM status: ATA Status Error
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): ATA status: 00 ()
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): RES: 00 00 00 00 00 00 00 00 00 00 00
Jul 10 21:17:13 book-mf-1 kernel: (ada5:ahcich5:0:0:0): Retrying command

Замена диска не привела к устранению ошибок. Контроллер на матери. Может ли это быть проблема с кабелем? что можно предпринять для уточнения ситуации (заменять материнскую плату, машину в сборе, государственный строй РФ, орбиту Земли не предлагать)?

Раз в сутки сервер требует перезагрузки

Модераторы: vadim64, terminus

Правила форума
Убедительная просьба юзать теги [cоde] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.

Денис

проходил мимо

Раз в сутки сервер требует перезагрузки

Доброго времени суток. Сервер — FreeBSD 9.1-RELEASE #0: Fri Sep 27 01:29:26 MSK 2013.
Система стоит на двух RAID

Код: Выделить всё

Name Status Components
mirror/boot COMPLETE ada0p1 (ACTIVE)
ada1p1 (ACTIVE)
mirror/swap COMPLETE ada0p2 (ACTIVE)
ada1p2 (ACTIVE)
mirror/root COMPLETE ada0p3 (ACTIVE)
ada1p3 (ACTIVE)
mirror/web COMPLETE ada2p1 (ACTIVE)
ada3p1 (ACTIVE)
mirror/storage COMPLETE ada2p2 (ACTIVE)
ada3p2 (ACTIVE)

Раз в сутки требует перезагрузки, причем примерно через 24 часа после предыдущего. Безошибочный способ nslookup — не может найти сервер. В логах ничего найти не могу, что могло бы подсказать в каком направлении искать. На сервере «крутится» все и почта и вэб и MySQl.
Еще один момент определить, что сервер «встал» можно по звуку — винты делают такой еле слышный «дзынкь», после этого проверяю nslookup, все отзыва нет. Подскажите пожалуйста где можно поискать причину.

Последний раз редактировалось f_andrey 2013-10-18 13:34:11, всего редактировалось 1 раз.

Причина: Автору. пожалуйста, выбирайте соответствующий раздел форума, оформляйте сообщение по человечески.


Хостинговая компания Host-Food.ru

Хостинг HostFood.ru

 

Услуги хостинговой компании Host-Food.ru

Хостинг HostFood.ru

Тарифы на хостинг в России, от 12 рублей: https://www.host-food.ru/tariffs/hosting/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2000 рублей (HP Proliant G5, Intel Xeon E5430 (2.66GHz, Quad-Core, 12Mb), 8Gb RAM, 2x300Gb SAS HDD, P400i, 512Mb, BBU):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/


Аватара пользователя

tom.cat

старшина
Сообщения: 446
Зарегистрирован: 2007-11-24 20:23:49
Откуда: Мытищи
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

tom.cat » 2013-10-18 14:49:06

snorlov писал(а):Как делаешь перезагрузку…

Reset button ?

When you see pigs fly it means Windows has become open source


Аватара пользователя

QweЯty

лейтенант
Сообщения: 796
Зарегистрирован: 2010-10-12 0:15:15
Откуда: Таганрог, Калининград
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

QweЯty » 2013-10-20 18:51:45

такс, в туже тему, тока разброс 3-5 суток, а бывает неделя…
перестает выдавать ip, отвечать по ssh, пинговаться… НО, судя по лампочкам работа продолжается…
в логах all.log

Oct 20 02:10:10 radist04ka named[6408]: client 80.77.172.138#62034 (xn--80aaasphcburb2bjg5q.su): query (cache) ‘xn--80aaasphcburb2bjg5q.su/SOA/IN’ denied
Oct 20 02:11:00 radist04ka /usr/sbin/cron[17823]: (root) CMD (/usr/local/etc/rrd/base/mem_update.sh)
Oct 20 02:11:00 radist04ka /usr/sbin/cron[17828]: (root) CMD (/usr/local/etc/rrd/base/net_graph.sh)
Oct 20 02:11:00 radist04ka /usr/sbin/cron[17830]: (operator) CMD (/usr/libexec/save-entropy)
Oct 20 02:11:00 radist04ka /usr/sbin/cron[17829]: (root) CMD (/usr/local/etc/rrd/base/net_update.sh)
Oct 20 02:11:00 radist04ka /usr/sbin/cron[17831]: (root) CMD (/usr/local/etc/rrd/base/cpu_graph.sh)
Oct 20 02:11:00 radist04ka /usr/sbin/cron[17834]: (root) CMD (/usr/local/etc/rrd/base/cpu_update.sh)
Oct 20 18:42:00 radist04ka syslogd: restart

Oct 20 18:42:00 radist04ka syslogd: kernel boot file is /boot/kernel/kernel
Oct 20 18:42:00 radist04ka kernel: Copyright (c) 1992-2013 The FreeBSD Project.
Oct 20 18:42:00 radist04ka kernel: Copyright (c) 1979, 1980, 1983, 1986, 1988, 1989, 1991, 1992, 1993, 1994
Oct 20 18:42:00 radist04ka kernel: The Regents of the University of California. All rights reserved.
Oct 20 18:42:00 radist04ka kernel: FreeBSD is a registered trademark of The FreeBSD Foundation.
Oct 20 18:42:00 radist04ka kernel: FreeBSD 9.1-STABLE #0: Sun Jul 28 15:55:49 FET 2013
Oct 20 18:42:00 radist04ka kernel: radist@radist04ka.localdoiman:/sys/i386/compile/RADIST.28.07.2013 i386
Oct 20 18:42:00 radist04ka kernel: gcc version 4.2.1 20070831 patched [FreeBSD]
Oct 20 18:42:00 radist04ka kernel: CPU: Intel(R) Pentium(R) 4 CPU 3.00GHz (3147.83-MHz 686-class CPU)
Oct 20 18:42:00 radist04ka kernel: Origin = «GenuineIntel» Id = 0xf34 Family = 0xf Model = 0x3 Stepping = 4

console.log

Oct 19 23:15:59 radist04ka kernel: Oct 19 23:15:59 radist04ka dhcpd: Dynamic and static leases present for 192.168.7.2.
Oct 19 23:15:59 radist04ka kernel: Oct 19 23:15:59 radist04ka dhcpd: Remove host declaration Loner-XP or remove 192.168.7.2
Oct 19 23:15:59 radist04ka kernel: Oct 19 23:15:59 radist04ka dhcpd: from the dynamic address pool for 192.168.7.0/24
Oct 19 23:45:59 radist04ka kernel: Oct 19 23:45:59 radist04ka dhcpd: Dynamic and static leases present for 192.168.7.2.
Oct 19 23:45:59 radist04ka kernel: Oct 19 23:45:59 radist04ka dhcpd: Remove host declaration Loner-XP or remove 192.168.7.2
Oct 19 23:45:59 radist04ka kernel: Oct 19 23:45:59 radist04ka dhcpd: from the dynamic address pool for 192.168.7.0/24
Oct 20 00:16:00 radist04ka kernel: Oct 20 00:16:00 radist04ka dhcpd: Dynamic and static leases present for 192.168.7.2.
Oct 20 00:16:00 radist04ka kernel: Oct 20 00:16:00 radist04ka dhcpd: Remove host declaration Loner-XP or remove 192.168.7.2
Oct 20 00:16:00 radist04ka kernel: Oct 20 00:16:00 radist04ka dhcpd: from the dynamic address pool for 192.168.7.0/24
Oct 20 18:42:00 radist04ka kernel: Setting hostuuid: 00020003-0004-0005-0006-000700080009.

Oct 20 18:42:00 radist04ka kernel: Setting hostid: 0x81f4ec68.
Oct 20 18:42:00 radist04ka kernel: Entropy harvesting: interrupts ethernet point_to_point kickstart.
Oct 20 18:42:00 radist04ka kernel: Starting file system checks:
Oct 20 18:42:00 radist04ka kernel: ** SU+J Recovering /dev/ada2p2
Oct 20 18:42:00 radist04ka kernel: ** Reading 33554432 byte journal from inode 4.
Oct 20 18:42:00 radist04ka kernel: ** Building recovery table.

dmesg.yesterday

(ada1:ata3:0:0:0): READ_DMA48. ACB: 25 00 bf 10 ff 40 73 00 00 00 00 01
(ada1:ata3:0:0:0): CAM status: ATA Status Error
(ada1:ata3:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 84 (ICRC ABRT )
(ada1:ata3:0:0:0): RES: 51 84 bf 10 ff 73 73 00 00 ef 00
(ada1:ata3:0:0:0): Retrying command
(ada1:ata3:0:0:0): READ_DMA48. ACB: 25 00 3f 46 a4 40 3c 00 00 00 00 01
(ada1:ata3:0:0:0): CAM status: ATA Status Error
(ada1:ata3:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 84 (ICRC ABRT )
(ada1:ata3:0:0:0): RES: 51 84 3f 46 a4 3c 3c 00 00 4f 00
(ada1:ata3:0:0:0): Retrying command
(ada1:ata3:0:0:0): READ_DMA48. ACB: 25 00 ff 5c c3 40 2b 00 00 00 00 01
(ada1:ata3:0:0:0): CAM status: ATA Status Error
(ada1:ata3:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 84 (ICRC ABRT )
(ada1:ata3:0:0:0): RES: 51 84 ff 5c c3 2b 2b 00 00 1f 00
(ada1:ata3:0:0:0): Retrying command
rl0: link state changed to DOWN
(ada1:ata3:0:0:0): READ_DMA48. ACB: 25 00 7f c2 7c 40 2f 00 00 00 a0 00
(ada1:ata3:0:0:0): CAM status: ATA Status Error
(ada1:ata3:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 84 (ICRC ABRT )
(ada1:ata3:0:0:0): RES: 51 84 7f c2 7c 2f 2f 00 00 0f 00
(ada1:ata3:0:0:0): Retrying command

потогает только отключение питания… рестарт буттон отключен в ядре)))

хм…. у меня что винт подыхает??????!!!!!!!!!!!!

Инженер не смотрит порно. Он ведет расчет бабы на усталость © Федор Сумкин
Изображение


Аватара пользователя

Dominator

мл. сержант
Сообщения: 123
Зарегистрирован: 2009-06-06 15:43:01
Откуда: Новосибирск/Кобург
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

Dominator » 2013-10-20 19:27:41

QweЯty писал(а):хм…. у меня что винт подыхает??????!!!!!!!!!!!!

Возможно, а CAM его добивает retry’ами. Я сразу на боевом севере (FreeBSD 9.1 amd64) CAM вырезал

Денис писал(а): Безошибочный способ nslookup — не может найти сервер.

/etc/rc.d/netif restart

Windows must die!


Аватара пользователя

QweЯty

лейтенант
Сообщения: 796
Зарегистрирован: 2010-10-12 0:15:15
Откуда: Таганрог, Калининград
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

QweЯty » 2013-10-20 20:12:41

Я сразу на боевом севере (FreeBSD 9.1 amd64) CAM вырезал

эм… а что это, что дает и как вырезать…

Инженер не смотрит порно. Он ведет расчет бабы на усталость © Федор Сумкин
Изображение


Аватара пользователя

QweЯty

лейтенант
Сообщения: 796
Зарегистрирован: 2010-10-12 0:15:15
Откуда: Таганрог, Калининград
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

QweЯty » 2013-10-20 22:35:27

———
#
# Areca 11xx and 12xx series of SATA II RAID controllers.
# CAM is required.
#
device arcmsr # Areca SATA II RAID

———————
#
# 3ware 9000 series PATA/SATA RAID controller driver and options.
# The driver is implemented as a SIM, and so, needs the CAM infrastructure.
#
options TWA_DEBUG # 0-10; 10 prints the most messages.
options TWA_FLASH_FIRMWARE # firmware image bundled when defined.
device twa # 3ware 9000 series PATA/SATA RAID
————-
#
# Adaptec FSA RAID controllers, including integrated DELL controllers,
# the Dell PERC 2/QC and the HP NetRAID-4M
device aac
device aacp # SCSI Passthrough interface (optional, CAM required)

# The ‘asr’ driver provides support for current DPT/Adaptec SCSI RAID
# controllers (SmartRAID V and VI and later).
# These controllers require the CAM infrastructure.
#
device asr

4ре места где встречает cam в notes…
но что за что отвечает….

правда в генерик есть:

cat GENERIC | grep CAM
options ATA_CAM # Handle legacy controllers with CAM
device ctl # CAM Target Layer
device aacp # SCSI passthrough for aac (requires CAM)

Инженер не смотрит порно. Он ведет расчет бабы на усталость © Федор Сумкин
Изображение


snorlov

подполковник
Сообщения: 3918
Зарегистрирован: 2008-09-04 11:51:25
Откуда: Санкт-Петербург

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

snorlov » 2013-10-21 8:19:14

QweЯty писал(а):

Я сразу на боевом севере (FreeBSD 9.1 amd64) CAM вырезал

эм… а что это, что дает и как вырезать…

Кабель еще поменяй…


Аватара пользователя

QweЯty

лейтенант
Сообщения: 796
Зарегистрирован: 2010-10-12 0:15:15
Откуда: Таганрог, Калининград
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

QweЯty » 2013-10-21 22:13:28

менял кабель(((
многа раз…

Инженер не смотрит порно. Он ведет расчет бабы на усталость © Федор Сумкин
Изображение


Аватара пользователя

QweЯty

лейтенант
Сообщения: 796
Зарегистрирован: 2010-10-12 0:15:15
Откуда: Таганрог, Калининград
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

QweЯty » 2013-10-29 19:20:50

в общем дело не в этом винте…
с 2013-10-21 23:13:28 +/- пара часов по сегодня работало без проблемного винта

в логах тоже тишина…

Инженер не смотрит порно. Он ведет расчет бабы на усталость © Федор Сумкин
Изображение


Аватара пользователя

Dominator

мл. сержант
Сообщения: 123
Зарегистрирован: 2009-06-06 15:43:01
Откуда: Новосибирск/Кобург
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

Dominator » 2014-02-15 14:56:30

QweЯty писал(а):

Я сразу на боевом севере (FreeBSD 9.1 amd64) CAM вырезал

эм… а что это, что дает и как вырезать…

В конфигах ядра все упоминание про CAM убираешь, заместо этого вводишь что-то вроде

Точнее не помню — загляни в дефолтный конфиг FreeBSD 8.0

Windows must die!


guest

проходил мимо

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

guest » 2014-02-15 17:32:16

Dominator писал(а):

QweЯty писал(а):

Я сразу на боевом севере (FreeBSD 9.1 amd64) CAM вырезал

эм… а что это, что дает и как вырезать…

В конфигах ядра все упоминание про CAM убираешь, заместо этого вводишь что-то вроде

Точнее не помню — загляни в дефолтный конфиг FreeBSD 8.0

бред, «cam» он вырезал…
«cam добивает диск ретраями» — видимо из лога, только слово retry поняли

CAM — Common Access Method, изначально разработан для SCSI устройств, но представляет из себя универсальный
метод доступа, новый ATA драйвер переписан с использованием CAM интерфейса


Аватара пользователя

Dominator

мл. сержант
Сообщения: 123
Зарегистрирован: 2009-06-06 15:43:01
Откуда: Новосибирск/Кобург
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

Dominator » 2014-02-16 7:10:40

guest писал(а):
бред, «cam» он вырезал…

Не знаю, как у кого, а у меня после этого намного меньше мусора стало в логах и бракованный винт смог отбекапировать. Так что, прежде чем бросаться громкими заявлениями, рекомендую проверить на тестовой машине сие действие.

P.S. guest, я вижу лишь твои эмоции, но не аргументы

Windows must die!


guest

проходил мимо

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

guest » 2014-02-16 12:31:59

Dominator писал(а):

guest писал(а):
бред, «cam» он вырезал…

Не знаю, как у кого, а у меня после этого намного меньше мусора стало в логах и бракованный винт смог отбекапировать. Так что, прежде чем бросаться громкими заявлениями, рекомендую проверить на тестовой машине сие действие.

P.S. guest, я вижу лишь твои эмоции, но не аргументы

какие эмоции и аргументы могут быть в ответ на бред.

Вы чисто для общего представления почитайте что есть CAM и подумайте как старый и новый ATA драйвера могут
влиять на HDD и портить их и меньше писать в логи.


Аватара пользователя

Dominator

мл. сержант
Сообщения: 123
Зарегистрирован: 2009-06-06 15:43:01
Откуда: Новосибирск/Кобург
Контактная информация:

Re: Раз в сутки сервер требует перезагрузки

Непрочитанное сообщение

Dominator » 2014-02-16 19:35:43

guest писал(а):Вы чисто для общего представления почитайте что есть CAM и подумайте как старый и новый ATA драйвера могут
влиять на HDD и портить их и меньше писать в логи.

Как бы это все красиво не было написано, без проверки в боевых условиях, это ничто. Я не привык верить написанному, пока сам не проверю. Такого засирания консоли я еще не видел, как это было с CAM.

После отката на старый драйвер, который был в восьмерке, было одно ругательное сообщение в консоли и всед за ним ругань mc, при помощи которого спасал то, что можно спасти. И самое главное, все было быстро, в отличие от cam, который после каждого битого блока «просирался» по 2-3 минуты

P.S. Я так сильно не ругался с 2009 года, когда дернул неотмонтированную флешку на 6.2 во время установки прог из портов и повредил конфигурацию оных. Поэтому, что бы там ни говорили, я с CAM больше не дружу — сразу под скальпель. Хотя признаюсь, у него есть удобные плюшки.

Windows must die!



0

0

Вдруг всё подвисло, непрекращающаяся активность винта,

странные звуки из него, через несколько минут прошло.

dmesg выдал:

ata5.00: exception Emask 0x0 SAct 0x0 SErr 0x80000 action 0x0

ata5.00: BMDMA stat 0x25

ata5: SError: { 10B8B }

ata5.00: cmd c8/00:18:bf:9a:e6/00:00:00:00:00/e0 tag 0 dma 12288 in

res 51/40:03:d4:9a:e6/00:00:00:00:00/e0 Emask 0x9 (media error)

ata5.00: status: { DRDY ERR }

ata5.00: error: { UNC }

ata5.00: configured for UDMA/133

ata5: EH complete

ata5.00: exception Emask 0x0 SAct 0x0 SErr 0x80000 action 0x0

ata5.00: BMDMA stat 0x25

ata5: SError: { 10B8B }

ata5.00: cmd c8/00:18:bf:9a:e6/00:00:00:00:00/e0 tag 0 dma 12288 in

res 51/40:03:d4:9a:e6/00:00:00:00:00/e0 Emask 0x9 (media error)

ata5.00: status: { DRDY ERR }

ata5.00: error: { UNC }

ata5.00: configured for UDMA/133

ata5: EH complete

ata5.00: exception Emask 0x0 SAct 0x0 SErr 0x80000 action 0x0

ata5.00: BMDMA stat 0x25

ata5: SError: { 10B8B }

ata5.00: cmd c8/00:18:bf:9a:e6/00:00:00:00:00/e0 tag 0 dma 12288 in

res 51/40:03:d4:9a:e6/00:00:00:00:00/e0 Emask 0x9 (media error)

ata5.00: status: { DRDY ERR }

ata5.00: error: { UNC }

ata5.00: configured for UDMA/133

ata5: EH complete

ata5.00: exception Emask 0x0 SAct 0x0 SErr 0x80000 action 0x0

ata5.00: BMDMA stat 0x25

ata5: SError: { 10B8B }

ata5.00: cmd c8/00:18:bf:9a:e6/00:00:00:00:00/e0 tag 0 dma 12288 in

res 51/40:03:d4:9a:e6/00:00:00:00:00/e0 Emask 0x9 (media error)

ata5.00: status: { DRDY ERR }

ata5.00: error: { UNC }

ata5.00: configured for UDMA/133

ata5: EH complete

ata5.00: exception Emask 0x0 SAct 0x0 SErr 0x80000 action 0x0

ata5.00: BMDMA stat 0x25

ata5: SError: { 10B8B }

ata5.00: cmd c8/00:18:bf:9a:e6/00:00:00:00:00/e0 tag 0 dma 12288 in

res 51/40:03:d4:9a:e6/00:00:00:00:00/e0 Emask 0x9 (media error)

ata5.00: status: { DRDY ERR }

ata5.00: error: { UNC }

ata5.00: configured for UDMA/133

ata5: EH complete

ata5.00: exception Emask 0x0 SAct 0x0 SErr 0x80000 action 0x0

ata5.00: BMDMA stat 0x25

ata5: SError: { 10B8B }

ata5.00: cmd c8/00:18:bf:9a:e6/00:00:00:00:00/e0 tag 0 dma 12288 in

res 51/40:03:d4:9a:e6/00:00:00:00:00/e0 Emask 0x9 (media error)

ata5.00: status: { DRDY ERR }

ata5.00: error: { UNC }

ata5.00: configured for UDMA/133

sd 4:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE,SUGGEST_OK

sd 4:0:0:0: [sda] Sense Key : Medium Error [current] [descriptor]

Descriptor sense data with sense descriptors (in hex):

72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00

00 e6 9a d4

sd 4:0:0:0: [sda] Add. Sense: Unrecovered read error — auto reallocate failed

end_request: I/O error, dev sda, sector 15112916

ata5: EH complete

sd 4:0:0:0: [sda] 312581808 512-byte hardware sectors (160042 MB)

sd 4:0:0:0: [sda] Write Protect is off

sd 4:0:0:0: [sda] Mode Sense: 00 3a 00 00

sd 4:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn’t support DPO or FUA

sd 4:0:0:0: [sda] 312581808 512-byte hardware sectors (160042 MB)

sd 4:0:0:0: [sda] Write Protect is off

sd 4:0:0:0: [sda] Mode Sense: 00 3a 00 00

sd 4:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn’t support DPO or FUA

и много такого же.

@sandy said in problems with the hard drive in the pfsense:

@dotdash is what I’m going to do but I wanted to know if there was another way to not have to install again and for services, thanks brother

«pfSense», that you installed from an ISO or USB drive on a drive (hard disk, SSD, whatever) needs a not-broken disk.

You can’t neither install Windows on it. Nor Debian, Mac OS (Apple) won’t work — their is nothing you can do with this drive.
This drive became a good paper-weight, or something like that. Or , if you have enough of them :
https://www.youtube.com/watch?v=BJhwhN3GNdY

Longer answer : it might be possible to use special hard drive test-software to mark bad sectors as definitely bad so they won’t get used by the drive any-more. That was a very valid reason to do so in the last century (the ’80and ’90).
These days, a drive cost as much as 5 Big MAC’s so nobody cares anymore.
Also : when drives start to loss sectors, more sectors will die soon.

Also : installing pfSense on a new drive : a couple of minutes or so — so why wait ??

pfSense has SMART capabilities included. Now you know why ^^

Автор Сообщение

Заголовок сообщения: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 5:31 pm 

Не в сети
Аватара пользователя



Зарегистрирован: Чт 20 фев, 2014 10:26 am
Сообщения: 75

Подскажите что с диском. Freebsd 9.2 на нем samba. Стали жаловаться что пишет нет места на шарах. Стал смотреть ls — половина папок input/output error. Ребутнул, при ребуте писал что secondary gpt corrupt, восстановил gpart recover. потом пишет not clean — прошелся fsck’ом — почистил. Ребутнул вроде все самонтировалось. но потом опять ребутал несколько раз — пишет dma read error — куча таких ошибок, также CAM status: ATA Status Error. В общем я думаю что диск посыпался (переезд был может долбанули в машине комп), он еще поскрипывает както нехорошо когда к нему чем нибудь обращаюсь. Сейчас из всей шары некоторых папок и файлов нет — перезагружу — уже других нет — все рандомно, диск сыпется?

Вернуться к началу

Профиль  

erema15

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 5:53 pm 

Не в сети



Зарегистрирован: Вт 17 авг, 2010 8:48 pm
Сообщения: 494
Откуда: Беларусь

Вернуться к началу

Профиль  

grayich

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 6:03 pm 



Зарегистрирован: Вт 10 авг, 2004 2:24 am
Сообщения: 3359
Откуда: Харьков

смарт глянь
ну и badblocks можно прогнать

Вернуться к началу

Профиль  

gmax007

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 6:28 pm 



Зарегистрирован: Чт 20 фев, 2014 10:26 am
Сообщения: 75

там смарт то уже говорит не знаю тип устройства а на бэд блоки может на ночь поставлю если сейчас подключусь к работе и вообще если там диск не отвалился полностью пока я домой ехал) такой вопрос: от перегрева может такое случится и на сколько критичен перегрев? обидно, хотел туда еще одну шару перелить гигов на 100 и с другим сервером rsynk сделать — неуспел)

Последний раз редактировалось gmax007 Пн 02 июн, 2014 6:42 pm, всего редактировалось 1 раз.

Вернуться к началу

Профиль  

grayich

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 6:39 pm 



Зарегистрирован: Вт 10 авг, 2004 2:24 am
Сообщения: 3359
Откуда: Харьков

не слышал такого, что б смарт нельзя было получить .. возможно он просто не активирован

Код:

smartctl -s on /dev/ad0 # включить
smartctl -a /dev/ad0 # текущая инфа
smartctl -t long /dev/ad0  # тест, после которого может значительно измениться инфа по smartctl -a /dev/ad0

/dev/ad0 естественно на свой заменить

может кабельконтролер полетели?
к другому тазику подключить не помешает

Вернуться к началу

Профиль  

gmax007

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 6:49 pm 



Зарегистрирован: Чт 20 фев, 2014 10:26 am
Сообщения: 75

смарт включен должен был быть, он мне постоянно логи слал на почту, его там никто не отключал. хз. сейчас зайти через путти не могу — там кирдык походу все отвалилось. ну вот бэкап залью им и буду этот комп тестировать до изнеможения и тазики менять. да кстати я его раскрывал — думал переткну кабеля. сата-питание прям в руках разлетелся наконечник пластмассовый) — поменял сразу но толку так и не было. Подскажите вообще насколько часто могут быть подобные проблемы связаны с памятью оперативной или БП — то есть хочу понять насколько опасно старые компы как сервера гонять

Вернуться к началу

Профиль  

grayich

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 7:02 pm 



Зарегистрирован: Вт 10 авг, 2004 2:24 am
Сообщения: 3359
Откуда: Харьков

по питанию часто проблемы для старых тазов, в остальном обычно нормально
часто кондёры вздуваются на матери и в БП, перепайка решает.

Вернуться к началу

Профиль  

xemul

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 7:37 pm 

Не в сети



Зарегистрирован: Ср 14 окт, 2009 2:26 pm
Сообщения: 617

Про электролиты на мамке и в БП Вам уже сказали.
Проверьте также состояние контактов на плате контроллера диска. Бита Torex T9 под рукой найдётся?

Гонять любые тесты (даже на чтение) при непонятном состоянии железа настоятельно не рекомендую.

Вернуться к началу

Профиль  

gmax007

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 7:54 pm 



Зарегистрирован: Чт 20 фев, 2014 10:26 am
Сообщения: 75

биту могу у кореша попросить такую. надо начальство на новый комп, пару дисков и райд контроллер разводить, про сервер уж молчу — нищета же.
Кстати про непонятное состояние железа, когда первый раз я комп перезагружал было зависание на самом первом этапе до начала POST на картинке вендора материнки. это из-за чего бывает? ну потом на этом месте не висло. а вообще какие жесткие диски посоветуете брать естественно не энтерпрайзес-уровня, ну вообще по надежности для самба-сервера на фряхе небольшой конторы

Вернуться к началу

Профиль  

grayich

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 8:10 pm 



Зарегистрирован: Вт 10 авг, 2004 2:24 am
Сообщения: 3359
Откуда: Харьков

зависания на посте, может питание, может чип

Вернуться к началу

Профиль  

xemul

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 8:14 pm 

Не в сети



Зарегистрирован: Ср 14 окт, 2009 2:26 pm
Сообщения: 617

Телепатически — на 99% проблемы с питанием, и именно с электролитами на мамке.
Из ширпотребных дисков за последние годы у меня, пожалуй, наиболее положительная статистика по WD Green (если не забыть на них отключить «зелёный» таймаут). Из 3 дисков в RAIDZ и 4 ГБ памяти получается дешёвая (домашняя) файлопомойка.

Вернуться к началу

Профиль  

gmax007

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Пн 02 июн, 2014 9:46 pm 



Зарегистрирован: Чт 20 фев, 2014 10:26 am
Сообщения: 75

я вот собственно и упоминал питание, потому диск не так уж давно и куплен и вечно там дохнет что-то. причем пару лет назад на том компе был другой диск был, который при мне же полетел. стоял тогда CentOS 5. Там какая то беда вечно на том компе. на вид то кондеры ничо вроде, но понятно чтобы был вердикт нужно мерить все цепи питания и ключевые элементы. комп старье проще выкинуть. потом с ним беда была сломалось крепление для cpu_fan — херня — я его прям к плате привинтил. короче этот компьютер еще тот «выживальщик»)). Зеленый таймаут, это всмысле что такое, с прошивкой диска что-то связано? насчет домашней, у меня около 30 «домочадцев» пользуют помойку, вот приведите на ваш взгляд примерную конфу железа на 30 человек для фряхи и самбы. 4 гб памяти — не не слышал)

Вернуться к началу

Профиль  

xemul

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Вт 03 июн, 2014 11:26 am 

Не в сети



Зарегистрирован: Ср 14 окт, 2009 2:26 pm
Сообщения: 617

Чтобы был вердикт, все цепи «мерить» не надо. Достаточно немного потыкать осциллографом.
Верхняя часть старых процовых сокетов (с ушами для крепления кулера) легко заменяется. Прикрутить кулер к мамке — тоже вариант, — каждый ССЗБ.
Ваш рассказ в духе «А в остальном всё хорошо» захватывает, жду развития интриги.
Серия WD Green паркует головки и тормозит шпиндель при отсутствии обращений в течение программируемого таймаута (по умолчанию, по-моему, 8 с), который можно отключить. Гуглите wdidle на сайте WD.
За конфигурацию ничего не скажу, т.к. критерия «30 «домочадцев»» недостаточно даже для выбора офисной мебели.

На клаве есть разные полезные кнопки типа Shift, Enter, … Не стесняйтесь их использовать.

Вернуться к началу

Профиль  

gmax007

Заголовок сообщения: Re: Сыпется диск?

СообщениеДобавлено: Вт 03 июн, 2014 1:59 pm 



Зарегистрирован: Чт 20 фев, 2014 10:26 am
Сообщения: 75

Забрал комп из серверной, диск горячий как ад, остыл, загрузился без ошибок все замонтировалось, прогнал на бэды с помощью dd rescue — err 0. На сколько я понял у меня он мозги крутил из-за перегрева

Вернуться к началу

Профиль  

Кто сейчас на конференции

Зарегистрированные пользователи: Bing [Bot]

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Яндекс.Метрика

Понравилась статья? Поделить с друзьями:
  • Ata readsysinfo13 failed error 0x51 phison not detected 2 exit
  • Ata readsysinfo13 failed error 0x51 ata readinfoblock28 failed error 0x51
  • Ata readinfoblock failed error 0x51
  • Ata readinfoblock failed error 0x21
  • Ata read dma error