Kernel mce hardware error machine check events logged

Недавно мы рассмотрели ODROID-H2 с Ubuntu 19.04 и заметили некоторые сообщения об ошибках в журнале ядра одноплатного компьютера Intel Celeron J4105 при выполнении теста SBC-Bench: …

Недавно мы рассмотрели ODROID-H2 с Ubuntu 19.04 и заметили некоторые сообщения об ошибках в журнале ядра одноплатного компьютера Intel Celeron J4105 при выполнении теста SBC-Bench: 

[180422.405294] mce: [Hardware Error]: Machine check events logged

[180425.656449] mce: [Hardware Error]: Machine check events logged

[180483.582825] mce_notify_irq: 17 callbacks suppressed

[180483.582827] mce: [Hardware Error]: Machine check events logged

[180484.991484] mce: [Hardware Error]: Machine check events logged

[180594.700684] mce_notify_irq: 13 callbacks suppressed

[180594.700686] mce: [Hardware Error]: Machine check events logged

[180858.202115] mce: [Hardware Error]: Machine check events logged

[181178.047031] mce: [Hardware Error]: Machine check events logged

Не понятно, что делать с этими ошибками, но нам сказали, что мы получим более подробную информацию с помощью mcelog, который можно установить следующим образом: 

Есть только одна маленькая проблема: его нет в репозитории Ubuntu 19.04, а в отчете об ошибке упоминается, что mcelog устарел, и его необходимо удалить из Ubuntu 18.04 Bionic. Вместо этого нам сообщают, что функциональность пакета mcelog была заменена на rasdaemon.

Но, прежде чем изучать утилиты, давайте выясним, что такое Machine Check Exception (MCE) из ArchLinux Wiki:

Machine Check Exception  (MCE) — это ошибка, генерируемая ЦП, когда ЦП обнаруживает, что произошла аппаратная ошибка или сбой.

Machine Check Exception (MCE) могут возникать по разным причинам: от нежелательных или не соответствующих напряжений от источника питания, от космического излучения, изменяющего биты в модулях памяти DIMM или ЦП, или от других различных сбоев, включая сбой программного обеспечения вызывающий аппаратные ошибки.

Аппаратную ошибку, вероятно, следует воспринимать всерьез. Давайте рассмотрим, как запустить инструменты. Сначала попытаемся установить mcelog из Ubuntu 16.04: 

wget  http : / / archive .ubuntu .com / ubuntu / pool / universe / m / mcelog / mcelog_128 + dfsg 1_amd64.deb

sudo  dpkg   i   mcelog_128 + dfsg 1_amd64.deb

Отлично!  Запустим несколько команд: 

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

sudo mcelog

[sudo] password for odroid:

mcelog: Family 6 Model 7a CPU: only decoding architectural errors

mcelog: warning: 32 bytes ignored in each record

mcelog: consider an update

odroid@ODROIDH2:~$ sudo mcelog client

Memory errors

SOCKET 1 CHANNEL 5 DIMM 0

DMI_NAME «A1_DIMM0» DMI_LOCATION «A1_BANK0»

corrected memory errors:

0 total

0 in 24h

uncorrected memory errors:

0 total

0 in 24h

SOCKET 1 CHANNEL 5 DIMM 1

DMI_NAME «A1_DIMM1» DMI_LOCATION «A1_BANK1»

corrected memory errors:

0 total

0 in 24h

uncorrected memory errors:

0 total

0 in 24h

Ничего интересного,  файл /var/log/mcelog запущен, и мы можем увидеть подробности об ошибках:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

cat  /var/log/mcelog

mcelog: Family 6 Model 7a CPU: only decoding architectural errors

Hardware event. This is not a software error.

MCE 0

CPU 0 BANK 1 TSC bd2ee6710

TIME 1563095601 Sun Jul 14 16:13:21 2019

MCG status:

MCi status:

Corrected error

Error enabled

Threshold based error status: green

MCA: corrected filtering (some unreported errors in same region)

Generic CACHE Level2 Generic Error

STATUS 902000460082110a MCGSTATUS 0

MCGCAP c07 APICID 0 SOCKETID 0

CPUID Vendor Intel Family 6 Model 122

...

Попробуем также рекомендуемый rasdaemon, чтобы увидеть, сможем ли мы получить аналогичные детали.

Установка: 

sudo apt install rasdaemon

Похоже, что служба не запустится автоматически после установки, может потребоваться перезагрузка или просто выполнить следующую команду: 

Выполняем несколько команд, и вначале нам показалось, что может понадобиться какой-то драйвер: 

rasmcctl mainboard

rasmcctl: mainboard: HARDKERNEL model ODROIDH2

sudo rasmcctl status

rasmcctl: drivers not loaded.

Это должно быть связано с драйверами EDAC, которые используются для памяти ECC в соответствии с соединением в Grokbase. Процессоры Gemini Lake не поддерживают память ECC, поэтому, вероятно, она нам не понадобится.

Запустим еще одну команду, чтобы показать сводку ошибок, и получаем: 

sudo rasmcctl summary

No Memory errors.

No PCIe AER errors.

No Extlog errors.

MCE records summary:

12 corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error errors

12-ая исправленная ошибка, связанная с кешем L2. Мы можем получить полную информацию с помощью соответствующей команды: 

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

sudo rasmcctl errors

No Memory errors.

No PCIe AER errors.

No Extlog errors.

MCE events:

1 20190715 20:41:09 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x942000460082110a, addr=0x243e9f840, tsc=0x8b99a7f84108, walltime=0x5d2c8276, cpuid=0x000706a1, bank=0x00000001

2 20190716 01:34:09 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x942000460082110a, addr=0x24b9df840, tsc=0xa38afb430944, walltime=0x5d2cc722, cpuid=0x000706a1, bank=0x00000001

3 20190716 01:50:08 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000420082110a, tsc=0xa4d95741ee28, walltime=0x5d2ccae1, cpuid=0x000706a1, bank=0x00000001

4 20190716 01:50:08 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000420082110a, tsc=0xa4d957436320, walltime=0x5d2ccae1, cpuid=0x000706a1, bank=0x00000001

5 20190716 01:50:08 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000420082110a, tsc=0xa4d957451d82, walltime=0x5d2ccae1, cpuid=0x000706a1, bank=0x00000001

6 20190716 01:50:08 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000420082110a, tsc=0xa4d957456482, walltime=0x5d2ccae1, cpuid=0x000706a1, bank=0x00000001

7 20190716 03:20:09 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000400082110a, tsc=0xac3468f91976, walltime=0x5d2cdffa, cpuid=0x000706a1, bank=0x00000001

8 20190716 03:20:09 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000400082110a, tsc=0xac3468fb7a3a, walltime=0x5d2cdffa, cpuid=0x000706a1, bank=0x00000001

9 20190716 15:08:09 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000460082110a, tsc=0xe60f3181c782, walltime=0x5d2d85ea, cpuid=0x000706a1, bank=0x00000001

10 20190716 15:08:09 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000460082110a, tsc=0xe60f31852002, walltime=0x5d2d85ea, cpuid=0x000706a1, bank=0x00000001

11 20190717 02:52:09 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x942000460082110a, addr=0x249c5f840, tsc=0x11f964ae442b2, walltime=0x5d2e2aea, cpuid=0x000706a1, bank=0x00000001

12 20190717 15:24:09 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000440082110a, tsc=0x15d0984e5de54, walltime=0x5d2edb2a, cpuid=0x000706a1, bank=0x00000001

Статус зеленый, что означает, что все по-прежнему работает, но утилита сообщает о «большом количестве исправленных ошибок кэша» и «система работает, но может вскоре привести к неисправленным ошибкам» (см.Исходный код). Это происходит несколько раз в день, и не понятно, что можно сделать с кешем, поскольку его нельзя изменить, так как он встроен в процессор, возможно, это просто проблема с процессором, который мы используем. Если у кого-то работает ODROID-H2, может быть полезно проверить журнал ядра с помощью dmesg, чтобы увидеть, есть ли у вас такие же ошибки. Если да, укажите также, у вас плата из первой партии (ноябрь 2018 г.) или одна из новых плат ODROID-H2 Rev B.

Выражаем свою благодарность источнику из которого взята и переведена статья, сайту cnx-software.com.

Оригинал статьи вы можете прочитать здесь.

Machine Check Exception Error Linux

I recently reviewed ODROID-H2 with Ubuntu 19.04, and noticed some errors messages in the kernel log of the Intel Celeron J4105 single board computer while running SBC-Bench benchmark:

[180422.405294] mce: [Hardware Error]: Machine check events logged

[180425.656449] mce: [Hardware Error]: Machine check events logged

[180483.582825] mce_notify_irq: 17 callbacks suppressed

[180483.582827] mce: [Hardware Error]: Machine check events logged

[180484.991484] mce: [Hardware Error]: Machine check events logged

[180594.700684] mce_notify_irq: 13 callbacks suppressed

[180594.700686] mce: [Hardware Error]: Machine check events logged

[180858.202115] mce: [Hardware Error]: Machine check events logged

[181178.047031] mce: [Hardware Error]: Machine check events logged

I did not know what do make of those errors, but I was told I would get more details with mcelog which can be installed as follows:

There’s just one little problem: it’s not in Ubuntu 19.04 repository, and a bug report mentions mcelog is not deprecated, and remove from Ubuntu 18.04 Bionic onwards. Instead, we’re being told the mcelog package functionality has been replaced by rasdaemon.

But before looking into the utilities, let’s find out what Machine Check Exception (MCE) is all about from ArchLinux Wiki:

A machine check exception (MCE) is an error generated by the CPU when the CPU detects that a hardware error or failure has occurred.

Machine check exceptions (MCEs) can occur for a variety of reasons ranging from undesired or out-of-spec voltages from the power supply, from cosmic radiation flipping bits in memory DIMMs or the CPU, or from other miscellaneous faults, including faulty software triggering hardware errors.

Hardware error should probably be taken seriously. Let’s investigate how to run the tools. First, I try to install mcelog from Ubuntu 16.04:

wget http://archive.ubuntu.com/ubuntu/pool/universe/m/mcelog/mcelog_128+dfsg1_amd64.deb

sudo dpkg i mcelog_128+dfsg1_amd64.deb

Oh good! It could install… Let’s run some commands:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

sudo mcelog

[sudo] password for odroid:

mcelog: Family 6 Model 7a CPU: only decoding architectural errors

mcelog: warning: 32 bytes ignored in each record

mcelog: consider an update

odroid@ODROIDH2:~$ sudo mcelog client

Memory errors

SOCKET 1 CHANNEL 5 DIMM 0

DMI_NAME «A1_DIMM0» DMI_LOCATION «A1_BANK0»

corrected memory errors:

0 total

0 in 24h

uncorrected memory errors:

0 total

0 in 24h

SOCKET 1 CHANNEL 5 DIMM 1

DMI_NAME «A1_DIMM1» DMI_LOCATION «A1_BANK1»

corrected memory errors:

0 total

0 in 24h

uncorrected memory errors:

0 total

0 in 24h

Nothing interesting shows up here, but the file /var/log/mcelog is now up, and we can see details about the errors:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

cat  /var/log/mcelog

mcelog: Family 6 Model 7a CPU: only decoding architectural errors

Hardware event. This is not a software error.

MCE 0

CPU 0 BANK 1 TSC bd2ee6710

TIME 1563095601 Sun Jul 14 16:13:21 2019

MCG status:

MCi status:

Corrected error

Error enabled

Threshold based error status: green

MCA: corrected filtering (some unreported errors in same region)

Generic CACHE Level2 Generic Error

STATUS 902000460082110a MCGSTATUS 0

MCGCAP c07 APICID 0 SOCKETID 0

CPUID Vendor Intel Family 6 Model 122

...

But let’s also try the recommended rasdaemon to see if we can get similar details.

Installation:

sudo apt install rasdaemon

It looks like the service will not start automatically upon installation, so a reboot may be needed, or simply run the following command:

I ran a few commands and at first, it looked like some driver may be needed:

rasmcctl mainboard

rasmcctl: mainboard: HARDKERNEL model ODROIDH2

sudo rasmcctl status

rasmcctl: drivers not loaded.

This should be related to EDAC drivers that are used for ECC memory according to a thread on Grokbase. Gemini Lake processors do not support ECC memory, so I probably don’t need it.

Running one more command to show the summary of errors, and we’re getting somewhere:

sudo rasmcctl summary

No Memory errors.

No PCIe AER errors.

No Extlog errors.

MCE records summary:

12 corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error errors

12 corrected error related to the L2 cache. We can get the full details with the appropriate command:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

sudo rasmcctl errors

No Memory errors.

No PCIe AER errors.

No Extlog errors.

MCE events:

1 20190715 20:41:09 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x942000460082110a, addr=0x243e9f840, tsc=0x8b99a7f84108, walltime=0x5d2c8276, cpuid=0x000706a1, bank=0x00000001

2 20190716 01:34:09 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x942000460082110a, addr=0x24b9df840, tsc=0xa38afb430944, walltime=0x5d2cc722, cpuid=0x000706a1, bank=0x00000001

3 20190716 01:50:08 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000420082110a, tsc=0xa4d95741ee28, walltime=0x5d2ccae1, cpuid=0x000706a1, bank=0x00000001

4 20190716 01:50:08 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000420082110a, tsc=0xa4d957436320, walltime=0x5d2ccae1, cpuid=0x000706a1, bank=0x00000001

5 20190716 01:50:08 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000420082110a, tsc=0xa4d957451d82, walltime=0x5d2ccae1, cpuid=0x000706a1, bank=0x00000001

6 20190716 01:50:08 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000420082110a, tsc=0xa4d957456482, walltime=0x5d2ccae1, cpuid=0x000706a1, bank=0x00000001

7 20190716 03:20:09 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000400082110a, tsc=0xac3468f91976, walltime=0x5d2cdffa, cpuid=0x000706a1, bank=0x00000001

8 20190716 03:20:09 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000400082110a, tsc=0xac3468fb7a3a, walltime=0x5d2cdffa, cpuid=0x000706a1, bank=0x00000001

9 20190716 15:08:09 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000460082110a, tsc=0xe60f3181c782, walltime=0x5d2d85ea, cpuid=0x000706a1, bank=0x00000001

10 20190716 15:08:09 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000460082110a, tsc=0xe60f31852002, walltime=0x5d2d85ea, cpuid=0x000706a1, bank=0x00000001

11 20190717 02:52:09 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x942000460082110a, addr=0x249c5f840, tsc=0x11f964ae442b2, walltime=0x5d2e2aea, cpuid=0x000706a1, bank=0x00000001

12 20190717 15:24:09 +0700 error: corrected filtering (some unreported errors in same region) Generic CACHE Level2 Generic Error, mcg mcgstatus=0, mci Corrected_error Error_enabled Threshold based error status: green, Large number of corrected cache errors. System operating, but might leadto uncorrected errors soon, mcgcap=0x00000c07, status=0x902000440082110a, tsc=0x15d0984e5de54, walltime=0x5d2edb2a, cpuid=0x000706a1, bank=0x00000001

The status is green which means everything still works, but the utility reports a “large number of corrected cache errors”, and the “system (is) operating, but might lead to uncorrected errors soon” (See source code). It happens only a few times a day, and I’m not sure what can be done about the cache since it’s not something that can be changed as it’s embedded into the processor, maybe it’s just an issue with the processor I’m running. If somebody has an ODROID-H2 running, it may be useful to check out the kernel log with dmesg to see if you’ve got the same errors. If you do, please also indicate whether you have a board from the first batch (November 2018) or one of the new ODROID-H2 Rev B boards.

jean-luc aufranc cnxsoft

Jean-Luc started CNX Software in 2010 as a part-time endeavor, before quitting his job as a software engineering manager, and starting to write daily news, and reviews full time later in 2011.

Support CNX Software! Donate via cryptocurrencies or become a Patron on Patreon

ROCK Pi 4C Plus

  • #1

From Time to Time i have these Messages in my Syslog:

Code:

mce: [Hardware Error]: Machine check events logged

I installed mcelog, and there are these Messages:

Code:

TIME 1459479366 Fri Apr  1 04:56:06 2016
MCG status:
MCi status:
Corrected error
Error enabled
MCA: Internal parity error
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 6 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60
Hardware event. This is not a software error.
MCE 0
CPU 2 BANK 0
TIME 1459480198 Fri Apr  1 05:09:58 2016
MCG status:
MCi status:
Corrected error
Error enabled
MCA: Internal parity error
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 4 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60
Hardware event. This is not a software error.
MCE 0
CPU 1 BANK 0
TIME 1459480814 Fri Apr  1 05:20:14 2016
MCG status:
MCi status:
Corrected error
Error enabled
MCA: Internal parity error
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 2 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60
Hardware event. This is not a software error.
MCE 0
CPU 1 BANK 0
TIME 1459487750 Fri Apr  1 07:15:50 2016
MCG status:
MCi status:
Corrected error
Error enabled
MCA: Internal parity error
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 2 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60
Hardware event. This is not a software error.
MCE 0
CPU 3 BANK 0
TIME 1459492990 Fri Apr  1 08:43:10 2016
MCG status:
MCi status:
Corrected error
Error enabled
MCA: Internal parity error
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 6 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60

What does that mean?

For Info: CPU is a «Xeon E3-1246V3»

  • #2

Any Ideas?
I have these Problem nearly every Day.

t.lamprecht


  • #3

Hardware event. This is not a software error.

What motherboard do you use? Have the newest BIOS/UEFI updates installed for it?

t.lamprecht


  • #5

Hmm okay, there were a similar but also more grave problem with their boards here a few weeks ago, but the user had really no luck with the supermicro support :/

Do you run 32 bit VMs?
Looks like HSW131 from http://www.intel.com/content/dam/ww…cation-updates/xeon-e3-1200v3-spec-update.pdf (just search for it)

HSW131. Spurious Corrected Errors May be Reported

Problem: Due this erratum, spurious corrected errors may be logged in the IA32_MC0_STATUS register with the valid field (bit 63) set, the uncorrected error field (bit 61) not set, a Model Specific Error Code (bits [31:16]) of x000F, and an MCA Error Code (bits [15:0]) of 0x0005. If CMCI is enabled, these spurious corrected errors also signal interrupts.

Implication: When this erratum occurs, software may see corrected errors that are benign. These corrected errors may be safely ignored.

Workaround: None identified.

Status: For the steppings affected, see the Summary Table

As your status value is «STATUS 90000040000f0005» which translates to binary

Code:

1 0 0 1 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 | 0 1 0 0 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 | 1 1 1 1 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 | 0 1 0 1
↑   ↑                                                                         |-         bit[31:16] = 0x000F         -|-        bit[15:0] = 0x0005          -|
|   61- bit not set
63 bit set

Thus you may ignore this.

  • #6

Yes, i run also 32-Bit Systems: 1x Win-2000, 1x Win-XP.
The other Systems are 64-Bit.

Sorry for the Question: But what means that now? I do not understand what the detailed Problem is, confused :)

t.lamprecht


  • #7

Sorry for the Question: But what means that now? I do not understand what the detailed Problem is, confused :)

Uh, I could have been a little more clear, sorry.

That means Intel has also some bugs and you had the bad luck at running into one, but fortunately this one is as harmless as it gets, as the conclusion from Intel says.

They publish so called «Errata», those are documents which give information on a CPU model and its problems, hardware or software related also they tell us how to fix or workaround it if possible.

Your specific issue (HSW131) needs no intervention as it is an internal parity error and can correct itself, see also your log, it contains various «Error corrected» messages.
The «error» in the log is here more an information for the user, but with this specific problem it can be safely ignored and dismissed.

So I understand that its a bit strange to simply ignore this (or any «error message»), but as your model is clearly affected by this, the status message also concludes to HSW131 and Intel has a good reputation regarding such erratas it safe to do so, imo.

  • #8

Many Thanks for this detailed Answer.

Can this Bug someday be corrected?
And if, by Mainboard Bios, or by the Kernel?

My Problem is now: I run a cronjob which runs each hour. It checks the dmesg and sylog for Errors, and if an error is discovered, I get an Email.
But there stands only «mce: [Hardware Error]: Machine check events logged», so i can not filter that, because the detailed Error stands in mcelog :(

Have you any Ideas?

t.lamprecht


  • #9

Can this Bug someday be corrected?
And if, by Mainboard Bios, or by the Kernel?

I do not know the specific internal things from this bug, but I suspect that it is not fixable by CPU microcode updates, or they see no purpose in fixing it (affects nothing), else intel would have done it already and written the solution in the errata.

A fix from the kernel or the bios would simply suppress this specific error but wont fix it itself.

One way to solve this would be that you filter that one nonetheless, but to not miss another, different and possible dangerous, MCE error you also scan your MCE log and send an email if there is some other error than this specific one logged.
Not the nicest solution but it should work :)

  • #10

Ok, many thanks for Info.

Содержание

  1. Hardware Error: Machine check events logged, помогите разобраться.
  2. [Решено] Не удалось выполнить запрос из-за фатальной аппаратной ошибки устройства
  3. Оглавление
  4. Исправление 1. Проверьте подключение оборудования.
  5. Исправление 2: проверьте статус SMART
  6. Исправление 3: Обновите драйвер дисковода
  7. Исправление 5: Измените букву диска
  8. Исправление 5: Запустить команда chkdsk

Hardware Error: Machine check events logged, помогите разобраться.

Ночи доброй ЛОР. Писал я код в Android Studio, все как обычно, но тут вывалился ABRT с сообщением «A problem occurred in kernel package», открыл в самом ABRT, внизу подпись

The kernel log indicates that hardware errors were detected. This is most likely not a software problem.

Это меня насторожило, только полез в гугл, как вдруг ABRT репортит еще об одной ошибке, такой же, причем у обоих статус Can’t be reported.
Заглянул в dmesg, последние строки там такие

UPD: Нашел лог MCE, но что значит?

UPD2: Нагуглил вот что: http://unix.stackexchange.com/questions/165222/mce-error-mca-internal-parity-.
Там внизу пишут про связь KVM, 32 бит и этой ошибки.
Эмулятор ведра как раз 32 битный, но пока не уверен до конца, из-за этого ли.

Перемещено JB из talks

Первая ссылка гугла на запрос «mce: [Hardware Error]: Machine check events logged»

Это не выход, мне больше интересно где можно найти этот самый лог, посмотрел journalctl — ничего, dmesg — тоже пусто, /usr/sbin/mcelog ничего не вернул.

Вангую что память накрылась. Контроль четности рапортует о факапе.

Прочитайте пожалуйста UPD2, только что добавил, проверка памяти в memtest ошибок не выдала.

Да. Вот так много у кого дома память с ECC. Вангую, что банальный перегрев/переразгон.

Разгона нет, температура была не выше 57, да и система не фризится / ребутается, просто ABRT начинает сыпать этой ошибкой, сейчас, кстати, 3-яя вылезла, в логе все тоже самое.

нашёл чего советовать =)

Я раньше честно пытался оставить эту вундервафлю в системе и отправлять с её помощью крэшрепорты. Но иногда оно меня настолько задалбывало своей назойливостью, что однажды я решился на этот отчаянный шаг 🙂

С тех пор эта операция является одной из первой в списке TODO после инсталляции системы.

Вытаскивай планки памяти по одной, пока ошибка не уйдёт.

Их всего 2 и судя по всему дело не в них (посмотрите UPD2).
Нашел строгую закономерность: Ошибка валится только когда запущен эмулятор ведра от студии (он 32 битный), стоит его закрыть — тишина.

Ну так вытаскивай по одной, да проверяй.

Вы не поняли, ошибка вообще не относится к ОЗУ, она вызвана процессором

Другое дело, что на некоторых форумах упоминается ложная природа этой ошибки, которая проявляется связкой Haswell + KVM + 32bit система внутри, что соответствует моей конфигурации.

Если не ошибаюсь, ловил подобное из-за интелового видео на Sandy Bridge. Intel HD 3000

ошибка вообще не относится к ОЗУ, она вызвана процессором

вынимай процессоры по одному

ох лол, а я всегда делал erase, затем autoremove.

ЕМНИП, remove было раньше, чем erase.

Хоть тема уже давно протухла, вот описание проблемы: https://bugs.launchpad.net/qemu/ bug/1307225

Если вкратце — это очередная бага у процессоров Haswell, возникает при работе виртуализации. Пострадали даже серверные Xeon’ы. У нас с постоянной периодичностью с этой ошибкой валятся все 10 серверов с виртуализацией от VMware. Пришлось им даже в саппорт писать, чтобы узнать как отключить падение при MCE-событиях.

Не лечится никак, но при этом баг вроде-бы безопасен. Intel по какой-то причине не хочет вносить изменения в микрокод чтобы отключить данный MCE-Event (возможно не может). В FreeBSD, например, данные события для Haswell’а (status==90000040000f0005) вообще фильтруются. В ядро линукс почему-то до сих пор не внесли нужные исправления (или опять-же не могут).

Короче, если с этим событием ничего не ломается, забейте.

Источник

[Решено] Не удалось выполнить запрос из-за фатальной аппаратной ошибки устройства

Request Failed Due Fatal Device Hardware Error

Вот пять исправлений, которые помогут вам решить. Ошибка запроса из-за фатальной аппаратной ошибки устройства.

В последнее время многие люди сталкиваются с Запрос не выполнен из-за фатальной аппаратной ошибки устройства. сообщение, когда они пытаются получить доступ или открыть внешний диск или жесткий диск со своего компьютера.

Если вы оказались в одной лодке, не волнуйтесь. Вот пять исправлений, которые помогли пользователям решить проблему. Просто двигайтесь вниз, пока не найдете тот, который сделает за вас трюк.

Оглавление

Исправление 1. Проверьте подключение оборудования.

Эта ошибка может произойти, если внешний диск каким-либо образом неправильно подключен к вашему компьютеру. Поэтому важно сначала разобраться с аппаратными проблемами. Ниже приведены несколько шагов по устранению неполадок оборудования, которые вы можете попробовать.

  • Снова подключите внешний диск. Или, если у вас другой порт, переключитесь на другой.
  • Убедитесь, что кабель подключения жесткого диска плотно затянут. Если он болтается, затяните кабель. Если он слишком старый или сломанный, замените новый.
  • Попробуйте подключить внешний диск к другому компьютеру.

Если вы выполнили описанные выше действия, и ошибка действительно исчезла, поздравляем, вы решили проблему! Но если вы исключили проблемы с подключением как виновные, попробуйте Исправить 2 , ниже.

Исправление 2: проверьте статус SMART

SMART (технология самоконтроля, анализа и отчетности) — это технология, используемая в жестких дисках и твердотельных накопителях. Он используется для мониторинга состояния внешних дисков. Поскольку в Windows есть встроенная функция, вы можете использовать ее для анализа жесткого диска / SSD.

  1. На клавиатуре нажмите Логотип Windows ключ и введите cmd . Щелкните правой кнопкой мыши на Командная строка как он всплывает и щелкает Запустить от имени администратора .
  2. Нажмите да если будет предложено предоставить разрешения UAC для продолжения.
  3. В окне командной строки введите wmic diskdrive получить статус и нажмите Войти .
  4. Вам будет возвращен один из следующих результатов анализа:
    • хорошо . Это говорит о том, что ваш внешний жесткий диск находится в исправном состоянии. Вы можете следить Исправить 3 чтобы продолжить поиск и устранение неисправностей.
    • Плохой , или Осторожность . Ваш жесткий диск неизбежно выходит из строя. Исправления, представленные в этой статье, могут вам помочь; но если они этого не делают, мы советуем вам отнести жесткий диск в ремонтную мастерскую для ремонта.
    • Неизвестный . Команде не удается проанализировать состояние жесткого диска. Таким образом, остается неизвестным, возникла ли проблема с вашим жестким диском. Если вы подозреваете, что на вашем жестком диске есть потенциальный сбой, вы можете воспользоваться приведенными ниже исправлениями, чтобы увидеть, решат ли они проблему. Если это не радует, мы советуем вам отнести жесткий диск в ремонтную мастерскую для ремонта.

Исправление 3: Обновите драйвер дисковода

Эта проблема может возникнуть, если вы используете неправильный диск. драйвер или он устарел. Итак, вам следует обновить свой диск драйвер, чтобы увидеть, решит ли он вашу проблему. Если у вас нет времени, терпения или навыков для обновления драйвера вручную, вы можете сделать это автоматически с помощью Водитель Easy .

Driver Easy автоматически распознает вашу систему и найдет для нее подходящие драйверы. Вам не нужно точно знать, в какой системе работает ваш компьютер, вам не нужно беспокоиться о неправильном драйвере, который вы будете загружать, и вам не нужно беспокоиться об ошибке при установке. Driver Easy справится со всем .

Вы можете автоматически обновлять драйверы с помощью БЕСПЛАТНО или Pro версия программы Driver Easy. Но с версией Pro требуется всего 2 шага (и вы получаете полную поддержку и 30-дневную гарантию возврата денег):

  1. Скачать и установите Driver Easy.
  2. Запустите Driver Easy и щелкните Сканировать сейчас кнопка. Затем Driver Easy просканирует ваш компьютер и обнаружит все проблемные драйверы.
  3. Нажмите Обновить все для автоматической загрузки и установки правильной версии все драйверы, которые отсутствуют или устарели в вашей системе (для этого требуется Pro версия — вам будет предложено выполнить обновление, когда вы нажмете «Обновить все»).

    Примечание : Вы можете сделать это бесплатно, если хотите, но отчасти это делается вручную.
  4. Не забудьте перезагрузить компьютер, чтобы изменения вступили в силу.
  5. Убедитесь, что Запрос не выполнен из-за фатальной аппаратной ошибки устройства. решено. Если да, то отлично! Если ошибка повторится, не волнуйтесь. Вот еще несколько исправлений, которые вы можете попробовать.

Исправление 5: Измените букву диска

Каждому внешнему диску, подключенному к вашему компьютеру, назначается буква диска. Возможно, возник конфликт с определенными дисками, что может помешать системе получить доступ к данным, отсюда и ошибка. Так что вы можете попробовать присвоить вашему жесткому диску другую букву.

  1. На клавиатуре нажмите клавиша с логотипом Windows и р в то же время, чтобы поднять Запустить поле, затем введите diskmgmt.msc в поле и щелкните хорошо .
  2. В управлении дисками щелкните правой кнопкой мыши неисправный диск и выберите Изменить букву диска и пути… .
  3. Нажмите Изменять… .
  4. Выберите другую букву для своего жесткого диска, затем нажмите хорошо чтобы подтвердить.
  5. По завершении проверьте, можете ли вы правильно оценить содержимое жесткого диска.

Все еще нет радости? Пожалуйста, перейдите к Исправить 5 , ниже.

Исправление 5: Запустить команда chkdsk

Команда chkdsk — это встроенная утилита Windows, которая сканирует жесткий диск на наличие логических и физических ошибок и исправляет их, если они обнаруживаются. Поэтому вам следует запустить команду chkdsk, чтобы узнать, помогает ли она решить проблему.

/ f — для исправления дисковых ошибок; / r предназначен для обнаружения плохих секторов, а / x — для принудительного отключения тома при необходимости.

Вот как это сделать:

  1. На клавиатуре нажмите Логотип Windows ключ и тип cmd . Щелкните правой кнопкой мыши на Командная строка как он всплывает и щелкает Запустить от имени администратора .
  2. Нажмите да если будет предложено предоставить разрешения UAC для продолжения.
  3. В окне командной строки введите chkdsk *: / f / r / x и нажмите Войти .
    * обозначает букву проблемного диска.
    Команда начнет сканирование и исправление возможных ошибок.
  4. По завершении перезагрузите компьютер.
  5. Проверьте, решено ли сообщение об ошибке.

Если все остальное не помогло, вероятно, ваш жесткий диск получил серьезные повреждения. Лучше доверьте эту проблему профессионалам.

Вот и все — надеюсь, этот пост помог. Если у вас есть какие-либо вопросы, идеи или предложения, вы можете оставить нам комментарий ниже.

Источник

Понравилась статья? Поделить с друзьями:
  • Kernel illegaltag принтер выдает ошибку
  • Kernel icv error
  • Kernel eventtracing код события 3 как исправить
  • Kernel data inpage error windows 10 win32kbase sys
  • Kernel eventtracing код ошибки 2 windows 10