Error on gpu3 device not responding check overclocking settings

Собственно проблема в названии темы- "Device not responding, check overclocking settings". Заранее извиняюсь, если что то не так написал не дополнил инфу и прочее. Риг: 1070, 2060, 2070. Проблемная видюха это rtx 2070. чипы памяти - самсунг. Месяц - два назад +- все было идеально. Но потом в...

  • #1

Собственно проблема в названии темы- «Device not responding, check overclocking settings». Заранее извиняюсь, если что то не так написал не дополнил инфу и прочее.
Риг: 1070, 2060, 2070. Проблемная видюха это rtx 2070. чипы памяти — самсунг. Месяц — два назад +- все было идеально. Но потом в риге стали реджекты сыпаться. Меньше 3х процентов, но до этого вообще не было. Посыпались после обычной перезагрузки рига.
Теперь же 5 раз пишет «miner_restarted_after_error» и перезагружается риг. В при этом в консоль — miner show пишет про 2070 «Device not responding, check overclocking settings». Разгон раньше был 100 по ядру — 1800 по памяти. Теперь и 0/1400 может перезагрузиться после запуска рига. Карты не жарил. Держал не выше 65 градусов летом. И то это было давно и после такого всё ок было. Сейчас же не выше 55 градусов, с наступлением осени, а то и вообще 40. Летом термопрокладки и термопасту заменил. Пасту использовал мх5. Прокладки те, что нашел в днс и ситилинке.
Руки опускаются, если честно. Прошу подсказать в чем причина.
Упд. При написании поста, убрал вообще разгон на 2070 и запустил риг. Через 7 минут опять та же проблема. Я боюсь что с картой что то страшное случилось

Последнее редактирование: 21 Дек 2021

  • #2

с картой что то страшное случилось

2-145.jpg

:(

  • #3

2-145.jpg

:(

Это типа шутка? Или это ответ? В смысле ей реально писец пришел? А почему, в чем проблема?

  • #4

65 по ядру это 90+ по памяти не жарил он

  • #5

Летом термопрокладки и термопасту заменил. Пасту использовал мх5. Прокладки те, что нашел в днс и ситилинке.

А нахрена лезти в гарантийную карту ?

  • #6

В смысле ей реально писец пришел?

А сначала в отдельном системнике проверить?

Какие уж тут шутки, если

убрал вообще разгон на 2070 и запустил риг. Через 7 минут опять та же проблема.

  • #7

А нахрена лезти в гарантийную карту ?

Гарантии не было

  • #8

Ну тем не менее, нахрена ты туда полез ? Ты инженер по ремонту ВК или что ?
Зачем лишний раз дёргать?

  • #9

65 по ядру это 90+ по памяти не жарил он

Так это очень редко. И то не факт! Я не помню просто. К тому же август, сентябрь же идеально все было, там точно меньше 60°.
Так же я читал где то на форуме, что температура памяти это +10 от температуры ядра

  • #10

Ну тем не менее, нахрена ты туда полез ? Ты инженер по ремонту ВК или что ?
Зачем лишний раз дёргать?

Потому что была сильная жара и я хотел ее обслужить. Это же не перепайка? Просто снять кулер с радиатором и ровно так же как ты нарезать и приклеить прокладки.

  • #11

Так это очень редко. И то не факт! Я не помню просто. К тому же август, сентябрь же идеально все было, там точно меньше 60°.
Так же я читал где то на форуме, что температура памяти это +10 от температуры ядра

На заборе тоже написано а девки обламываются.

Внутри одной линейки может скакать на 30 градусов.

  • #14

На заборе тоже написано а девки обламываются.

Внутри одной линейки может скакать на 30 градусов.

Плохо. И печально.
Есть способ проверить на 100%, что карте хана и можно от нее избавляться? Бублик пол часа крутить?

  • #15

Плохо. И печально.
Есть способ проверить на 100%, что карте хана и можно от нее избавляться? Бублик пол часа крутить?

Да.
Попробуй еще память -100 и ядро если тест не пройдет

  • #16

Да.
Попробуй еще память -100 и ядро если тест не пройдет

«-100» это минус 100? Или дефис? Просто уточняю.
Про бублик — карта должна его без артефактов показывать, да? При использовать стресс тест нажать?

  • #17

«-100» это минус 100? Или дефис? Просто уточняю.
Про бублик — карта должна его без артефактов показывать, да? При использовать стресс тест нажать?

Если стресс тест бубликом не пройдет, минус 100 по пямяти и по ядру и еще раз прогони в бенче

  • #18

«-100» это минус 100? Или дефис? Просто уточняю.
Про бублик — карта должна его без артефактов показывать, да? При использовать стресс тест нажать?

какой нах бублик??!!))) разгон покажи.

  • #19

GPU перестаёт отвечать драйверу. Может ему питания не хватает? 1-2-3 фазы вырубаются или вообще не стартует. У меня с одной rx тоже самое было после летней жары. Сначала раз в сутки, затем несколько раз. Затем 5 минут и все. Разобрал, нижние 3 фазы GPU из 6 не пашут. А оставшиеся уже не вытягивают ядро, даже на эфире.

  • #20

на 20xx сериях ядро фиксируется курвой (или в батнике). а память — какие нах 1800/1400??? 1200 — это край стабильности. ну, 1300.
пока не сделаешь фикс ядра — так и будет слетать.

вам всем лень читать темы про 20-ю серию на форуме. а они обжеванны вдоль и поперек.

Ошибки Видеокарты При Майнинге

Самое полное собрание ошибок в майнинге на Windows, HiveOS и RaveOS и их быстрых и спокойных решений

Can’t find nonce with device CUDA_ERROR_LAUNCH_FAILED

Ошибка майнера Can't find nonce

Ошибка майнера Can’t find nonce

Ошибка говорит о том, что майнер не может найти нонс и сразу же сам предлагает решение — уменьшить разгон. Особенно начинающие майнеры стараются выжать из видеокарты максимум — разгоняют слишком сильно по ядру или памяти. В таком разгоне видеокарта даже может запуститься, но потом выдавать ошибки как указано ниже. Помните, лучше — стабильная отправка шар на пул, чем гонка за цифрами в майнере.

Зарабатывай на чужих сделках на бирже BingX. Подробнее — тут.

Phoenixminer Connection to API server failed — что делать?

Ошибка Connection to API server failed

Ошибка Connection to API server failed

Такая ошибка встречается на PhoenixMiner на операционной систему HiveOS. Она говорит о том, что майнинг-ферма/риг не может подключиться к серверу статистики. Что делать для ее решения:

  • Введите команду net-test и запомните/запишите сервер с низким пингом. После чего смените его в веб интерфейсе Hive (на воркере) и перезагрузите ваш риг.
  • Если это не помогло, выполните команду dnscrypt -i && sreboot

Phoenixminer CUDA error in CudaProgram.cu:474 : the launch timed out and was terminated (702)

Ошибка майнера Phoenixminer CUDA error in CudaProgram

Ошибка майнера Phoenixminer CUDA error in CudaProgram

Эта ошибка, как и в первом случае, говорит о переразгоне карты. Откатите видеокарту до заводских настроек и постепенно поднимайте разгон до тех пор, пока не будет ошибки.

UNABLE TO ENUM CUDA GPUS: INVALID DEVICE ORDINAL

Ошибка майнера Unable to enum CUDA GPUs: invalid device ordinal

Ошибка майнера Unable to enum CUDA GPUs: invalid device ordinal

Проверяем драйвера видеокарты и саму видеокарту на работоспособность (как она отмечена в диспетчере устройств, нет ли восклицательных знаков).
Если все ок, то проверяем райзера. Часто бывает, что именно райзер бывает причиной такой ошибки.

UNABLE TO ENUM CUDA GPUS: INSUFFICIENT CUDA DRIVER: 5000

Ошибка майнера Unable to enum CUDA GPUs: Insufficient CUDA driver: 5000

Ошибка майнера Unable to enum CUDA GPUs: Insufficient CUDA driver: 5000

Аналогично предыдущей ошибке — проверяем драйвера видеокарты и саму видеокарту на работоспособность (как она отмечена в диспетчере устройств, нет ли восклицательных знаков).

NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED

Ошибка майнера NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED

Ошибка майнера NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED

Ошибка code 1073740791 nbminer возникает, если ваш риг/майнинг-ферма собраны из солянки Nvidia+AMD. В этом случае разделите майнинг на два .bat файла (или полетника, если вы на HiveOS). Один — с картами AMD, другой с картами Nvidia.

NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2) — как исправить?

Ошибка майнера NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2)

Ошибка майнера NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2)

Одна из самых распространённых ошибок на Windows — нехватка памяти, в данном случае на майнере Nbminer, но встречается и в майнере Nicehash. Чтобы ее исправить — надо увеличить файл подкачки. Файл подкачки должен быть равен сумме гб всех видеокарт в риге плюс 10% запаса. Как увеличить файл подкачки — читаем тут.

GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0

Ошибка майнера GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0

Ошибка майнера GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0

В данном случае скорее всего виноват не файл подкачки, а переразгон по видеокарте, которая идет под номером 0. Сбавьте разгон и ошибка должна пропасть.

Socket error. the remote host closed the connection, в майнере Nbminer

Socket error. the remote host closed the connection

Также может быть описана как «ERROR — Failed to establish connection to mining pool: Socket operation timed out».
Сетевой конфликт — проверьте соединение рига с интернетом. Перегрузите роутер.
Также может быть, что провайдер закрывает соединение с пулом. Смените пул, попробуйте VPN или измените адреса DNS на внешнего провайдера, например cloudflare 1.1.1.1, 1.0.0.1

Server not responded on share, на майнере Gminer

Server not responded on share

Такая ошибка говорит о том, что у вас что-то с подключением к интернету, что критично для Gminer. Попробуйте сделать рестарт роутера и отключить watchdog на майнере.

DAG has been damaged check overclocking settings, в майнере Gminer

Также в этой ошибке может быть указано Device not responding, check overclocking settings.
Ошибка говорит о переразгоне, попробуйте сначала убавить его.
Если это не помогло, смените майнер — Gminer никогда не славился работой с видеокартами AMD. Мы рекомендуем поменять майнер на Teamredminer, а если вам критична поддержка майнером одновременно Nvidia и AMD видеокарт, то используйте Lolminer.
Если смена майнера не поможет, переставьте видеодрайвер.
Если и это не поможет, то нужно тестировать эту карту отдельно в слоте X16.

ERROR: Can’t start T-Rex, failed to initialize device map: can’t get busid, code -6

Ошибки настройки памяти с кодом -6 обычно указывают на проблему с драйвером.

Если у вас Windows, используйте программу DDU (DisplayDriverUninstaller), чтобы полностью удалить все драйверы Nvidia.
Перезагрузите систему.
Установите новый драйвер прямо с сайта Nvidia.
Перезагрузите систему снова.
Если у вас HiveOS/RaveOS — накатите чистый образ системы. Чтобы наверняка. :)

TREX: Can’t unlock GPU

Полный текст ошибки:
TREX: Can’t unlock GPU [ID=1, GPU #1], error code 15
WARN: Miner is going to shutdown…
WARN: NVML: can’t get fan speed for GPU #1, error code 15
WARN: NVML: can’t get power for GPU #1, error code 15
WARN: NVML: can’t get mem/core clock for GPU #1, error code 17

Решение:

  1. Проверьте все кабельные соединения видеокарты и райзера, особенно кабеля питания.
  2. Если с первый пунктом все ок, попробуйте поменять райзер на точно рабочий.
  3. Если ошибка остается, вставьте видеокарту в разъем х16 напрямую в материнскую плату.

CAN’T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN’T GET BUSID, CODE -6

Ошибка майнера CAN'T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN'T GET BUSID, CODE -6

Ошибка майнера CAN’T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN’T GET BUSID, CODE -6

В конкретном случае была проблема в блоке питания, он не держал 3 видеокарты. После замены блока питания ошибка пропала.
Если вы уверены, что ваш мощности вашего блока питания достаточно, попробуйте сменить майнер.

Зарабатывай на чужих сделках на бирже BingX. Подробнее — тут.

ОШИБКА 511 ГРАДУСОВ НА ВИДЕОКАРТА

Ошибка 511 градусов видеокарта

Ошибка 511 градусов видеокарта

Ошибка 511 говорит о неисправности райзера или питания карты. Проверьте все соединения. Для выявления неисправности рекомендуется запустить систему с одной картой. Протестировать, и затем добавлять по одной карте.

GPU driver error, no temps в HiveOS — что делать?

Вероятнее всего, вы получили эту ошибку, майнив на HiveOS. Причин ее появления может быть несколько — как софтовая, так и аппаратная (например райзер).
Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.

Если ошибка не уйдет — проверьте райзер.

GPU are lost, rebooting

Это не ошибка, а ее последствие. Что узнать какая ошибка приводит к перезагрузке карт, сделайте следующее:

Включите сохранение логов (по умолчанию они выключены) командой

logs-on

И перезагрузите риг.
После того как ошибка повторится можно будет скачать логи командами ниже.
Вы можете использовать следующую команду, чтобы загрузить логи майнера прямо с панели мониторинга;

message file «miner.log» -f=/var/log/miner/minername/minername.log

Итак, скажем, например, мне нужны логи TeamRedMiner
message file «teamredminer.log» -f=/var/log/miner/teamredminer/teamredminer.log

Отправленная командная строка будет выделена синим цветом. Загружаемый файл будет отображаться белым цветом. Нажав на него, вы сможете его скачать.
Эта команда позволит скачать лог системы

message file «syslog» -f=/var/log/syslog

exitcode=3 в HiveOS

Вероятнее всего, вы получили эту ошибку, майнив на HiveOS. Причин ее появления может быть несколько — как софтовая, так и аппаратная (например райзер).
Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.

Если ошибка не уйдет — проверьте райзер.

exitcode=1 в HiveOS

Данная ошибка возникает когда есть проблема с датой в биосе материнской платы (сбитое время) и (или) есть проблема с интернетом.
Если сбито время, то удаленно вы не сможете подключиться.
Тем не менее, обновление драйверов Nvidia должно пройти командой:

nvidia-driver-update —list

gpu fault detected 146

Скорее всего вы пытаетесь майнить с помощью Phoenix miner. Решения два:

  1. Откатитесь на более старую версию, например на 5.4с
  2. (Рекомендуемый вариант) Используйте Trex для видеокарт Nvidia и TeamRedMiner для AMD.

Waiting interface to come up — не работает VPN на HiveOS

Waiting interface to come up

Начните с логов, чтобы понять какая именно ошибка вызывает эту проблему.
Команды для получения логов:
systemctl status openvpn@client
journalctl -u openvpn@client -e —no-pager -n 100

Как узнать ip адрес воркера hive os

Как узнать ip адрес воркера hive os

Самое простое — зайти в воркера и прокрутить страницу ниже видеокарт. Там будет указан Remote IP — это и есть внешний IP.
Альтернативный вариант — вы можете проверить ваш внешний айпи адрес hive через консоль Hive Shell:
Выполните одну из команд:
curl 2ip.ru
wget -qO- eth0.me
wget -qO- ipinfo.io/ip
wget -qO- ipecho.net/plain
wget -qO- icanhazip.com
wget -qO- ipecho.net
wget -qO- ident.me

Repository update failed в HiveOS

Иногда встречается на HiveOS. Полный текст ошибки:

Some index files failed to download. They have been ignored, or old ones used instead.
Repository update failed
------------------------------------------------------
> Restarting autofan and watchdog
> Starting miners
Miner screen is already running
Run miner or screen -r to resume screen
Upgrade failed

Решение:

  1. Выполнить команду apt update && selfupgrade -f
  2. Если не сработала и она, то 99.9%, что разработчики HiveOS уже знают об этой проблеме и решают ее. Попробуйте выполнить обновление через некоторое время.

Rave os не запускается. Boot aborted Rave os

Boot aborted Rave os

Перепроверьте все настройки ПК и БИОСа материнской платы:
— Установите загрузочное устройство HDD/SSD/M2/USB в зависимости от носителя с ОС.
— Включите 4G decoding.
— Установите поддержку PCIe на Auto.
— Включите встроенную графику.
— Установите предпочтительный режим загрузки Legacy mode.
— Отключите виртуализацию.

Если после данных настроек не определяется часть карт, то выполните следующие настройки в BIOS (после каждого пункта требуется полная перезагрузка):

— Отключите 4G decoding
— Перезагрузка
— Отключите CSM
— Перезагрузка
— Включите 4G decoding, установите PCI-E Gen2/3, а при отсутствии Gen2/3, можно выбрать Gen1

Failed to allocate memory Raveos

Эта же ошибка может называться как:
failed to allocate initramfs memory bailing out, failed to load idlinux c.32
или
failed to allocate memory for kernel boot parameter block
или
failed to allocate initramfs memory raveos bailing

Но решение у нее одно — вы должны правильно настроить БИОС материнской платы.

gpu_driver_fault, GPU #0 fault в RaveOS

gpu_driver_fault, GPU #0 fault в RaveOS

В большинстве случаев эта проблема решается уменьшением разгона (особенно по памяти) на конкретной видеокарте (на скрине это карта номер 0).
Если уменьшение разгона не помогает, то попробуйте обновить драйвера.
Если обновление драйверов не привело к решению проблемы, то попробуйте поменять райзер на этой карте на точно работающий.
Если и это не помогает, перепроверьте все кабельные соединения и мощность блока питания, хватает ли его для вашей конфигурации.

Gpu driver fault. All tasks have been stopped. Worker will be rebooted after 5 minutes в RaveOS

Gpu driver fault. All tasks have been stopped. Worker will be rebooted after 5 minutes

Что приводит к появлению этой ошибки? Вероятно, вы переразогнали видеокарту (часто сильно гонят по памяти), сбавьте разгон. На скрине видно, что проблему дает именно GPU под номером 1 — начните с нее.
Вторая частая причина — нехватка питания БП на систему с видеокартами. Учтите, что сама система потребляет не менее 100 вт, каждый райзер еще закладывайте 50 вт. БП должно хватать с запасом в 20%.

Miner restarted after error RaveOS

Смотрите логи майнера, там будет указана конкретная ошибка, которая приводит к miner restarted. После этого найдите ее на этой странице и исправьте. Проблема уйдет. :)

Miner restart limit reached. Worker rebooting by flag auto в RaveOS

Аналогично предыдущему пункту — смотрите логи майнера, там будет указана конкретная ошибка, которая приводит к рестарту воркера. Пофиксите ту ошибку — уйдет и эта проблема.

Miner cannot be started, ОС RaveOS

Непосредственно перед этой ошибкой обычно пишется еще другая, которая и вызывает эту проблему. Но если ничего нет, то:

  1. Поставьте майнер на паузу, перезагрузите риг и в консоли выполните команды clear-miners clear-logs и fix-fs. Запустите майнинг.
  2. Если ошибка не ушла, перепишите образ RaveOS.

Overclock can’t be applied в RaveOS

Эта ошибка означает, что значения разгона между собой конфликтуют или выходят за пределы допустимых. Перепроверьте их. Скиньте разгон на стоковый и попробуйте еще раз.
В редких случаях причиной этой ошибки также становится райзер.

Error installing hive miners

Error installing hive miners

Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.

Если ошибка не уйдет — физически перезапишите образ. Если у вас флешка, то скорее всего она умерла. Купите SSD. :)

Warning: Nvidia settings applied with errors

Переразгон. Снизьте значения частот ядра и памяти. После этого перезагрузите риг.

Nvtool error или Danger: nvtool error

Скорее всего при установке драйвера появилась проблема с модулем nvtool
Попробуйте переустановить драйвер Nvidia командой через Hive shell:
nvidia-driver-update версия_драйвера —force
Или попробуйте обновить систему полностью командой из Hive shell:
hive-replace -y —stable

nvtool error

Перестал отображаться кулер видеокарты HiveOS

0% скорости вращения кулера.
Это может произойти по нескольким причинам:

  • кулер действительно не крутится
  • датчик оборотов отключен или сломан
  • видеокарта слишком агрессивно работает (высокий разгон)
  • неисправен райзер или одно из его частей

ERROR: parsing JSON failed

Необходимо выполнить на риге локально (с клавиатурой и монитором) следующую команду:
net-test

Данная команда покажет ваше текущее состояние подключения к разным зеркалам API серверов HiveOS.
Посмотрите, к какому API у вас наименьшая задержка (ping), и когда воркер снова появится в панели, измените стандартное зеркало на то, что ближе к вам.
После смены зеркала, в обязательном порядке перезагрузите ваш воркер.
Изменить сервер API вы можете командой nano /hive-config/rig.conf
После смены нажмите ctrl + o и ентер для того чтобы сохранить файл.
После этого выйдите в консоль командой ctrl + x, f10 и выполните команду hello

NVML: can’t get fan speed for GPU #5, error code 999 hive os

Проблема с скоростью кулеров на GPU 5
0% скорости вращения кулера / ошибки в целом
Это может произойти по нескольким причинам:
— кулер действительно не крутится
— датчик оборотов отключен или сломан
— видеокарта слишком агрессивно работает (высокий разгон)
Начните с визуальной проверки карты и ее кулера.

Can’t get power for GPU #2

Как правило эта ошибка встречается рядом вместе с другими:
Attribute ‘GPUGraphicsClockOffset’ was already set to 0
Attribute ‘GPUMemoryTransferRateOffset’ was already set to 2200
Attribute ‘GPUFanControlState’ (hive1660s_ETH:0[gpu:2]) assigned value
0.

20211029 12:40:50 WARN: NVML: can’t get fan speed for GPU #2, error code 999
20211029 12:40:50 WARN: NVML: can’t get power for GPU #2, error code 999
20211029 12:40:50 WARN: NVML: can’t get mem/core clock for GPU #2, error code 999

Решение:

Проверьте корректность установки драйвера на видеокарте.
Убедитесь что нет проблем с драйвером, если все в порядке, то попробуйте другой параметр разгона. Например уменьшить разгон по памяти.

GPU1 search error: unspecified launch failure

Уменьшите разгон и проверьте контакты райзера

Warning: Autofan: unable to set fan speed, rebooting

Найдите логи майнера, посмотрите какие ошибки майнер пишет в логах. Например:

kernel: [12112.410046][ T7358] NVRM: GPU at PCI:0000:0c:00: GPU-236e3bef-2e03-6cdb-0518-7ac01eb8736d
kernel: [12112.410049][ T7358] NVRM: Xid (PCI:0000:0c:00): 62, pid=7317, 0000(0000) 00000000 00000000
kernel: [12112.433831][ T7358] NVRM: Xid (PCI:0000:0c:00): 45, pid=7317, Ch 00000010
CRON[21094]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)

Исходя из логов, мы видим что есть проблема с видеокартой на слоте PCIE 0c:00 (под номером Gpu пишется номер PCIE слота) с ошибками 45 и 62
Коды ошибок (других, которые также могут быть там) и что с ними делать:

• 13, 43, 45: ошибки памяти, снизить MEM
• 8, 31, 32, 61, 62: снизить CORE, возможно и MEM
• 79: снизить CORE, проверить райзер

Ошибка Kernel-Power код 41

Проверьте все провода (от БП до карт, от БП до райзеров), возможно где-то идёт оплавление. Если визуальный осмотр показал, что все ок, то ошибка программная и вам нужно переустановить Windows.

Danger: hive-replace -y —stable (failed, exitcode=137)

Очень редкая ошибка, которая вылезла в момент удаленного обновления образа HiveOS. Она не встречается в тематических майнинг группах и сайтах. Не поверите что произошло.
На балконе, где стоял риг, поселилась семья голубей. Они засрали риг, в прямом смысле, из-за этого он постоянно уходил в оффлайн. После полной продувки материнской платы и видеокарт проблема решилась сама.

MALFUNCTION HIVEOS

Malfunction — неисправность. Причин и решений может быть несколько:

  • Вам следует переустановить видео драйвер;
  • Если драйвер не помог, тогда отключайте все GPU и поочередно вставляйте по 1 шт, и смотрите вызовет ли какая-то видеокарта подобную ошибку или нет. Если да, то возможно это райзер.
  • Неисправен носитель, на который записана Hive OS, запишите образ еще раз.

Не нашли своей ошибки? Помогите сделать мир майнинга лучше. Отправьте ее по этой форме и мы обновим наш гайд в самое ближайшее время.

Once a 2 or 3 minutes I get the following error in the miner log:

grep -i error /var/log/miner/gminer/gminer.log
Error on GPU6: Device not responding, check overclocking settings

and on the following message on the miner screen:

GPU6: DAG has been damaged, check overclocking settings
Miner terminated, watchdog will restart process after 10 seconds

GPU temperature is about 50-60°C, but looks like the memory chips overheat, because there was NVidia error:

journalctl -p err | grep NVRM
Nov 06 21:14:14 rig0 kernel: NVRM: Xid (PCI:0000:08:00): 31, pid=12382, Ch 0000001e, intr 10000000.
MMU Fault: ENGINE HOST7 HUBCLIENT_HOST_CPU faulted @ 0x2_24607000.
Fault is of type FAULT_PDE ACCESS_TYPE_READ

Also it can be:

root@rig0:/var/log/miner/gminer# grep -i error gminer.log
22:21:11 GPU2: DAG verification completed without errors
22:21:11 GPU4: DAG verification completed without errors
22:21:11 GPU5: DAG verification completed without errors
22:21:12 GPU1: DAG verification completed without errors
22:21:12 GPU3: DAG verification completed without errors
22:21:12 GPU0: DAG verification completed without errors
22:24:05 Error on GPU3: unspecified launch failure
root@rig0:/var/log/miner/gminer# journalctl -p err | grep NVRM
Nov 06 22:24:05 rig0 kernel: NVRM: Xid (PCI:0000:05:00): 32, pid=2766, Channel ID 0000001e intr 00040000
Nov 06 22:24:05 rig0 kernel: NVRM: Xid (PCI:0000:05:00): 32, pid=2766, Channel ID 0000001e intr1 00000008 HCE_DBG0 00001cc4 HCE_DBG1 00000272

I used “Arctic Cooling Thermal Pad” 6 Вт/мК, ceramics, 1 мм x 50 мм x 50 мм:

but probably I need a thermal pad of 1.5mm thickness.

The size of memory chips are 1×1.5 cm.

My first idea was to try “Thermal Grizzly Minus Pad 8“, but they can’t be used with aluminum radiators, so I ordered “Arctic Cooling Thermal Pad” 1.5 mm.

The original layout of thermal pads:

Tried to search for d9tcb on aliexpress.com (is it Micron?):

also there are some results for K4G41325FE-HC25, is it Samsung?

Testing the card on Windows

Started BTG miner on my Windows 10 machine with +600 memory clock:

+---+-----+-----------+------+-----+-----------+
| ID  GPU     Speed    Shares Power Efficiency |
+---+-----+-----------+------+-----+-----------+
|  0  1060  37.2 Sol/s  0/0/0 116 W 0.32 Sol/W |
+---+-----+-----------+------+-----+-----------+
+---+-----+----+---+----+----+
| ID  GPU  Temp Fan Core Mem |
+---+-----+----+---+----+----+
|  0  1060   65 0 %    0   0 |
+---+-----+----+---+----+----+
03:24:10 Pool: btg.2miners.com:4040 Shares/Minute: 0.00
03:24:10 Pool Hashrate: 0.0 Sol/s Efficiency: 0.00 %
03:24:10 Uptime: 0d 00:10:08 Electricity: 0.019 kWh
03:24:24 GPU0: Share #1 verified on CPU, difficulty: 19.83K
03:24:24 GPU0: Share #1 accepted 61 ms

Mining slowed down Task Manger, GPUZ and MSI Afterburner.

Tried to mine ETP with t-rex:

t-rex -a ethash -o stratum+tcp://eu.etp.k1pool.com:8008 -u MNpoZqo8VDeDTJVMU72YMpzxUYguzDGc7J -p x --worker win-rig

but got “not enough free memory to mine ethash at epoch 196”. It is not clear why Windows can’t mine it, on Linux it uses only 2666MiB.

Tried to mine ERGO:

t-rex.exe -a autolykos2 -o stratum+tcp://erg.2miners.com:8888 -u 9eZSBAg38A5KvQWjeHXdubo9owj8VPrxCHa16GSXn4rBSSx1bmg.rig0 -p x --no-watchdog
20211109 04:36:29 T-Rex NVIDIA GPU miner v0.24.5  -  [Windows]
20211109 04:36:29 r.3ed63f02e8cb
20211109 04:36:29
20211109 04:36:29
20211109 04:36:29 NVIDIA Driver v456.71
20211109 04:36:29
20211109 04:36:29 + GPU #0: [00:01.0|1c02] MSI GeForce GTX 1060 3GB, 3072 MB
20211109 04:36:29
20211109 04:36:29 WARN: DevFee 2% (autolykos2)
20211109 04:36:29
20211109 04:36:29 URL : stratum+tcp://erg.2miners.com:8888
20211109 04:36:29 USER: 9eZSBAg38A5KvQWjeHXdubo9owj8VPrxCHa16GSXn4rBSSx1bmg.rig0
20211109 04:36:29 PASS: x
20211109 04:36:29
20211109 04:36:29 Starting on: erg.2miners.com:8888
20211109 04:36:29 ApiServer: HTTP server started on 127.0.0.1:4067
20211109 04:36:29 ---------------------------------------------------
20211109 04:36:29 For control navigate to: http://127.0.0.1:4067/trex
20211109 04:36:29 ---------------------------------------------------
20211109 04:36:29 GPU #0: intensity 21.2
20211109 04:36:30 Extranonce is set to: e3e0
20211109 04:36:30 Authorizing...
20211109 04:36:30 Authorized successfully.
20211109 04:36:30 autolykos2 block: 615558, diff: 8.73 G
20211109 04:36:30 GPU #0: allocated memory for the dataset, memory left: 333.86 MB
20211109 04:36:35 GPU #0: dataset generated for block 615558 [time: 4689 ms]
20211109 04:36:35 GPU #0: failed to allocate second dataset buffer, falling back to single buffer mode
20211109 04:36:42 [ OK ] 1/1 - 41.08 MH/s, 84ms ... GPU #0

-------------20211109 04:37:40 -------------
Mining at erg.2miners.com:8888, diff: 8.73 G
GPU #0: MSI GTX 1060 3GB - 41.08 MH/s, [T:53C, P:80W, F:45%, E:514kH/W], 1/1 R:0%
Shares/min: 1 (Avg. 4.615)
Uptime: 1 min 10 secs | Algo: autolykos2 | T-Rex v0.24.5
WD: 1 min 12 secs, shares: 1/1

20211109 04:37:41 autolykos2 block: 615559, diff: 8.73 G
20211109 04:37:46 GPU #0: dataset generated for block 615559 [time: 4706 ms]
20211109 04:38:08 autolykos2 block: 615560, diff: 8.73 G

-------------20211109 04:38:10 -------------
Mining at erg.2miners.com:8888, diff: 8.73 G
GPU #0: MSI GTX 1060 3GB - 41.08 MH/s, [T:55C, P:80W, F:47%, E:495kH/W], 1/1 R:0%
Shares/min: 1 (Avg. 4.615)
Uptime: 1 min 40 secs | Algo: autolykos2 | T-Rex v0.24.5
WD: 1 min 42 secs, shares: 1/1

20211109 04:38:13 GPU #0: dataset generated for block 615560 [time: 4712 ms]
20211109 04:38:30 autolykos2 block: 615561, diff: 8.73 G
20211109 04:38:35 GPU #0: dataset generated for block 615561 [time: 4717 ms]
20211109 04:38:38 [ OK ] 2/2 - 41.08 MH/s, 97ms ... GPU #0

After switching to P0 state I got slowed down Task Manager, MSI Afterburner, GPUZ and this:

20211109 19:57:58 TREX: Can't find nonce with device [ID=1, GPU #1], cuda exception: CUDA_ERROR_LAUNCH_FAILED, try to reduce overclock to stabilize GPU state

I switched back to P2 state and t-rex miner continued to work at about 87 MH/s.

Below I provided GPUZ screenshots for both the cards:

Links

  • Useful Hive OS and Linux Commands
  • Upgrade MSI GTX 1060 ARMOR 3GB to 6GB (a video in Russian language)

Некоторые пользователи ПК сообщают, что они видят ошибку «Overclocking Failed» при попытке загрузить свой ПК. Сообщение об ошибке немного отличается в зависимости от производителя материнской платы. В большинстве случаев затронутые пользователи говорят, что они никогда не разгоняли свои частоты по умолчанию, несмотря на появление этого сообщения.

Ошибка разгона при загрузке

В большинстве случаев ошибка «Overclocking Failed» возникает из-за сбоя, который приводит к тому, что вводит в заблуждение серию процессов запуска, когда ваша система разогнана, хотя на самом деле вы используете частоты по умолчанию. В этом случае сброс BIOS / UEFI должен позволить вам решить проблему.

Если сбой происходит из-за настроек BIOS / UEFI, поддерживаемых между запусками, вам необходимо очистить батарею CMOS, прежде чем загрузиться без проблем.

Однако эта проблема также может возникнуть из-за проблемы BIOS. В этом случае обновление версии BIOS должно позволить устранить ошибку «Overclocking Failed».

Сброс настроек BIOS

Если вы видите ошибку «Overclocking Failed» во время каждой последовательности запуска, ваша первая попытка исправить эту проблему — сбросить настройки BIOS и посмотреть, не приведет ли это к решению проблемы. Вероятно, сбой BIOS / CMOS в конечном итоге сообщает процессам, ответственным за последовательность загрузки, что ваши частоты разогнаны, даже если они не разогнаны.

В случае, если этот сценарий применим, одно из руководств ниже, чтобы сбросить настройки BIOS или UEFI по умолчанию. Если вы используете более старую технологию BIOS, следуйте Варианту 1, а если вы используете UEFI, следуйте Варианту 2.

Примечание. Имейте в виду, что в зависимости от производителя вашей материнской платы и технологии загрузки некоторые шаги и параметры могут немного отличаться от приведенных ниже инструкций.

Вариант 1. Сброс настроек BIOS

  1. Включите компьютер и начните нажимать кнопку «Настройка» (кнопка загрузки) несколько раз, как только появится начальный экран. Клавиша настройки должна отображаться на экране, но если вы ее не видите, попробуйте нажать клавишу Esc, клавиши F (F1, F2, F4, F6, F8 или F12) или клавишу Del (на компьютерах Dell ) для доступа к меню настроек BIOS.
    нажмите клавишу, чтобы войти в настройки или BIOSНажмите [key] войти в настройку
  2. После того, как вы вошли в настройки BIOS, найдите параметр с названием «Установки по умолчанию», затем нажмите «Загрузить настройки по умолчанию» и следуйте инструкциям на экране для подтверждения и сохранения текущей конфигурации.Загрузить конфигурацию системы по умолчанию

    Примечание: в зависимости от вашей материнской платы, вы можете найти эту опцию под названием Сброс по умолчанию, Заводские настройки или Настройки по умолчанию. Помните, что в некоторых версиях BIOS вы можете загрузить конфигурацию BIOS по умолчанию, просто нажав F9 и подтвердив, нажав Enter.

  3. Сохраните изменения, затем выйдите и посмотрите, завершается ли последовательность загрузки без той же ошибки «Overclocking Failed».

Вариант 2. Сброс настроек UEFI

  1. Вставьте установочный носитель, совместимый с версией Windows, которую вы сейчас качаете. Как только вы пройдете начальный экран, нажмите любую клавишу для загрузки с установочного носителя.Нажмите любую клавишу для загрузки с установочного носителяНажмите любую клавишу для загрузки с установочного носителя

    Примечание. Если у вас нет совместимого установочного носителя, вы также можете попасть в меню «Восстановление», принудительно выполнив 3 последовательных сбоя при запуске — это можно сделать, выключив компьютер вручную, когда ОС работает в последовательности загрузки).

  2. Как только вы окажетесь в меню установки Windows, нажмите «Восстановить мой компьютер» в левом нижнем разделе.Выберите «Восстановить мой компьютер».
  3. Как только вы попадаете в меню «Восстановление», выберите вариант «Устранение неполадок» из доступных вариантов. Оттуда перейдите к Расширенным настройкам и нажмите Настройки прошивки UEFI / BIOS.src = ”https://appuals.com/wp-content/uploads/2019/01/uefi-firmware-settings.png” alt = ”” width = ”670 ″ height =” 282 ″ /> Доступ к настройкам прошивки UEFI
  4. Как только вы это сделаете, ваш компьютер перезагрузится прямо в меню настроек UEFI. Когда вы окажетесь внутри, ищите опцию под названием Восстановить настройки по умолчанию (или аналогичную) Затем завершите операцию и сохраните изменения перед выходом из настроек UEFI.Восстановить настройки UEFI по умолчанию
  5. При следующем запуске системы заново создайте операцию, которая ранее вызывала ошибку, и посмотрите, не возникает ли эта проблема.

Если такая же проблема все еще возникает, перейдите к следующему потенциальному решению ниже.

Очистка батареи CMOS

Если предыдущий метод не позволил вам устранить проблему, вполне вероятно, что проблема возникает из-за некоторых неправильных настроек, которые удерживает батарея CMOS (дополнительный металлооксидный полупроводник). Этот компонент отвечает за хранение определенных настроек BIOS / UEFI, включая информацию о разгоне.

Несколько затронутых пользователей подтвердили, что эта операция, наконец, позволила им завершить последовательность загрузки и обойти ошибку «Overclocking Failed».

Вот краткое пошаговое руководство, которое покажет вам, как очистить батарею CMOS, чтобы освободить любую информацию магазина, которая может способствовать появлению этой ошибки:

  1. Начните с выключения компьютера и отсоединения его от источника питания.
  2. После отключения питания от компьютера снимите скользящую крышку и наденьте на себя статический браслет, чтобы закрепить себя на раме и избежать повреждения компонентов, вызванного статическим электричеством.
  3. Как только вы увидете материнскую плату с высоты птичьего полета, определите батарею CMOS (обычно расположенную в одном из углов). Когда вы увидите это, используйте свой ноготь или непроводящий острый предмет, чтобы вынуть его из гнезда.Извлечение батареи CMOS
  4. После извлечения батареи CMOS подождите целую минуту, прежде чем вставлять ее обратно в гнездо.
  5. Установите крышку на место, затем снова подключите компьютер к электрической розетке и загрузите ее, чтобы проверить, решена ли проблема в настоящее время.

Обновление версии BIOS

Если ни один из описанных выше способов не позволил вам решить проблему, вполне вероятно, что вы имеете дело с проблемой BIOS, которая не будет решена до тех пор, пока вы ее не перепрограммируете. Несколько затронутых пользователей, столкнувшихся с той же проблемой, подтвердили, что наконец смогли исправить ошибку «Overclocking Failed» после обновления версии BIOS до последней версии.

Важное замечание: Если вы не проходили эту процедуру ранее, обновление BIOS не рекомендуется.

В зависимости от вашей материнской платы, шаги по обновлению вашей версии BIOS будут отличаться. У большинства производителей есть запатентованная утилита для прошивки, которая облегчит процедуру — MSI использует MFlash, Asus имеет E-Z Flash и т. Д.

Обновление версии BIOS

Если вы хотите пройти через эту процедуру, поищите в Интернете конкретные шаги по обновлению BIOS на основе модели материнской платы.

Если вы не уверены в своих технических возможностях, отнесите свой компьютер технику, чтобы избежать риска перегрузки вашей системы.

Понравилась статья? Поделить с друзьями:
  • Error on gpu1 an illegal memory access was encountered
  • Error on gpu0 unspecified launch failure
  • Error on gpu0 out of memory gminer ошибка
  • Error on gpu out of memory
  • Error on google recaptcha contact your site administrator