Nvidia cuda ошибка

вот такая вот беда при запуске клеймора 15 до этого месяц все было ок сразу после применение страпов, вот 02:54:41:702 1610 CUDA error 2 #102 - 46 02:54:41:703 1610 CUDA error 2 #102a - 46 02:54:41:704 1610 CUDA error 2 #103 - 46 02:54:41:704 1610 CUDA error 2 #105 - 46...

  • #1

вот такая вот беда при запуске клеймора 15
до этого месяц все было ок
сразу после применение страпов, вот
02:54:41:702 1610 CUDA error 2 #102 — 46
02:54:41:703 1610 CUDA error 2 #102a — 46
02:54:41:704 1610 CUDA error 2 #103 — 46
02:54:41:704 1610 CUDA error 2 #105 — 46
02:54:41:705 1610 CUDA error 3 #102 — 46
02:54:41:705 1610 CUDA error 3 #102a — 46
02:54:41:706 1610 CUDA error 3 #103 — 46
02:54:41:706 1610 CUDA error 3 #105 — 46
02:54:41:706 1610 CUDA error 4 #102 — 46
02:54:41:707 1610 CUDA error 4 #102a — 46
02:54:41:707 1610 CUDA error 4 #103 — 46
02:54:41:708 1610 CUDA error 4 #105 — 46
02:54:41:708 1610 CUDA error 5 #102 — 46
02:54:41:708 1610 CUDA error 5 #102a — 46
02:54:41:710 1610 CUDA error 5 #103 — 46
02:54:41:710 1610 CUDA error 5 #105 — 46
02:54:41:711 1610 CUDA error 6 #102 — 46
02:54:41:711 1610 CUDA error 6 #102a — 46
02:54:41:713 1610 CUDA error 6 #103 — 46
02:54:41:714 1610 CUDA error 6 #105 — 46
02:54:41:714 1610 CUDA error 7 #102 — 46
02:54:41:718 1610 CUDA error 7 #102a — 46
02:54:41:718 1610 CUDA error 7 #103 — 46
02:54:41:719 1610 CUDA error 7 #105 — 46

далее не виснет, просто ошибка и просит закрыть
что это может быть
риг на 8 карт 1066 и 1070
спасибо всем заранее кто откликнется и поможет в решении проблемы

  • #3

но до этого все работало норм и без страпов меньше скорость
случаем не может быть маленький файл подкачки
там 5х1066 и 3х1070 это суммарно 54 гига
читал вроде подкачка должа быть не ниже 54 гигов а у меня 50 только, не может быть из за этого ??
да и кстати память везде микрон страпы для 1066 -4ые а для 1070-1ые

  • #4

но до этого все работало норм и без страпов меньше скорость
случаем не может быть маленький файл подкачки
там 5х1066 и 3х1070 это суммарно 54 гига
читал вроде подкачка должа быть не ниже 54 гигов а у меня 50 только, не может быть из за этого ??
да и кстати память везде микрон страпы для 1066 -4ые а для 1070-1ые

Раньше и даг файл был зеленее

  • #5

Раньше и даг файл был зеленее

?

  • #6

Да, зеленее, ща он красный

  • #7

но до этого все работало норм и без страпов меньше скорость
случаем не может быть маленький файл подкачки
там 5х1066 и 3х1070 это суммарно 54 гига
читал вроде подкачка должа быть не ниже 54 гигов а у меня 50 только, не может быть из за этого ??
да и кстати память везде микрон страпы для 1066 -4ые а для 1070-1ые

Банальный совет- перейдите на Феникс! Намного стабильней.. и без всяких страпов!

  • #8

вот такая вот беда при запуске клеймора 15
до этого месяц все было ок
сразу после применение страпов, вот
02:54:41:702 1610 CUDA error 2 #102 — 46
02:54:41:703 1610 CUDA error 2 #102a — 46
02:54:41:704 1610 CUDA error 2 #103 — 46
02:54:41:704 1610 CUDA error 2 #105 — 46
02:54:41:705 1610 CUDA error 3 #102 — 46
02:54:41:705 1610 CUDA error 3 #102a — 46
02:54:41:706 1610 CUDA error 3 #103 — 46
02:54:41:706 1610 CUDA error 3 #105 — 46
02:54:41:706 1610 CUDA error 4 #102 — 46
02:54:41:707 1610 CUDA error 4 #102a — 46
02:54:41:707 1610 CUDA error 4 #103 — 46
02:54:41:708 1610 CUDA error 4 #105 — 46
02:54:41:708 1610 CUDA error 5 #102 — 46
02:54:41:708 1610 CUDA error 5 #102a — 46
02:54:41:710 1610 CUDA error 5 #103 — 46
02:54:41:710 1610 CUDA error 5 #105 — 46
02:54:41:711 1610 CUDA error 6 #102 — 46
02:54:41:711 1610 CUDA error 6 #102a — 46
02:54:41:713 1610 CUDA error 6 #103 — 46
02:54:41:714 1610 CUDA error 6 #105 — 46
02:54:41:714 1610 CUDA error 7 #102 — 46
02:54:41:718 1610 CUDA error 7 #102a — 46
02:54:41:718 1610 CUDA error 7 #103 — 46
02:54:41:719 1610 CUDA error 7 #105 — 46

далее не виснет, просто ошибка и просит закрыть
что это может быть
риг на 8 карт 1066 и 1070
спасибо всем заранее кто откликнется и поможет в решении проблемы

Сразу после применения страпов.., сами и ответили! Да ненужны страпы зелёным! Это байда реально нужна красным- спасение от прошивок и всякого дроча! А увеличение хешрейта со странами для зелёных- замануха Клея! В реалии от не быстрее и иногда и медленнее Феникса!

  • #9

но до этого все работало норм и без страпов меньше скорость
случаем не может быть маленький файл подкачки
там 5х1066 и 3х1070 это суммарно 54 гига
читал вроде подкачка должа быть не ниже 54 гигов а у меня 50 только, не может быть из за этого ??
да и кстати память везде микрон страпы для 1066 -4ые а для 1070-1ые

Без страпов — чтобы убедиться, что дело не в них. Попробуйте добавить -eres 0 в конфиг, уберите разгон, запускайте карты по одной. Надо-же как-то вычислить точку сбоя.

  • #10

Сразу после применения страпов.., сами и ответили! Да ненужны страпы зелёным! Это байда реально нужна красным- спасение от прошивок и всякого дроча! А увеличение хешрейта со странами для зелёных- замануха Клея! В реалии от не быстрее и иногда и медленнее Феникса!

Немного неверное утверждение. Страпы нужны картам на памяти хайникс. Остальным по боку). Одна на хайниксе всегда выдавала до 19,8 максимум, а со страпом 5 выдаёт 24,5-26(зависит от разгона). Остальные на микроне без изменений(24-25). Жду когда придумают страпы для RTX, а то 43 хэша как то маловато за её цену)). На пуле средний хэшрейт соответствует реальному.Снимок2.PNG Кстати..сперва надо запустить карты без разгона в стоке со страпами, а потом уж гнать и даунвольтить. У меня тоже в ошибку выбивало сперва с разгоном. После как клей протестировал страпы на стоковых частотах карты, всё заработало.

  • #11

Немного неверное утверждение. Страпы нужны картам на памяти хайникс. Остальным по боку). Одна на хайниксе всегда выдавала до 19,8 максимум, а со страпом 5 выдаёт 24,5-26(зависит от разгона). Остальные на микроне без изменений(24-25). Жду когда придумают страпы для RTX, а то 43 хэша как то маловато за её цену)). На пуле средний хэшрейт соответствует реальному.Посмотреть вложение 124688 Кстати..сперва надо запустить карты без разгона в стоке со страпами, а потом уж гнать и даунвольтить. У меня тоже в ошибку выбивало сперва с разгоном. После как клей протестировал страпы на стоковых частотах карты, всё заработало.

А много зелёных карт начиная с 1070 на хуниксе? Практически и нет.. ну а ниже вообще нет смысла обсуждать..

  • #12

А много зелёных карт начиная с 1070 на хуниксе? Практически и нет.. ну а ниже вообще нет смысла обсуждать..

1070 только микрон и самсунг, там хрюнекса не бывает.

  • #13

но до этого все работало норм и без страпов меньше скорость
случаем не может быть маленький файл подкачки
там 5х1066 и 3х1070 это суммарно 54 гига
читал вроде подкачка должа быть не ниже 54 гигов а у меня 50 только, не может быть из за этого ??
да и кстати память везде микрон страпы для 1066 -4ые а для 1070-1ые

Проверить элементарно, вытащи одну карту и запусти. И да, не мучай жопу, включи феникс и алга, хотя на найсе будет значительно выгоднее, эфир в жопе уже давно)

  • #14

Все эти ваши страпоны до добра не доведут, покайтесь!

  • #15

А много зелёных карт начиная с 1070 на хуниксе? Практически и нет.. ну а ниже вообще нет смысла обсуждать..

Эм..вообще то карты уровнем ниже, профитнее 1070)). Пример — 1066)) Да..койка-место 1070 занимают меньше, но по соотношению mh/w проигрывают) / 1070 — 41mh/120w=0.341 mh/w….1066 — 25mh/65w=0.384 mh/w. 2 года уже как 1066 самые эффективные в этом плане. Уже не раз обсуждалось. И если вдруг надумает любитель рыксов что то возразить, то вот и Вам расчёт 570-580 32mh/117w=0.273mh/w(не каждая ещё столько лопает). Надеюсь тут не появятся любители поспорить про потребление красных и зелёных и не будут снова говорить про 75w на рыксе 570)

  • #16

Все эти ваши страпоны до добра не доведут, покайтесь!

Многих таблетка для тайки довела?) По сути страпы это аналог таблетки) Ведь на красных также все юзают rxboost и ничего).

  • #17

1070 — 41mh/120w=0.341 mh/w….1066 — 25mh/65w=0.384 mh/w. 570-580 32mh/117w=0.273mh/w

  • #18

Дк. что там проверять)) Это арифметика). Все расчёты с калькулятора..

  • #19

1070 едва 33 выдавливают, а так согласен, у самого 90% 1066, отличные карты, при цене в 6/7 тыс

  • #20

Сразу после применения страпов.., сами и ответили! Да ненужны страпы зелёным! Это байда реально нужна красным- спасение от прошивок и всякого дроча! А увеличение хешрейта со странами для зелёных- замануха Клея! В реалии от не быстрее и иногда и медленнее Феникса!

Сто раз вам уже писал, не стоит Вам лично давать кому то советы про страпы, которые вы ни разу не использовали. Ну к чему это делать? Это обычное вредительство.

Последнее редактирование: 14 Дек 2019

Ошибки Видеокарты При Майнинге

Самое полное собрание ошибок в майнинге на Windows, HiveOS и RaveOS и их быстрых и спокойных решений

Can’t find nonce with device CUDA_ERROR_LAUNCH_FAILED

Ошибка майнера Can't find nonce

Ошибка майнера Can’t find nonce

Ошибка говорит о том, что майнер не может найти нонс и сразу же сам предлагает решение — уменьшить разгон. Особенно начинающие майнеры стараются выжать из видеокарты максимум — разгоняют слишком сильно по ядру или памяти. В таком разгоне видеокарта даже может запуститься, но потом выдавать ошибки как указано ниже. Помните, лучше — стабильная отправка шар на пул, чем гонка за цифрами в майнере.

Зарабатывай на чужих сделках на бирже BingX. Подробнее — тут.

Phoenixminer Connection to API server failed — что делать?

Ошибка Connection to API server failed

Ошибка Connection to API server failed

Такая ошибка встречается на PhoenixMiner на операционной систему HiveOS. Она говорит о том, что майнинг-ферма/риг не может подключиться к серверу статистики. Что делать для ее решения:

  • Введите команду net-test и запомните/запишите сервер с низким пингом. После чего смените его в веб интерфейсе Hive (на воркере) и перезагрузите ваш риг.
  • Если это не помогло, выполните команду dnscrypt -i && sreboot

Phoenixminer CUDA error in CudaProgram.cu:474 : the launch timed out and was terminated (702)

Ошибка майнера Phoenixminer CUDA error in CudaProgram

Ошибка майнера Phoenixminer CUDA error in CudaProgram

Эта ошибка, как и в первом случае, говорит о переразгоне карты. Откатите видеокарту до заводских настроек и постепенно поднимайте разгон до тех пор, пока не будет ошибки.

UNABLE TO ENUM CUDA GPUS: INVALID DEVICE ORDINAL

Ошибка майнера Unable to enum CUDA GPUs: invalid device ordinal

Ошибка майнера Unable to enum CUDA GPUs: invalid device ordinal

Проверяем драйвера видеокарты и саму видеокарту на работоспособность (как она отмечена в диспетчере устройств, нет ли восклицательных знаков).
Если все ок, то проверяем райзера. Часто бывает, что именно райзер бывает причиной такой ошибки.

UNABLE TO ENUM CUDA GPUS: INSUFFICIENT CUDA DRIVER: 5000

Ошибка майнера Unable to enum CUDA GPUs: Insufficient CUDA driver: 5000

Ошибка майнера Unable to enum CUDA GPUs: Insufficient CUDA driver: 5000

Аналогично предыдущей ошибке — проверяем драйвера видеокарты и саму видеокарту на работоспособность (как она отмечена в диспетчере устройств, нет ли восклицательных знаков).

NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED

Ошибка майнера NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED

Ошибка майнера NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED

Ошибка code 1073740791 nbminer возникает, если ваш риг/майнинг-ферма собраны из солянки Nvidia+AMD. В этом случае разделите майнинг на два .bat файла (или полетника, если вы на HiveOS). Один — с картами AMD, другой с картами Nvidia.

NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2) — как исправить?

Ошибка майнера NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2)

Ошибка майнера NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2)

Одна из самых распространённых ошибок на Windows — нехватка памяти, в данном случае на майнере Nbminer, но встречается и в майнере Nicehash. Чтобы ее исправить — надо увеличить файл подкачки. Файл подкачки должен быть равен сумме гб всех видеокарт в риге плюс 10% запаса. Как увеличить файл подкачки — читаем тут.

GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0

Ошибка майнера GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0

Ошибка майнера GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0

В данном случае скорее всего виноват не файл подкачки, а переразгон по видеокарте, которая идет под номером 0. Сбавьте разгон и ошибка должна пропасть.

Socket error. the remote host closed the connection, в майнере Nbminer

Socket error. the remote host closed the connection

Также может быть описана как «ERROR — Failed to establish connection to mining pool: Socket operation timed out».
Сетевой конфликт — проверьте соединение рига с интернетом. Перегрузите роутер.
Также может быть, что провайдер закрывает соединение с пулом. Смените пул, попробуйте VPN или измените адреса DNS на внешнего провайдера, например cloudflare 1.1.1.1, 1.0.0.1

Server not responded on share, на майнере Gminer

Server not responded on share

Такая ошибка говорит о том, что у вас что-то с подключением к интернету, что критично для Gminer. Попробуйте сделать рестарт роутера и отключить watchdog на майнере.

DAG has been damaged check overclocking settings, в майнере Gminer

Также в этой ошибке может быть указано Device not responding, check overclocking settings.
Ошибка говорит о переразгоне, попробуйте сначала убавить его.
Если это не помогло, смените майнер — Gminer никогда не славился работой с видеокартами AMD. Мы рекомендуем поменять майнер на Teamredminer, а если вам критична поддержка майнером одновременно Nvidia и AMD видеокарт, то используйте Lolminer.
Если смена майнера не поможет, переставьте видеодрайвер.
Если и это не поможет, то нужно тестировать эту карту отдельно в слоте X16.

ERROR: Can’t start T-Rex, failed to initialize device map: can’t get busid, code -6

Ошибки настройки памяти с кодом -6 обычно указывают на проблему с драйвером.

Если у вас Windows, используйте программу DDU (DisplayDriverUninstaller), чтобы полностью удалить все драйверы Nvidia.
Перезагрузите систему.
Установите новый драйвер прямо с сайта Nvidia.
Перезагрузите систему снова.
Если у вас HiveOS/RaveOS — накатите чистый образ системы. Чтобы наверняка. :)

TREX: Can’t unlock GPU

Полный текст ошибки:
TREX: Can’t unlock GPU [ID=1, GPU #1], error code 15
WARN: Miner is going to shutdown…
WARN: NVML: can’t get fan speed for GPU #1, error code 15
WARN: NVML: can’t get power for GPU #1, error code 15
WARN: NVML: can’t get mem/core clock for GPU #1, error code 17

Решение:

  1. Проверьте все кабельные соединения видеокарты и райзера, особенно кабеля питания.
  2. Если с первый пунктом все ок, попробуйте поменять райзер на точно рабочий.
  3. Если ошибка остается, вставьте видеокарту в разъем х16 напрямую в материнскую плату.

CAN’T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN’T GET BUSID, CODE -6

Ошибка майнера CAN'T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN'T GET BUSID, CODE -6

Ошибка майнера CAN’T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN’T GET BUSID, CODE -6

В конкретном случае была проблема в блоке питания, он не держал 3 видеокарты. После замены блока питания ошибка пропала.
Если вы уверены, что ваш мощности вашего блока питания достаточно, попробуйте сменить майнер.

Зарабатывай на чужих сделках на бирже BingX. Подробнее — тут.

ОШИБКА 511 ГРАДУСОВ НА ВИДЕОКАРТА

Ошибка 511 градусов видеокарта

Ошибка 511 градусов видеокарта

Ошибка 511 говорит о неисправности райзера или питания карты. Проверьте все соединения. Для выявления неисправности рекомендуется запустить систему с одной картой. Протестировать, и затем добавлять по одной карте.

GPU driver error, no temps в HiveOS — что делать?

Вероятнее всего, вы получили эту ошибку, майнив на HiveOS. Причин ее появления может быть несколько — как софтовая, так и аппаратная (например райзер).
Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.

Если ошибка не уйдет — проверьте райзер.

GPU are lost, rebooting

Это не ошибка, а ее последствие. Что узнать какая ошибка приводит к перезагрузке карт, сделайте следующее:

Включите сохранение логов (по умолчанию они выключены) командой

logs-on

И перезагрузите риг.
После того как ошибка повторится можно будет скачать логи командами ниже.
Вы можете использовать следующую команду, чтобы загрузить логи майнера прямо с панели мониторинга;

message file «miner.log» -f=/var/log/miner/minername/minername.log

Итак, скажем, например, мне нужны логи TeamRedMiner
message file «teamredminer.log» -f=/var/log/miner/teamredminer/teamredminer.log

Отправленная командная строка будет выделена синим цветом. Загружаемый файл будет отображаться белым цветом. Нажав на него, вы сможете его скачать.
Эта команда позволит скачать лог системы

message file «syslog» -f=/var/log/syslog

exitcode=3 в HiveOS

Вероятнее всего, вы получили эту ошибку, майнив на HiveOS. Причин ее появления может быть несколько — как софтовая, так и аппаратная (например райзер).
Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.

Если ошибка не уйдет — проверьте райзер.

exitcode=1 в HiveOS

Данная ошибка возникает когда есть проблема с датой в биосе материнской платы (сбитое время) и (или) есть проблема с интернетом.
Если сбито время, то удаленно вы не сможете подключиться.
Тем не менее, обновление драйверов Nvidia должно пройти командой:

nvidia-driver-update —list

gpu fault detected 146

Скорее всего вы пытаетесь майнить с помощью Phoenix miner. Решения два:

  1. Откатитесь на более старую версию, например на 5.4с
  2. (Рекомендуемый вариант) Используйте Trex для видеокарт Nvidia и TeamRedMiner для AMD.

Waiting interface to come up — не работает VPN на HiveOS

Waiting interface to come up

Начните с логов, чтобы понять какая именно ошибка вызывает эту проблему.
Команды для получения логов:
systemctl status openvpn@client
journalctl -u openvpn@client -e —no-pager -n 100

Как узнать ip адрес воркера hive os

Как узнать ip адрес воркера hive os

Самое простое — зайти в воркера и прокрутить страницу ниже видеокарт. Там будет указан Remote IP — это и есть внешний IP.
Альтернативный вариант — вы можете проверить ваш внешний айпи адрес hive через консоль Hive Shell:
Выполните одну из команд:
curl 2ip.ru
wget -qO- eth0.me
wget -qO- ipinfo.io/ip
wget -qO- ipecho.net/plain
wget -qO- icanhazip.com
wget -qO- ipecho.net
wget -qO- ident.me

Repository update failed в HiveOS

Иногда встречается на HiveOS. Полный текст ошибки:

Some index files failed to download. They have been ignored, or old ones used instead.
Repository update failed
------------------------------------------------------
> Restarting autofan and watchdog
> Starting miners
Miner screen is already running
Run miner or screen -r to resume screen
Upgrade failed

Решение:

  1. Выполнить команду apt update && selfupgrade -f
  2. Если не сработала и она, то 99.9%, что разработчики HiveOS уже знают об этой проблеме и решают ее. Попробуйте выполнить обновление через некоторое время.

Rave os не запускается. Boot aborted Rave os

Boot aborted Rave os

Перепроверьте все настройки ПК и БИОСа материнской платы:
— Установите загрузочное устройство HDD/SSD/M2/USB в зависимости от носителя с ОС.
— Включите 4G decoding.
— Установите поддержку PCIe на Auto.
— Включите встроенную графику.
— Установите предпочтительный режим загрузки Legacy mode.
— Отключите виртуализацию.

Если после данных настроек не определяется часть карт, то выполните следующие настройки в BIOS (после каждого пункта требуется полная перезагрузка):

— Отключите 4G decoding
— Перезагрузка
— Отключите CSM
— Перезагрузка
— Включите 4G decoding, установите PCI-E Gen2/3, а при отсутствии Gen2/3, можно выбрать Gen1

Failed to allocate memory Raveos

Эта же ошибка может называться как:
failed to allocate initramfs memory bailing out, failed to load idlinux c.32
или
failed to allocate memory for kernel boot parameter block
или
failed to allocate initramfs memory raveos bailing

Но решение у нее одно — вы должны правильно настроить БИОС материнской платы.

gpu_driver_fault, GPU #0 fault в RaveOS

gpu_driver_fault, GPU #0 fault в RaveOS

В большинстве случаев эта проблема решается уменьшением разгона (особенно по памяти) на конкретной видеокарте (на скрине это карта номер 0).
Если уменьшение разгона не помогает, то попробуйте обновить драйвера.
Если обновление драйверов не привело к решению проблемы, то попробуйте поменять райзер на этой карте на точно работающий.
Если и это не помогает, перепроверьте все кабельные соединения и мощность блока питания, хватает ли его для вашей конфигурации.

Gpu driver fault. All tasks have been stopped. Worker will be rebooted after 5 minutes в RaveOS

Gpu driver fault. All tasks have been stopped. Worker will be rebooted after 5 minutes

Что приводит к появлению этой ошибки? Вероятно, вы переразогнали видеокарту (часто сильно гонят по памяти), сбавьте разгон. На скрине видно, что проблему дает именно GPU под номером 1 — начните с нее.
Вторая частая причина — нехватка питания БП на систему с видеокартами. Учтите, что сама система потребляет не менее 100 вт, каждый райзер еще закладывайте 50 вт. БП должно хватать с запасом в 20%.

Miner restarted after error RaveOS

Смотрите логи майнера, там будет указана конкретная ошибка, которая приводит к miner restarted. После этого найдите ее на этой странице и исправьте. Проблема уйдет. :)

Miner restart limit reached. Worker rebooting by flag auto в RaveOS

Аналогично предыдущему пункту — смотрите логи майнера, там будет указана конкретная ошибка, которая приводит к рестарту воркера. Пофиксите ту ошибку — уйдет и эта проблема.

Miner cannot be started, ОС RaveOS

Непосредственно перед этой ошибкой обычно пишется еще другая, которая и вызывает эту проблему. Но если ничего нет, то:

  1. Поставьте майнер на паузу, перезагрузите риг и в консоли выполните команды clear-miners clear-logs и fix-fs. Запустите майнинг.
  2. Если ошибка не ушла, перепишите образ RaveOS.

Overclock can’t be applied в RaveOS

Эта ошибка означает, что значения разгона между собой конфликтуют или выходят за пределы допустимых. Перепроверьте их. Скиньте разгон на стоковый и попробуйте еще раз.
В редких случаях причиной этой ошибки также становится райзер.

Error installing hive miners

Error installing hive miners

Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.

Если ошибка не уйдет — физически перезапишите образ. Если у вас флешка, то скорее всего она умерла. Купите SSD. :)

Warning: Nvidia settings applied with errors

Переразгон. Снизьте значения частот ядра и памяти. После этого перезагрузите риг.

Nvtool error или Danger: nvtool error

Скорее всего при установке драйвера появилась проблема с модулем nvtool
Попробуйте переустановить драйвер Nvidia командой через Hive shell:
nvidia-driver-update версия_драйвера —force
Или попробуйте обновить систему полностью командой из Hive shell:
hive-replace -y —stable

nvtool error

Перестал отображаться кулер видеокарты HiveOS

0% скорости вращения кулера.
Это может произойти по нескольким причинам:

  • кулер действительно не крутится
  • датчик оборотов отключен или сломан
  • видеокарта слишком агрессивно работает (высокий разгон)
  • неисправен райзер или одно из его частей

ERROR: parsing JSON failed

Необходимо выполнить на риге локально (с клавиатурой и монитором) следующую команду:
net-test

Данная команда покажет ваше текущее состояние подключения к разным зеркалам API серверов HiveOS.
Посмотрите, к какому API у вас наименьшая задержка (ping), и когда воркер снова появится в панели, измените стандартное зеркало на то, что ближе к вам.
После смены зеркала, в обязательном порядке перезагрузите ваш воркер.
Изменить сервер API вы можете командой nano /hive-config/rig.conf
После смены нажмите ctrl + o и ентер для того чтобы сохранить файл.
После этого выйдите в консоль командой ctrl + x, f10 и выполните команду hello

NVML: can’t get fan speed for GPU #5, error code 999 hive os

Проблема с скоростью кулеров на GPU 5
0% скорости вращения кулера / ошибки в целом
Это может произойти по нескольким причинам:
— кулер действительно не крутится
— датчик оборотов отключен или сломан
— видеокарта слишком агрессивно работает (высокий разгон)
Начните с визуальной проверки карты и ее кулера.

Can’t get power for GPU #2

Как правило эта ошибка встречается рядом вместе с другими:
Attribute ‘GPUGraphicsClockOffset’ was already set to 0
Attribute ‘GPUMemoryTransferRateOffset’ was already set to 2200
Attribute ‘GPUFanControlState’ (hive1660s_ETH:0[gpu:2]) assigned value
0.

20211029 12:40:50 WARN: NVML: can’t get fan speed for GPU #2, error code 999
20211029 12:40:50 WARN: NVML: can’t get power for GPU #2, error code 999
20211029 12:40:50 WARN: NVML: can’t get mem/core clock for GPU #2, error code 999

Решение:

Проверьте корректность установки драйвера на видеокарте.
Убедитесь что нет проблем с драйвером, если все в порядке, то попробуйте другой параметр разгона. Например уменьшить разгон по памяти.

GPU1 search error: unspecified launch failure

Уменьшите разгон и проверьте контакты райзера

Warning: Autofan: unable to set fan speed, rebooting

Найдите логи майнера, посмотрите какие ошибки майнер пишет в логах. Например:

kernel: [12112.410046][ T7358] NVRM: GPU at PCI:0000:0c:00: GPU-236e3bef-2e03-6cdb-0518-7ac01eb8736d
kernel: [12112.410049][ T7358] NVRM: Xid (PCI:0000:0c:00): 62, pid=7317, 0000(0000) 00000000 00000000
kernel: [12112.433831][ T7358] NVRM: Xid (PCI:0000:0c:00): 45, pid=7317, Ch 00000010
CRON[21094]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)

Исходя из логов, мы видим что есть проблема с видеокартой на слоте PCIE 0c:00 (под номером Gpu пишется номер PCIE слота) с ошибками 45 и 62
Коды ошибок (других, которые также могут быть там) и что с ними делать:

• 13, 43, 45: ошибки памяти, снизить MEM
• 8, 31, 32, 61, 62: снизить CORE, возможно и MEM
• 79: снизить CORE, проверить райзер

Ошибка Kernel-Power код 41

Проверьте все провода (от БП до карт, от БП до райзеров), возможно где-то идёт оплавление. Если визуальный осмотр показал, что все ок, то ошибка программная и вам нужно переустановить Windows.

Danger: hive-replace -y —stable (failed, exitcode=137)

Очень редкая ошибка, которая вылезла в момент удаленного обновления образа HiveOS. Она не встречается в тематических майнинг группах и сайтах. Не поверите что произошло.
На балконе, где стоял риг, поселилась семья голубей. Они засрали риг, в прямом смысле, из-за этого он постоянно уходил в оффлайн. После полной продувки материнской платы и видеокарт проблема решилась сама.

MALFUNCTION HIVEOS

Malfunction — неисправность. Причин и решений может быть несколько:

  • Вам следует переустановить видео драйвер;
  • Если драйвер не помог, тогда отключайте все GPU и поочередно вставляйте по 1 шт, и смотрите вызовет ли какая-то видеокарта подобную ошибку или нет. Если да, то возможно это райзер.
  • Неисправен носитель, на который записана Hive OS, запишите образ еще раз.

Не нашли своей ошибки? Помогите сделать мир майнинга лучше. Отправьте ее по этой форме и мы обновим наш гайд в самое ближайшее время.

Устранение неполадок с GCP + CUDA / NVIDIA + Docker и поддержание его работоспособности!


  Перевод


  Ссылка на автора

У меня был экземпляр Google Cloud Platform (GCP), который был хорошо настроен и работал нормально день назад, который был настроен после моего предыдущий урок,

Что происходит после настройки GCP Computing Instance? Запуск пользовательского контейнера Docker с Tensorflow

Введение

medium.com

Позвольте мне рассказать вам немного о машине, которую я имел,

  • Ubuntu: 16.04
  • GPU: 1 х P100
  • CUDA: 9,1
  • NVIDIA: 387.xx

Но что-то действительно странное случилось со мной, когда я запустил свой экземпляр GCP и попытался запустить докер-контейнер вчера, используя

sudo docker start <container_name>
sudo docker attach <container_name>

Что произошло?

Нет, это не сработало так, как я хотел, и забрало меня в контейнер. Вместо этого он дал мне следующую ошибку

Error response from daemon: linux runtime spec devices: error gathering device information while adding custom device “/dev/nvidiactl”: no such file or directory
Error: failed to start containers: x

Скорее всего, это произошло потому, что мой экземпляр GCP смело решил, что было бы неплохо идти вперед и обновлять все самому, и все будет волшебным образом работать намного лучше! Ну, у меня есть новости! Так не бывает.Поэтому было бы очень полезно, если бы GCP давал нам возможность отключать автоматические обновления во время начальной настройки., На самом деле, было много сообщений о том, что драйверы NVIDIA бананы (или отсутствуют) с другими обновлениями (доказательства 1, 2, 3).

Бурение вниз…

Хорошо, прежде чем углубляться в детали поиска и устранения неисправностей, позвольте мне кратко изложить, что я собираюсь сделать.

  • Проверьте, распознается ли мой GPU (физически) машиной
  • Проверьте, может ли NVIDIA видеть GPU
  • Если NVIDIA не видит графический процессор, проверьте, установлены ли у вас пакеты CUDA / NVIDIA, и проверьте, правильно ли загружены драйверы NVIDIA.
  • Если пакеты CUDA / NVIDIA установлены правильно, попробуйте исправить переменные PATH
  • Если исправление переменных PATH не помогло, удалите все существующие пакеты CUDA / NVIDIA и попробуйте переустановить совместимые пакеты CUDA и NVIDIA.
  • Выключите автоматическое обновление, чтобы я обновлял вещи вручную, не нарушая все.

Мой GPU распознается машиной?

Прежде всего, прежде чем проверять, правильно ли установлены библиотеки, посмотрите, видит ли ваша машина физический GPU, набрав:

lspci | grep 3D

Это должно дать что-то вроде

00:04.0 3D controller: NVIDIA Corporation Device 15f8 (rev a1)

В противном случае это может быть связано с отключением графического процессора или просто выталкиванием из гнезда, потому что вы переместили машину или что-то еще.

Проверьте состояние графического процессора с помощью интерфейса управления системой NVIDIA (NVIDIA-SMI)

Первое, что нужно сделать, этоНЕделать поспешные выводы и строго набирать текстsudo apt-get install <this-and-that> надеюсь на лучшее! На самом деле, лучшая вещь в такой ситуации (и в большинстве случаев игнорируется) состоит в том, чтобы определить, в чем проблема. Сначала давайте посмотрим, что у нас есть. Давай и печатай,

nvidia-smi

В идеале вы должны получить что-то вроде

Рисунок 1: Вывод nvidia-smi

Это не сработало :(

Если вы получите что-то вроде,

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

Это может быть связано с двумя причинами,

  • Вы не вошли в систему как root, поэтому NVIDIA не может общаться (Решение:введитеsudo -sвойти в систему как root и затем попробоватьnvidia-smiопять таки)
  • На самом деле у вас не установлены совместимые драйверы NVIDIA (или конфигурация не работает) (Решение требует больше работы, И это тип вопроса, который я обсуждаю здесь)

Исправление отсутствующих библиотек CUDA / NVIDIA

Поэтому, чтобы NVIDIA-SMI работала правильно, вам нужно несколько вещей для правильной настройки. Они есть,

  • CUDA (включает в себя, куда-блас-, cuda-nvcc-, cuda-toolkit-, так далее.)
  • Библиотеки NVIDIA (Включает в себя NVIDIA-, nvidia-docker, nvidia-modprobe, nvidia-settings и т. д.)

Давайте проверим, установлены ли они, попробуйте набрать

dpkg -l | grep nvidia

Вы должны получить

Рисунок 2: Вывод dpkg -l | grep nvidia

Следующая попытка,

dpkg -l | grep cuda

это должно дать

Рисунок 3: Вывод dpkg -l | Grep Cuda

Обратите внимание, что фактический список гораздо длиннее. Но если получить довольно много хитов для CUDA, все должно быть в порядке. Но не становитесь слишком удобными! Я сталкивался с вещами, которые не работали даже с этими установленными.

Проверка загрузки модулей ядра NVIDIA

Давайте еще раз проверим, правильно ли загружаются модули ядра NVIDIA,

dmesg | grep NVIDIA

В идеале вы должны увидеть,

[ 2.261511] nvidia: module license ‘NVIDIA’ taints kernel.
[ 2.316304] NVRM: loading NVIDIA UNIX x86_64 Kernel Module 384.111 Tue Dec 19 23:51:45 PST 2017 (using threaded interrupts)
[ 2.319524] nvidia-modeset: Loading NVIDIA Kernel Mode Setting Driver for UNIX platforms 384.111 Tue Dec 19 22:56:18 PST 2017

Если вы ничего не видите, это проблематично! Это означает, что драйверы NVIDIA не были загружены должным образом.

Может ли это быть неверная конфигурация переменной PATH?

Если вы получаете оба этих вывода, как они показаны, но не правильноdmesgсообщение, у вас есть все необходимое в машине. Так что это может быть связано с некоторой простой неправильной настройкой переменных PATH. Так что откройте.bashrcфайл и добавить следующие две строки к нему.

PATH=/usr/local/cuda-9.1/bin${PATH:+:${PATH}}
LD_LIBRARY_PATH=/usr/local/cuda-9.1/lib64 ${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

Затем выйдите из текстового редактора и запустите

source ~/.bashrc

Перезагрузите машину и посмотрите, все ли работает нормально, попробовавnvidia-smiопять таки. (PS: не забудьте попробовать сsudoпривилегии)

Не так повезло? Самое время переустановить вещи вручную

Если вы читаете эту часть, вам не повезло, как некоторым из людей там. Хорошо, давайте идти вперед и трудиться на земле! По моему мнению, больше не стоит копать глубже и пытаться найти единственное зерно ошибки в чаше, полной библиотек На самом деле, было бы намного проще, если бы мы удалили текущие поврежденные библиотеки и установили вещи с нуля.

Узнайте правильные версии библиотеки

Сначала мы должны выяснить, что и с чем. Под этим я подразумеваю, что мы должны убедиться, что мы загружаем определенные (и правильные) версии драйверов CUDA и NVIDIA, соответствующие вашей графической карте. Итак, давайте продолжим и узнаем, что является последним.

Перейти к,

Скачать драйверы | NVIDIA

Загрузите драйверы для продуктов NVIDIA, включая видеокарты GeForce, материнские платы nForce, рабочие станции Quadro и…

www.nvidia.com

И введите подробности о,

  • Графическая карта: у меня NVIDIA Tesla P100
  • CUDA: поехали с 9.x

Вот результаты, которые я получил,

Рисунок 4: Версии драйвера / библиотеки

Теперь мы будем придерживаться этих конкретных версий при установке, чтобы избежать любых расхождений.

Удалить существующие библиотеки CUDA / NVIDIA

Сначала давайте удалим все существующие библиотеки CUDA / NVIDIA с помощью

sudo apt-get remove --purge cuda*
sudo apt-get remove --purge nvidia*

Установите CUDA / NVIDIA

Сначала получите инструментарий CUDA.debс,

wget http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/cuda-repo-ubuntu1604_9.1.85-1_amd64.debsudo dpkg -i cuda-repo-*sudo apt-get updatesudo apt-get install cuda -y

Перезагрузите систему и попробуйте,

sudo dpkg -l | grep cuda
sudo dpkg -l | grep nvidia

и вы должны увидеть правильный вывод, как показано на рисунке 2 и рисунке 3.

Время для взлома …

Я только что понял драйвер NVIDIA387.xxкоторый поставляется с CUDA 9.1, не работает для моего NVIDIA Tesla P100. Поэтому мне пришлось сначала удалить его и установить NVIDIA384.xx, Это может отличаться для вас в зависимости от карты GPU, которая у вас есть в вашем экземпляре.

Вы знаете, что странно! Я прекрасно работал с CUDA 9.1 и NVIDIA 387.xx, как показано на рисунке 1. Но теперь NVIDIA 387.xx больше не был совместим с CUDA 9.1. Я не уверен, почему, но, надеюсь, смогу докопаться до сути!

Давайте сделаем это,

sudo apt-get remove --purge nvidia-*

Теперь давайте установим драйвер NVIDIA 384.xx вручную,

sudo apt-get install nvidia-384
sudo apt-get install nvidia-modprobe

Тебе понадобитсяnvidia-modprobe дляnvidia-docker, Теперь сделайте быструю проверку переменных пути, чтобы увидеть, правильно ли они установлены

echo $PATH : You should have /usr/local/cuda-<version>/bin in this variable
echo $LD_LIBRARY_PATH : You should have/usr/local/cuda-<version>/lib64 in this variable

Сейчас попробуйnvidia-smiи вы должны увидеть нечто похожее на рисунок 1, означающее, что все вернулось к норме (надеюсь!).

Выключите автоматическое обновление!

Еще одна вещь, не забывайте, с чего все это началось. Это были автоматические обновления. Обновления важны для защиты вашей машины от внешних угроз и всего остального, но если она будет ломать мою машину каждые 5 секунд, которые я обновляю, НЕТ, СПАСИБО! Я сам обновлю его вручную. Чтобы сделать это, откройте следующий файл в текстовом редакторе,

/etc/apt/apt.conf.d/10periodic

и установить

APT::Periodic::Update-Package-Lists “0”;

Это должно остановить эти «надоедливые» (но важные) автоматические обновления. Но не забывайте регулярно обновлять свою ОС, потому что вы не хотите, чтобы кто-то взломал вашу машину.

Вывод

pixabay.com

Итак, в этом посте мы обсудили, как устранить неполадки в экземпляре GCP, если у вас возникнут проблемы с поврежденной конфигурацией, отсутствующими драйверами и т. Д. И процесс, который я рекомендую, —

  • Проверьте, распознается ли мой GPU (физически) машиной
  • Проверьте, может ли NVIDIA видеть GPU
  • Если NVIDIA не видит графический процессор, проверьте, установлены ли у вас пакеты CUDA / NVIDIA, и проверьте, правильно ли загружены драйверы NVIDIA.
  • Если пакеты CUDA / NVIDIA установлены правильно, попробуйте исправить переменные PATH
  • Если исправление переменных PATH не помогло, удалите все существующие пакеты CUDA / NVIDIA и попробуйте переустановить совместимые пакеты CUDA и NVIDIA.
  • Выключите автоматическое обновление, чтобы я обновлял вещи вручную, не нарушая все.

Ура!

Содержание

  1. Почему не удается на Windows 10 установить драйвер Nvidia и решение проблемы
  2. Зачем нужен видеодрайвер
  3. Почему не удается установить драйвер Nvidia на Window 10
  4. Как решить проблему
  5. Деинсталляция компонентов NVIDIA
  6. Поиск и скачивание драйверов
  7. Инсталляция драйверов
  8. Установка Tensorflow с поддержкой CUDA, cuDNN и GPU в Windows 10
  9. Шаг 1: Проверьте программное обеспечение, которое вам нужно установить
  10. Шаг 2: Загрузите Visual Studio Express
  11. Visual Studio является обязательным условием для CUDA Toolkit
  12. Выбор и загрузка Visual Studio Express
  13. Установка Visual Studio Express
  14. Шаг 3: Загрузите CUDA Toolkit для Windows 10
  15. Шаг 4: Загрузите исправления CUDA для Windows 10
  16. Шаг 5: Загрузите и установите cuDNN
  17. Шаг 6: Установите Python (если у вас его еще нет)
  18. Шаг 7: Установите Tensorflow с поддержкой GPU
  19. Шаг 8: Тестовая установка TensorFlow и его доступ к GPU
  20. Выводы

Почему не удается на Windows 10 установить драйвер Nvidia и решение проблемы

Windows создавалась программистами для тех же программистов. Конечного пользователя не спрашивали, хочется ли ему иметь возможность кастомизировать устройство и иметь много проблем, которые остались даже спустя 35 лет после выхода первой версии. Одна из таких – драйверы их установка. Поиск необходимого софта, проверка версий и зависимость работы ПК от этого. Разберемся, почему может не удаваться установить драйверы Nvidia и что с этим делать на Windows 10.

Зачем нужен видеодрайвер

Компьютер состоит из множества отдельных частей. Их называют комплектующими. Они соединяются в одно целое с помощью внешней оболочки программного обеспечения. В нашем случае – Windows.

Чтобы каждое устройство выполняло свою функцию, необходимо их соединить с помощью специального софта, в котором будет записано:

  • что это за устройство;
  • какие функции выполняет;
  • какими характеристиками обладает.

В роли связующего звена между оболочкой и каждой программной частью выступают драйверы. Это специальный софт, который позволяет ПК понять, чем он обладает и как может все реализовать. В клавиатуру и мышку такие программы встроены изначально – при подключении они распознаются компьютером, быстро ставятся и позволяют работать.

Видеокарты не содержат в себе встроенных программ для установки. ПК увидит устройство, но не будет знать, что с ним делать. Владельцу компьютера будет предложено установить специальный софт, и только после этого можно начинать работу.

Почему не удается установить драйвер Nvidia на Window 10

На Виндовс 10 много причин ошибки с установкой программ. Перечислим распространенные:

  • разрядность системы не соответствует софту;
  • отсутствие последних обновлений;
  • уже стоит устаревшее ПО Нвидиа;
  • неисправность видеокарты.

За исключением неисправности, другие проблемы можно решить. Если драйвер не устанавливается, от пользователя не требуется особых знаний и умений – достаточно следовать инструкциям.

Как решить проблему

Первое, что нужно сделать – понять, почему софт не может быть установлен. Тут все просто: большинство проблем связаны с пользователями. Ошибки, невнимательность и подобные вещи встречаются слишком часто.

Нужно сначала проверить разрядность системы и софта. Чтобы все это узнать, нужно:

  • кликнуть правой кнопкой мыши по ярлыку «Мой компьютер»;

  • нажать «Свойства»;
  • в появившемся окне узнать разрядность процессора.

32 или 64 бита – критическая разница. Она влияет на софт, и конфликтующие программы не могут быть установлены. Чтобы узнать, какой версии программа, достаточно посмотреть на название. Там будет х32 или х64.

Если проблема не в этом – переходим к следующему этапу.

Деинсталляция компонентов NVIDIA

Установка драйверов поверх существующих невозможна. Сначала их нужно убрать. Для этого надо инициировать процесс деинсталляции. Удалить все компоненты и записи в реестре.

Вручную это сделать сложно – нужно убирать все записи и файлы, разбросанные по всему ПК. Программа Revo Uninstaller позволяет удалить все драйвера на видеокарте, удалив все записи из реестра.

Если до этого удаление софта не производилось, можно перезапустить ПК и попробовать посмотреть, что получится. Если компьютер загрузился нормально, а все необходимое установлено – значит, проблема решена. Если нет – продолжаем.

Поиск и скачивание драйверов

После полной деинсталляции нужно найти последние версии драйверов. Лучше это делать на официальном сайте Nvidia или с помощью специализированного софта от компании. Вне зависимости от вариантов, на ПК и ноутбуках понадобится последнее обновление Win 10.

Установить специальный софт можно вручную или с помощью программ. Driver Booster и Driver Easy – комплексное решение для всех проблем. Не придется самостоятельно просматривать официальные сайты производителя видеокарт.

Инсталляция драйверов

Установка драйверов производится так же, как и в случае с любой другой программой. Запуск –> анализ системы –> поставить необходимые компоненты –> перезагрузить ПК. Если в процессе установки возникли проблемы, решаем их.

Те, кто следовал инструкции с самого начала, с ними не столкнутся. Исключение – код ошибки 43. Это связано со старыми версиями ПО и видеокарт, которые не могут соответствовать последней Win 10.

В 95 % случаев видеокарта неисправна, и ее нужно ремонтировать или менять на новую.

Установка Tensorflow с поддержкой CUDA, cuDNN и GPU в Windows 10

Дата публикации Apr 3, 2019

ВЧасть 1В этой серии я рассказал о том, как вы можете модернизировать аппаратное обеспечение своего ПК, добавив в него видеокарту, совместимую с CUDA Toolkit, например графический процессор Nvidia. В этой части 2 рассматривается установка CUDA, cuDNN и Tensorflow в Windows 10. В данной статье предполагается, что на вашем компьютере уже установлен CUDA-совместимый графический процессор; но если у вас этого еще нет,Часть 1из этой серии поможет вам настроить аппаратное обеспечение, готовое к этим шагам.

Шаг 1: Проверьте программное обеспечение, которое вам нужно установить

Предполагая, что Windows уже установлена ​​на вашем ПК, дополнительные части программного обеспечения, которые вы установите в рамках этих шагов: —

  • Microsoft Visual Studio
  • инструментарий NVIDIA CUDA
  • NVIDIA cuDNN
  • питон
  • Tensorflow (с поддержкой GPU)

Шаг 2: Загрузите Visual Studio Express

Visual Studio является обязательным условием для CUDA Toolkit

Visual Studio требуется для установки Nvidia CUDA Toolkit (это обязательное условиеВот). Если вы попытаетесь загрузить и установить CUDA Toolkit для Windows без предварительной установки Visual Studio, вы получите сообщение, показанное на рис. 1.

Выбор и загрузка Visual Studio Express

На момент написания этой статьи самой последней версией Visual Studio (которая является бесплатной) является Visual Studio Express Community Version 2017, показанная на рис. 2. Предыдущие версии Visual Studio можно бесплатно получить, присоединившись к «Visual Studio Dev Essentials”И затем ищите нужную версию Visual Studio.

Установка Visual Studio Express

После того, как вы загрузили Visual Studio Express, его установка проста. На рис. 3 показан исполняемый файл, который вы получаете в качестве загрузки.

Когда вы нажимаете опцию «сохранить файл» на рис. 3, появляется окно на рис. 4, где вы можете установить параметры установки (или просто оставить их, как они есть по умолчанию, как я).

Во время установки Visual Studio предложит вам whetherхочу продолжить без нагрузки». Я нажал «продолжить», поскольку не собирался использовать рабочие нагрузки вообще.

Может потребоваться перезагрузка компьютера после установки Visual Studiod

После установки Visual Studio я сразу перешел к загрузке и попытке установить CUDA Toolkit для Windows — этот шагШаг 3который я буду описывать дальше. Я получил сообщение, чтоVisual Studio все еще работала и препятствовала установке CUDA Toolkit, Перезагрузка моего компьютера перед попыткой установки CUDA Toolkit снова решила эту проблему.

Эти шаги установки CUDA основаны наРуководство по установке Nvidia CUDA для Windows, Набор инструментов CUDA (бесплатный) можно загрузить с веб-сайта NvidiaВот,

На момент написания по умолчанию предлагается версия CUDA Toolkit версии 10.0, как показано на рис. 6. Однако вам следует проверить, какую версию CUDA Toolkit вы выбрали для загрузки и установки, чтобы обеспечить совместимость с Tensorflow (в будущемШаг 7этого процесса). Когда вы идете наВеб-сайт Tensorflow, последняя доступная версия Tensorflow (1.12.0) требуетCUDA 9.0не CUDA 10.0. Чтобы найти CUDA 9.0, вам нужно перейти к «Legacy Releases» в нижней правой части рисунка 6.

Шаг 3.1: Загрузка CUDA 9.0 из архива инструментария CUDA

Выбрав «Legacy Releases», вы попадете в архив CUDA Toolkit. На основеУстановка TensorflowВ соответствии с указаниями, требуемая версия CUDA — 9.0, как показано на Рис. 7.

Шаг 3.2: Установка CUDA 9.0

CUDA 9.0 поставляется как базовая установка и четыре патча; Сначала необходимо установить базовую версию CUDA 9.0, а затем патчи. Варианты базовой установки, которые я выбрал, показаны на рис. 8.

Запуск только что загруженного базового установщика приведет к появлению окна CUDA Setup Package, как показано на рисунке 9.

Программа установки CUDA извлекает данные на ваш компьютер, и после завершения начнется установка NVIDIA CUDA Toolkit; вы получите сообщение об этом Полученные окна установщика NVIDIA на протяжении всего процесса установки показаны на Рис. 10 — Рис. 13. Я выбрал вариант быстрой установки (Рис. 10).

Рис. 11 дает возможность выбрать место установки; Я выбрал расположение по умолчанию, которое для CUDA:

На рисунке 12 ниже показаны установки CUDA, основанные на Visual Studio, ранее установленной вШаг 1,

Нажатие «Далее» в окне, показанном на рис. 12 выше, дает окно окончательной установки, показанное как рис. 13 ниже, где установщик NVIDIA отмечен как завершенный.

Шаг 4: Загрузите исправления CUDA для Windows 10

На момент написания этой книги было четыре патча CUDA (а также базовый установщик), так что давайте пойдем и загрузим их. Они показаны на фиг.14.

Когда четыре исправления загружены, их можно установить так же, как и базовый установщик — с окнами установки, обеспечивающими руководство по процессу.

Шаг 5: Загрузите и установите cuDNN

После установки базового установщика CUDA 9.0 и его четырех исправлений следующим шагом будет поиск совместимой версии CuDNN. Основываясь на информации на веб-сайте Tensorflow, для поддержки Tensorflow с графическим процессором требуется версия cuDNN по адресуминимум 7,2,

Шаг 5.1: Загрузка cuDNN

Для того, чтобыскачать CuDNNВы должны зарегистрироваться, чтобы стать участником программы разработчиков NVIDIA (которая бесплатна).

Когда вы создаете учетную запись, входите в систему и заполняете некоторые другие необходимые сведения о том, почему вы используете учетную запись, вы получаете страницу загрузки, показанную на рис. 16.

Поскольку я скачал CUDA 9.0, соответствующая версия cuDNN — это версия 7.4.2. Выбор cuDNN версии 7.4.2 разрешает загрузку в виде zip-файла с именем следующим образом:

Шаг 5.2: Распаковка файлов cuDNN и копирование в папки CUDA

инструкциина нвидииобеспечить поддержку установки windows cuDNN, как и инструкции на веб-сайте Tensorflow; Я воспроизвел эти инструкции в дистиллированном виде, основываясь на своей реализации. В моем случае я загрузил названный выше файл cuDNN .zip в папку с следующим путем на моем ПК (ваш путь, без сомнения, будет другим).

В приведенных ниже инструкциях я ссылаюсь на путь к папке «C: Users жо Documents cuDNN_downloads »(Упоминается чуть выше) как« », Такой, что zip-файл теперь находится в пути:

Я разархивировал файл cuDNN «.zip», в который я его скачал, поэтому структура разархивированной папки, которая будет содержать необходимые файлы cuDNN, теперь: —

В разархивированных подкаталогах папки cuDNN находятся три файла, которые нужно скопировать в каталоги CUDA Toolkit. Это cudnn64_7.dll, cudnn.h и:

1. cudnn64_7.dll

cudnn64_7.dll можно найти по следующему пути в загруженных файлах cuDNN:

Предполагая, что вы установили CUDA 9.0 по пути по умолчанию (как я сделал вШаг 2.3), а именно следующий путь по умолчанию:

Вы можете скопироватьcudnn64_7.dllфайл прямо в папку CUDAбункерПуть к папке (примечание: вам не нужно создавать какие-либо новые подпапки):

2. cudnn.h

Как и в случае с файлом cudnn64_7.dll, приведенным выше, после загрузки и разархивирования папки cuDNN файл заголовкаcudnn64.hможно найти в пути:

Опять же, предполагая, что вы установили CUDA 9.0 в путь по умолчанию, как я сделал вШаг 2.3скопироватьcudnn.hнепосредственно в папку CUDA по следующему пути (новые подпапки не нужны):

3. cudnn.lib

.Lib файлcudnn.libможно найти в загруженном пути cuDNN:

Скопируйте cudnn.lib непосредственно в папку CUDA по следующему пути:

Шаг 5.3: Проверка того, что переменные среды CUDA установлены в Windows

Наконец,инструкции на нвидииубедитесь, что вы ранее установили переменную среды CUDA следующим образом:

В Windows 10 переменные среды можно найти, выбрав:

Панель управления->Система и безопасность->система->Расширенные настройки системы,

Откроется окно «Свойства системы» (рис. 17), в котором следует выбрать кнопку «Переменные среды».

Когда появится окно «Переменные среды», в «системных переменных» (в нижней половине окна) нажмите «Путь» и нажмите кнопку «Изменить». Появится новое окно под названием «Редактировать переменную среды», как показано на рисунке 18 ниже.

При проверке переменных среды я обнаружил процесс установки, который определяет путь установки CUDA —Шаг 3.2см. рис. 11 — уже добавлены два пути к CUDA. Эти пути показаны на рисунке 18 ниже, поэтому я обнаружил, что мне не нужно добавлять дополнительный путь CUDA.

Шаг 6: Установите Python (если у вас его еще нет)

Теперь, когда CUDA и cuDNN установлены, пришло время установить Python для последующей установки Tensorflow. На момент написания самой последней доступной версии Python 3 является Python 3.7, ноВерсии Python 3, необходимые для Tensorflow: 3.4, 3.5 или 3.6, Python 3.6 можно загрузить для Windows 10 сВот, Когда вы запустите установщик Python для окон, появится окно настройки на Рис. 19.

Из вариантов, показанных на рис. 19 выше, во время установки Python я решил выбрать все из них. Эти параметры полезны: установщик Python «pip» используется наШаг 7.2этого руководства по установке Tensorflow. Кроме того, я использую IDE (интегрированную среду разработки для написания и запуска кода Python) под названием «IDLE» вШаг 8,

В «Расширенных настройках» (показанных на Рис. 20 ниже) я выбрал установку Python для всех пользователей (которая не была отмечена по умолчанию); это дает более полезную системную установку.

Шаг 7: Установите Tensorflow с поддержкой GPU

Tensorflowпредоставляет инструкциидля проверки правильности добавления каталогов установки CUDA, cuDNN и (необязательно: CUPTI) в переменные среды PATH. Поскольку три файла cuDNN были скопированы в подпапки CUDA, я не обновил существующий путь переменных среды CUDA.

Шаг 7.1: вызов командной строки с правами администратора

На этом этапе выполняется общесистемная установка Tensorflow, а не установка для каждого пользователя. Общесистемная установка Tensorflow требует прав администратора, поэтому, соответственно, командная строка должна запускаться с правами администратора.

Откройте командную строку, запустив ‘CMD’В строке поиска, а затем щелкните правой кнопкой мыши в командной строке, чтобы выбрать« Запуск от имени администратора ». Это открывает Администратор: Командная строка, как показано на рисунке 21.

Шаг 7.2: Общесистемная установка Tensorflow через Python pip

После открытия командной строки общесистемная команда установки для Tensorflow с поддержкой GPU выглядит следующим образом:

Команда «pip3» (в отличие от «pip») требуется, так как установка выполняется в Python 3. Выполнение этой команды в командной строке показано на рисунке 22.

Результирующий вывод команды показан на рисунке 23, и, если все пойдет по плану, в конечном итоге должно появиться сообщение, подтверждающее, что Tensorflow был успешно установлен.

Шаг 8: Тестовая установка TensorFlow и его доступ к GPU

Перейдите в меню «Пуск» в Windows и найдите среду IDE с именем «idle», которая будет установлена ​​как часть вашей установки на python, если вы выбрали, как я сделал вШаг 6, Окно Python должно появиться с надписьюОболочка Python 3.6.x, По приглашению (обозначается как «>>>») импортируйте пакет Tensorflow. Это проверит, что Tensorflow был установлен (как вы можете импортировать его). Команда для оболочки IDLE для импорта пакета tenorflow выглядит следующим образом:

Чтобы проверить поддержку CUDA для вашей установки Tensorflow, вы можете запустить в командной строке следующую команду:

Наконец, чтобы убедиться, что графический процессор доступен для Tensorflow, вы можете протестировать, используя встроенную служебную функцию в TensorFlow, как показаноВот:

Требуется несколько минут, чтобы вернуть результат из этого; когда он закончен, он возвращаетсяПравда, а затем приглашение>>>`появляется снова. Импортирование тензорного потока и эти тесты показаны на рис. 24 в оболочке Python IDLE.

Выводы

Это были шаги, которые я предпринял для установки Visual Studio, CUDA Toolkit, CuDNN и Python 3.6, и все с конечной целью установки Tensorflow с поддержкой GPU в Windows 10. На сегодняшний день моя работа по машинному обучению и глубокому обучению на основе GPU была в Linux Машины с Ubuntu; к тому же, большая часть онлайновой поддержки сообщества машинного обучения фокусируется на Ubuntu

Для машинного обучения основным недостатком использования Windows является то, что необходимо создавать больше объектов из исходного кода (например, используяCmake), чем в Linux, а также для установки дополнительного программного обеспечения для процессов сборки, таких как Visual Studio. Например, если бы выустановить Caffe2в Windows нет встроенных двоичных файлов, и сборка Windows находится в тестовом и бета-режиме. Я установил CUDA и cuDNN на Windows 10 более любопытно, чем что-либо еще, просто чтобы посмотреть, насколько это было просто (или иначе).

Как я намекал вЧасть 1Теперь, когда CUDA, cuDNN и Tensorflow успешно установлены в Windows 10, и я проверил доступ Tensorflow к графическому процессору, я собираюсь смести всю операционную систему Windows 10, чтобы произвести новую установку Ubuntu 18.04 LTS. Эта новая установка Ubuntu будет рассмотрена в части 3 этой серии.

Эта статья также была опубликованаВотв моем собственном блоге.

Майнингом криптовалют не пытаются заниматься только самые ленивые. Результаты этой работы зависят от вычислительных мощностей компьютера, в частности видеокарты. Каждый день компьютер должен находить все новые данные в виде хэша. Но в некоторых случаях пользователи сталкиваются с ошибкой CUDA error – cannot allocate big buffer for DAG. Как её исправить, вы узнаете из этой статьи.Ошибка CUDA error

Содержание

  1. Подробнее об ошибке
  2. Для чего нужен файл DAG
  3. Способы устранения ошибки
  4. Другие способы устранить ошибку

Подробнее об ошибке

Ошибка не обязательно происходит при майнинге. Пользователи могут столкнуться с ней и при работе с графикой. Особенно часто она встречается тем, кто работает с видео редакторами. Преимущественно появляется на ОС Windows 10. Рассмотрим их решения более подробно и определим несколько методов её устранения.

А вы знаете, как устранить: Something went wrong. Try restart Geforce Experience.

Для чего нужен файл DAG

DAG — это определенный блок данных, который используется при поиске элементов блокчейна в сети. Он построен на алгоритме Dagger Hashimoto. Добываемая валюта — Ethereum (Эфириум). Но есть и другие монеты в этом алгоритме. Например, Whale, Ubiq, Pegas, Dubaicoin, Musicoin, Soil и другие. Когда пользователь запускает сам майнер, DAG должен загрузиться в память. Более точный его размер — 1200 Мб. Со временем он способен увеличиваться в размере. Этот феномен называется смена эпох.

Каждой смене таких эпох соответствует свой размер файла. Количество занимаемой памяти DAG-файлом вы можете узнать по адресу: https://investoon.com/tools/dag_size. Здесь вы сможете узнать размер файла для всех монет на алгоритме Ethash. Смена каждой эпохи происходит примерно 1 раз в 10 дней.

Впервые проблемы с файлом DAG появились еще в 2016 году зимой. После смены нескольких десятков эпох, размер увеличился до 1.7 Гб. Использование данного алгоритма на видеокартах с 2 Гб видео памяти стало невозможным. Но в некоторых ситуациях проблему все же можно было решить.

Способы устранения ошибки

Проблема встречается в Windows потому, что операционная система требует для резерва около 750 Мб видеопамяти. При обычных операциях в видео процессоре эта память не занимается. Но со временем роста размера файла DAG, возникает ошибка CUDA error – cannot allocate big buffer for DAG.

Данная ошибка появляется все чаще на устройствах с видеокартой, которая имеет встроенную видеопамять — 2Гб. Файл DAG, который упоминается в тексте ошибки, требует от системы сплошного буфера. Этот буфер должен иметь размер чуть более 1 Гб. И вроде бы должно хватить видеопамяти, но система упорно выдает ошибку. Некоторым пользователям удается исправить эту проблему в Windows при помощи ввода нескольких команд. Прочитайте также эту статью. Она может быть полезной. Иногда получается устранить при помощи только одной — setx GPU_MAX_ALLOC_PERCENT 100.

  1. Откройте командную строку и введите команду, которую видите выше;
  2. Если это не помогло, введите весь список команд, который видите на скриншоте;Команды исправления ошибки
  3. Если используется Linux для майнинга, воспользуйтесь другим списком команд;Перечень команд для исправления ошибки
  4. Если и это не помогло, необходимо добавить в строку майнера команду «-eres 0».

Другие способы устранить ошибку

Если предыдущими методами решить проблему с видеокартой не получилось, попробуем увеличить файл подкачки Windows. В некоторых случаях эта рекомендация должна её решить.

  1. Выберите «Пуск» внизу рабочего стола и нажмите пункт «Выполнить» или нажмите одновременно 2 клавиши — WIN+R;
  2. Введите следующую команду «control system»;
  3. В появившемся окне необходимо выбрать строку «Дополнительные параметры». Она находится слева вверху;Опция дополнительных параметров системы
  4. Откроется окошко, в котором выберите «Дополнительно» и нажать на кнопку «Параметры»;
  5. На следующем шаге нажмите снова вкладку «Дополнительно» и нажмите на кнопку «Изменить»;
  6. Уберите галочку с пункта «Выбирать автоматически», сфокусируйте выбора на системном диске в списке ниже, выберите «Указать размер» и напишите в первой строке (максимальный размер) 32 Мб, во второй (исходный размер) укажите 16 000 Мб. Чуть ниже этих пунктов нажмите кнопку «Задать» и выберите «Ок» внизу окна. Настройки виртуальнй памяти Виндовс
    Увеличьте файл подкачки

Закройте окна и попытайтесь запустить майнер. Если вы пытаетесь на одной видеокарте майнить разными программами, попробуйте оставить только одну. Также попробуйте более новую Claymore Dual Miner 11.6. В этой версии разработчики решили проблемы, связанные с видеопамятью и рядом версий устройств. Найти данное ПО можно на странице https://www.dualminer.ru/. Также предпочтительно использовать для него операционную систему Windows 7. В ней пользователи намного реже сталкиваются с подобными ошибками.

А если у вас есть опыт использования ОС Linux — это будет для вас лучшим вариантом. Она уже настроена и готова работать с Claymore Dual Miner. Но работа и установка на этой ОС отличается более сложным процессом. Для этих задач Linux имеет ряд преимуществ. Главное — до 20% экономии электроэнергии при майнинге. Для больших ферм это немаловажно. В Linux достаточно редко встречается ошибка CUDA error — cannot allocate big buffer for DAG.

Опубликовано 11 мая 2019 Обновлено 16 мая 2021

Исправляем ошибку при майнинге Ethereum на GeForce 1050

Все кто занимается добычей криптовалюты, рано или поздно сталкиваются с определенными проблемами в работе оборудования. Часто, решаются они быстро, а в большинстве случаев, вовсе проходят сами, после автоматического обновления ПО.

Сегодня же, поговорим о ошибке «CUDA error», а если быть точнее, то о том, как её победить. Я лично столкнулся с подобной проблемой, по-этому знаю о чем говорю. Не буду мучить вас предысториями о том, как у меня все начиналось и как я от этого страдал — это лишнее. Давайте сразу приступим к сути вопроса и его решению.

Если вы занимаетесь добычей Ethereum (эфириума), и у вас возникает такая ошибка (ниже выложу скрин), значит мой метод решения именно для вас:

Решение ошибки CUDA error

Шаг 1. На рабочем столе находим «Мой компьютер» нажимаем на него правой кнопкой, и выбираем последний пункт «Свойства»

Шаг 2. Идем по пути: «Дополнительные параметры системы» — «Дополнительно» — «Параметры» — опять «Дополнительно»

Шаг 3. Нажимаем кнопку «Изменить» возле надписи «Виртуальная память»

Шаг 4. Вводим нужную цифру (напомним, что она не должна быть ниже 16 000 Мб)

Собственно все. После таких манипуляций, мой риг сново ожил, а майнинг вернулся на прежний уровень дохода. Для тех кто не понял, что нужно делать, ниже оставлю видео, как это выглядит у меня, а там уже разберетесь. Собственно вот, как и обещал!

[creativ_media type=»youtube» url=»www.youtube.com/watch?v=Y-F-VcsUUpI»]

Не знаю, поможет ли вам этот способ, но мне помог. На самом деле, ошибки связанные с файлом подкачки, довольно таки частые, а данный метод поможет их решить. Всем хорошего майнинга и меньше ошибок при добыче крипты!

Источник

Пример решения 3

Часто драйвера версии 20.11.2 исправляют ошибку.

Протестирована работа на Windows 19.09. Версия 5.4c работает.

Бывает такая же проблема на RX580 8 ГБ (clSetKernelArg (-48)). Нужно так же переустановить программное обеспечение драйвера AMD (Adrenalin версии 20.8.1) с включенной функцией сброса до заводских настроек, и проблема исчезнет. Также нужно отключить автоматические обновления в настройках Adrenalin, так как он что-то обновляет автоматически. Поэтому, чтобы решить эту проблему, нужно переустановить драйверы на старую версию, которая, как вы знаете, раньше работала нормально.

Так же многим помогает добавление параметра -eres -1 или -eres 0 но ни в коем случае ни -eres 2.

Пример: PhoenixMiner.exe -pool eth-eu2.nanopool.org:9999 -wal 0xBB942274AB3C8285400519e7F0c343Fca2394908.my -gser 10 -rvram -1 -eres 0 pause

CUDA error — cannot allocate big buffer for DAG как исправить

Майнингом криптовалют не пытаются заниматься только самые ленивые. Результаты этой работы зависят от вычислительных мощностей компьютера, в частности видеокарты. Каждый день компьютер должен находить все новые данные в виде хэша. Но в некоторых случаях пользователи сталкиваются с ошибкой CUDA error – cannot allocate big buffer for DAG. Как её исправить, вы узнаете из этой статьи.

Для чего нужен файл DAG

DAG — это определенный блок данных, который используется при поиске элементов блокчейна в сети. Он построен на алгоритме Dagger Hashimoto. Добываемая валюта — Ethereum (Эфириум). Но есть и другие монеты в этом алгоритме. Например, Whale, Ubiq, Pegas, Dubaicoin, Musicoin, Soil и другие. Когда пользователь запускает сам майнер, DAG должен загрузиться в память. Более точный его размер — 1200 Мб. Со временем он способен увеличиваться в размере. Этот феномен называется смена эпох.

Каждой смене таких эпох соответствует свой размер файла. Количество занимаемой памяти DAG-файлом вы можете узнать по адресу: https://investoon.com/tools/dag_size. Здесь вы сможете узнать размер файла для всех монет на алгоритме Ethash. Смена каждой эпохи происходит примерно 1 раз в 10 дней.

Впервые проблемы с файлом DAG появились еще в 2016 году зимой. После смены нескольких десятков эпох, размер увеличился до 1.7 Гб. Использование данного алгоритма на видеокартах с 2 Гб видео памяти стало невозможным. Но в некоторых ситуациях проблему все же можно было решить.

Как исправить?

Вы должны указать в батнике команду -gser с нужным вам значеним. Примеры ниже.

Что делает команда -gser?

-gser отвечает за сериализацию создания DAG файла на нескольких графических процессорах.

Возможные значения этого параметра:

  • 0 — без сериализации, все графические процессоры генерируют DAG одновременно, это значение по умолчанию и с ним у вас появляется эта ошибка;
  • 1 — частичное перекрытие генерации DAG на каждом GPU;
  • 2 — без перекрытия (каждый GPU ожидает, пока предыдущий не закончит генерировать DAG);
  • 3-10 — задержка от 1 до 8 секунд после каждого создания GPU DAG перед следующим).

Следовательно, вам нужно подобрать оптимальное значение команды -gser для ваших видеокарт.

Способы устранения ошибки

Проблема встречается в Windows потому, что операционная система требует для резерва около 750 Мб видеопамяти. При обычных операциях в видео процессоре эта память не занимается. Но со временем роста размера файла DAG, возникает ошибка CUDA error – cannot allocate big buffer for DAG.

Данная ошибка появляется все чаще на устройствах с видеокартой, которая имеет встроенную видеопамять — 2Гб. Файл DAG, который упоминается в тексте ошибки, требует от системы сплошного буфера. Этот буфер должен иметь размер чуть более 1 Гб. И вроде бы должно хватить видеопамяти, но система упорно выдает ошибку. Некоторым пользователям удается исправить эту проблему в Windows при помощи ввода нескольких команд. Про

Примеры решения

Вот так должен выглядеть батник с командой -gser.

PhoenixMiner.exe -pool eth-eu2.nanopool.org:9999 -wal 0xBB942274AB3C8285400519e7F0c343Fca2394908.my -gser 2 pause

или

PhoenixMiner.exe -pool eth-eu2.nanopool.org:9999 -wal 0xBB942274AB3C8285400519e7F0c343Fca2394908.my -gser 10 pause

Так же не забудьте увеличить виртуальную память Windows (размер файла подкачки). Нужно минимум 32 ГБ для фермы из 6 видеокарт RX580.

Если не помогает, то добавьте параметр -rvram -1.

Пример:

PhoenixMiner.exe -pool eth-eu2.nanopool.org:9999 -wal 0xBB942274AB3C8285400519e7F0c343Fca2394908.my -gser 10 -rvram -1 pause

Всегда используйте последнюю версию программы, чтобы избежать ошибок в дальнейшем.

Другие способы устранить ошибку

Если предыдущими методами решить проблему с видеокартой не получилось, попробуем увеличить файл подкачки Windows. В некоторых случаях эта рекомендация должна её решить.

Закройте окна и попытайтесь запустить майнер. Если вы пытаетесь на одной видеокарте майнить разными программами, попробуйте оставить только одну. Также попробуйте более новую Claymore Dual Miner 11.6. В этой версии разработчики решили проблемы, связанные с видеопамятью и рядом версий устройств. Найти данное ПО можно на странице https://www.dualminer.ru/. Также предпочтительно использовать для него операционную систему Windows 7. В ней пользователи намного реже сталкиваются с подобными ошибками.

А если у вас есть опыт использования ОС Linux — это будет для вас лучшим вариантом. Она уже настроена и готова работать с Claymore Dual Miner. Но работа и установка на этой ОС отличается более сложным процессом. Для этих задач Linux имеет ряд преимуществ. Главное — до 20% экономии электроэнергии при майнинге. Для больших ферм это немаловажно. В Linux достаточно редко встречается ошибка CUDA error — cannot allocate big buffer for DAG.

Источник

Ошибки майнеров, связанные с установкой, конфигурацией видеокарт

При настройке и эксплуатации оборудования для майнинга часто возникают различные ошибки.
В данной статье рассматриваются характерные ошибки, возникающие при майнинге при неверной сборке майнинг ферм или в связи с программными ошибками.

Аппаратные ошибки, приводящие к неверной работе или отсутствии видеокарт в диспетчере задач

На аппаратном уровне к ошибкам в определении видеокарт или к постоянному их вылету при работе приводят некоторые часто встречающиеся проблемы. К ним относятся:

  • слабые блоки питания, которые не могут обеспечить достаточной мощности для видеокарт при майнинге. Нужно понимать, что различные блоки питания имеют граничные показатели эффективности и могут выдавать в круглосуточном режиме только ограниченную мощность. Для качественных БП это до 80% от их заявленной мощности, а для дешевых – от 50 до 70% от паспортных данных по линии 12 вольт;
  • некачественные райзера. При использовании райзеров с плохими контактами (как по линии питания, так и по линии данных), с конденсаторами малой емкости, некачественными кабелями USB, видеокарты могут не определяться совсем, либо определяться системой, но вылетать при работе майнера. Для устранения проблем, связанных с райзерами, нужно выбирать только качественные райзера, желательно с 6-пиновым разъемом питания (в крайнем случае Molex), использовать по возможности самые короткие, толстые, экранированные USB-кабеля данных;
  • иногда пользователи забывают подключить все разъемы питания к видеокарте и к райзеру. В этом случае видеокарта может и определяться, но будет отображаться в диспетчере устройств с ошибками;
  • при подключении нескольких блоков питания к майнинг ферме нужно стараться подключать и видеокарту и ее райзер к одному блоку питания. Ни в коем случае нельзя подключать к материнской плате питание от разных блоков питания. Это гарантированно приведет к появлению перетоков и выгоранию электронных элементов платы.

Во всех случаях, связанных с поиском неисправностей в работе электро и радиоаппаратуры и вычислительной техники нужно помнить, что:

ОСНОВНЫМИ ПРИЧИНАМИ НЕИСПРАВНОСТЕЙ В ЛЮБЫХ ЭЛЕКТРИЧЕСКИХ УСТРОЙСТВАХ ЯВЛЯЮТСЯ НАЛИЧИЕ ЛИШНИХ ИЛИ ОТСУТСТВИЕ НУЖНЫХ КОНТАКТОВ.

Программные ошибки, связанные с видеокартами, приводящие к сбоям майнеров

При неверной настройке операционной системы, сбое в установке драйверов, неправильной конфигурации майнеров, избыточном разгоне возникают ошибки, в результате которых происходит сбой при запуске программы-майнера.

Ошибки, вызванные неправильной установкой драйверов

Для правильной установки драйверов видеокарт АМД и Нвидиа рекомендуем почитать статью «Правильная установка драйверов GPU для майнинга», а также профильные форумы.

Как правило, в майнинг фермах с несколькими видеокартами возникают следующие ошибки, связанные с неправильной установкой драйверов:

  1. Ошибка с кодом 43 (error 43) – при установке драйверов АМД на видеокарты с перепрошитым BIOS. Эта ошибка легко лечится с помощью патчера AMD/ATI Pixel Clock Patcher. В операционной системе Windows 7 при установке более четырех видеокарт такая ошибка может возникнуть и с непрошитыми картами. Для ее устранения нужно применять 6xGPU_mod, последнюю версию которого можно скачать на Bitcointalk.

Ошибка с кодом 43, как правило, возникает при установке новых драйверов в системе, что может сделать и сама система во время автоматической установки обновлений. Кроме того, драйвера могут слететь при сбоях в питании, появлении ошибок на носителе системы, воздействии вирусов и других проблемах.

После такого обновления может появиться ошибка 43, а также значительно упасть хешрейт видеокарт. Для видеокарт AMD после установки драйверов нужно применить AMD-Compute-Switcher, а для видеокарт Нвидиа включить P0 state согласно методике, описанной в статье «Оптимизация потребления видеокарт Nvidia при майнинге».

Если после применения патчера и мода (для Windows 7) и перезагрузки системы ошибка не исчезает, то возможно на видеокарте прошит неверный BIOS, произошел сбой при его записи, либо вышла из строя микросхема BIOS на видеокарте. Для устранения такой ошибки нужно:

  • прошить верный BIOS (вернуть заводской)$
  • повторить заново процесс прошивки и дождаться сообщения программы AtiFlash об успехе;
  • переключиться на резервный Bios (при наличии такового).

При невозможности восстановить рабочее состояние видеокарты прошивкой верного Биоса или переключением переключателя BIOS на резерв нужно менять чип BIOS в сервис-центре, либо искать другую причину неполадок.

  1. Ошибка с кодом 12, которая обозначает нехватку ресурсов в системе. Для ее устранения нужно проверить настройки BIOS материнской платы, где нужно:
  • отключить все лишнее (например, serial и parallel port);
  • включить above 4g декодирование;
  • попробовать переключить систему в режим multi GPU;
  • включить/выключить внутреннюю видеокарту (на разных системах этот способ действует по разному);
  • установить режим работы PCI-E устройств в Gen 1 или 2;
  • попробовать обновить BIOS материнской платы на самый последний.

Ошибки в конфигурации майнера при указании видеокарт

Этот вид ошибок возникает в случае отсутствия или неправильного указания в пакетном файле для запуска майнинга видеокарт, которые должны осуществлять майнинг (как АМД, так и Nvidia).

Например, в программе claymore dual miner и других программах от этого программиста, иногда возникает ошибка NO AMD OPENCL found. Она появляется при запуске программы для майнинга и обозначает, что не найдено устройств, поддерживающих технологию OPENCL.

В разных программах она может иметь различное написание, но ее суть сводится к невозможности найти подходящее для майнинга устройство.

При отсутствии аппаратных ошибок и проблем, связанных с неверной установкой драйверов, неисправность нужно искать в конфигурации майнера.

Эта ошибка может возникать и в других программах, использующихся для майнинга. Например, в программе sgminer подобная ошибка называется clDevicesNum returned error, no GPUs usable. При запуске майнера появляется подобное сообщение:

[02:56:02] Started sgminer v0.1.1 [02:56:02] * using Jansson 2.11 [02:56:09] Specified platform that does not exist [02:56:09] clDevicesNum returned error, no GPUs usable [02:56:09] Command line options set a device that doesn’t exist

Еще раз повторимся, что если в диспетчере устройств нужные видеокарты отображены корректно и не имеют восклицательных знаков с кодами ошибки, то неправильно сконфигурирован BAT-файл.

Это случается в системах с различными типами карт, установленными в системе (например, интегрированная видеокарта плюс видеокарты AMD или одновременное использование GPU от AMD и Nvidia и все три типа устройств вместе).

Как правило, для устранения этой ошибки нужно либо правильно указать номера использующихся в майнере видеокарт, либо указать какую платформу (AMD или Nvidia) нужно использовать.

В Claymore-майнере это команда -platform с цифровым значением: 1 – использовать только видеокарты AMD, 2 — только NVIDIA, 3 – использовать и AMD и NVIDIA GPU (по умолчанию в майнере действует команда 3, согласно которой используются оба типа карт).

В Phoenix miner это команды -amd или –nvidia соответственно.

В sgminer (его различных версиях и подобных программах, например, cgminer) в смешанных системах может понадобиться указывать в командной строке параметр —gpu-platform 1 или 2.

Обычно, при отсутствии включенной внутренней видеокарты этот майнер работает без указания этого парметра, но в этом случае иногда может потребоваться использование команды —gpu-platform 0.

Другие ошибки, приводящие к сбоям в работе майнеров

Рассмотрим другие ошибки, которые иногда возникают при работе программ для майнинга:

  • ошибка OpenCL error -4 (0) — cannot create DAG on GPU – эта ошибка в Claymore майнере возникает при майнинге криптовалют на алгоритме Ethash (Ethereum, UBIQ, ETC, MOAC и другие). Для ее устранения нужно увеличить объем доступной виртуальной памяти в системе, а также использовать самые новые версии майнеров, способные работать с последними эпохами DAG;
  • ошибка WATCHDOG: GPU hangs in OpenCL call появляется при переразгоне видеокарт, некачественных райзерах, плохих (очень длинных) соединительных USB-кабелях. Не нужно выжимать из видеокарт все соки, увеличивая частоту памяти и видеоядра, так как простои, вызванные переразгоном, сведут на нет весь доход от такого майнинга. Понять то, где выставлены очень большие значения частоты поможет программа hwinfo, которая показывает ошибки по памяти для видеокарт AMD:

Как правило, при переразгоне по памяти вылетает одна из видеокарт, а при чрезмерном разгоне по ядру (или очень сильном даунвольтинге) компьютер полностью зависает;

  • майнер с GPU от AMD выключается с ошибкой о температуре карты в 511 градусов (на картах Nvidia появляется ошибка NVML: cannot get current temperature, error 15) – эта проблема возникает при плохом контакте видеокарты с райзером, при котором не проходит сигнал о температуре видеокарты либо есть проблемы по линии питания. Нужно поменять райзер и/или USB-кабель, почистить их контакты, а также контакты разъема видеокарты ваткой, смоченной в спирте. Можно попробовать поменять разъем PCI-E на материнке или вставить карту непосредственно в разъем материнской платы. Кроме того, видеокарта может выдавать такую ошибку при слишком большом разгоне/даунволтинге, а также плохом контакте (или слишком большой нагрузке на блок питания) по линии 12 вольт. В этом случае нужно проверить все разъемы питания, подходящие к карте на предмет наличия прогаров, особенно в случае применения различных переходников/разветвителей, а также снизить нагрузку на БП.

Заключение

Майнинг требует наличия определенных знаний, связанных с эксплуатацией вычислительной техники и сетей связи. Это необходимо, потому что знание основ функционирования радиоаппаратуры и каналов связи дает возможность самостоятельно разобраться в причинах появления неполадок и понять, как их можно устранить наиболее рациональным способом.

Знание основ электротехнических цепей поможет избежать ошибок, связанных с навешиванием чрезмерной нагрузки на одну линию (например, более одной видеокарты на линию Molex), что часто приводит к подгоранию контактов или выходу из строя райзеров и видеокарт.

Понимание закона Ома поможет избежать проблем, связанных с использованием переходников с разъема питания SATA на райзера, которое гарантированно приведет к прогоранию контактов и связанным с этим проблемам.

Чем больше человек знает, тем больше он понимает, что знает очень мало или не знает ничего… Процесс поиска истины благотворно воздействует на человеческую карму и дает жизненный опыт, для обретения которого, возможно, мы и живем…

Источник: https://www.cryptoprofi.info/?p=2237

How to avoid «CUDA out of memory» in PyTorch

I think it’s a pretty common message for PyTorch users with low GPU memory:

I want to research object detection algorithms for my coursework. And many deep learning architectures require a large capacity of GPU-memory, so my machine can’t train those models. I tried to process an image by loading each layer to GPU and then loading it back:

But it doesn’t seem to be very effective. I’m wondering is there any tips and tricks to train large deep learning models while using little GPU memory. Thanks in advance!

Edit: I’m a beginner in deep learning. Apologize if it’s a dummy question:)

Понравилась статья? Поделить с друзьями:

Читайте также:

  • Nvflash error no nvidia display adapters found
  • Nuget package restore failed please see error list window for detailed warnings and errors
  • Nucleus has crashed unexpectedly an attempt to clean up will be made как исправить
  • Nucleus coop error
  • Ntvdm has encountered a system error 4001h windows 10 32 bit

  • 0 0 голоса
    Рейтинг статьи
    Подписаться
    Уведомить о
    guest

    0 комментариев
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии