-
#1
Здравствуйте. Проблема следующая, постоянно выбивает ошибку Cuda Error Out of Memory.
Оборудование:
6 x GTX 1070 iChill
Что пробовал исходя из прочитаных тем
— Увеличил файл подкачки
— Обновил Драйвера
Так же попробовал Найсхеш Легаси, но когда происходит бенчмарк компьютер просто зависает.
Как исправить одну из проблем? Хочу просто запустить ферму и что бы я каждый день не проверял, работает найсхеш или нет, так как хватаем максимум на 20-40 минут.
cps
Гений мысли
-
#2
Для начала сбросить разгон с карт и проверить стабильность работы в стоке. И адекватность блока питания.
Это вот прям необходимый минимум до того, как думать над другими причинами.
-
#3
Для начала сбросить разгон с карт и проверить стабильность работы в стоке. И адекватность блока питания.
Это вот прям необходимый минимум до того, как думать над другими причинами.
Забыл отписать что все в стоке работает, без каких либо разгонов и так далее.
-
#4
Найс видать запускает тирекс, а он сильно задирает интенсивность, нужно в доппараметрах на этом алгоритме поставить интенсивность меньше
cps
Гений мысли
-
#5
Забыл отписать что все в стоке работает, без каких либо разгонов и так далее.
Тогда — переразгон, без вариантов. Или БП не тянет, с разгоном. Надо снижать аппетиты.
-
#6
Забыл отписать что все в стоке работает, без каких либо разгонов и так далее.
как раз в стоке то может и не тянуть бп, поскольку даунвольта нет, а бп может на пределе
-
#7
Здравствуйте. Проблема следующая, постоянно выбивает ошибку Cuda Error Out of Memory.
Оборудование:
6 x GTX 1070 iChillЧто пробовал исходя из прочитаных тем
— Увеличил файл подкачки
— Обновил ДрайвераТак же попробовал Найсхеш Легаси, но когда происходит бенчмарк компьютер просто зависает.
Как исправить одну из проблем? Хочу просто запустить ферму и что бы я каждый день не проверял, работает найсхеш или нет, так как хватаем максимум на 20-40 минут.
А у них разве можно скачать не легаси версию? я просто давно не пользовался найсом. Но на сайте только легаси вроде.
cps
Гений мысли
-
#8
как раз в стоке то может и не тянуть бп, поскольку даунвольта нет, а бп может на пределе
Ну кстати да.
-
#9
файл подкачки какой? 6*1070 = 6*8 = 48+системе чутка = 50-52Гб должно быть чтоб удовлетворить всех всегда
-
#10
Тогда — переразгон, без вариантов. Или БП не тянет, с разгоном. Надо снижать аппетиты.
Я ж Вам говорю, что все в стоке стоит, без разгона.
Так что посоветуете сделать? Даунвольт на 90 процентов поставить?
-
#11
файл подкачки какой? 6*1070 = 6*8 = 48+системе чутка = 50-52Гб должно быть чтоб удовлетворить всех всегда
Стояло 32 ГБ, поставил 52, проверю сейчас.
-
#12
И в чем может быть проблема с найсхеш легаси? Почему когда делается бенчмарк, просто зависает и все?
-
#13
Стояло 32 ГБ, поставил 52, проверю сейчас.
ну конечно мало было
А у них разве можно скачать не легаси версию? я просто давно не пользовался найсом. Но на сайте только легаси вроде.
да, у найса есть версия чисто для зелени
-
#14
И в чем может быть проблема с найсхеш легаси? Почему когда делается бенчмарк, просто зависает и все?
хоть бы название и мощность бп написал
-
#15
Подс
ну конечно мало было
да, у найса есть версия чисто для зелени
Подскажи пожалуйста где скачать, на оф сайте нашел только легаси.
cps
Гений мысли
-
#16
Так что посоветуете сделать? Даунвольт на 90 процентов поставить?
Тогда — БП проверить.Одну карту например отключить.
Ты писал, что в стоке всё работает, без разгонов и так далее .
Jim
Друг форума
-
#17
ну конечно мало было
да, у найса есть версия чисто для зелени
Подс
Подскажи пожалуйста где скачать, на оф сайте нашел только легаси.
Найс отказался от версии 2.0, теперь официально только легаси. Подбирай разгон и даунвольт, если в стоке работает
-
#18
Оба-на, убрали с оф сайта, они раньше всегда на одной странице были Legacy и NiceHash Miner 2 for NVIDIA. Если надо, могу поискать старую версию, они обычно из-под морды обновить можно было. Но я хз, там скорее всего майнеры не актуальны.
-
#19
не слушай никого… это посыпались ошибки с вчерашнего вечера на некоторых фермах….. то ли найс то ли еще что.. просит обновить феникс майнер и все.. но не помогает.
-
#20
И в чем может быть проблема с найсхеш легаси? Почему когда делается бенчмарк, просто зависает и все?
зачем тебе бенчмарк? пропиши пару тройку алгоритмов в ручную и всЁ!!!
Ошибки Видеокарты При Майнинге
Самое полное собрание ошибок в майнинге на Windows, HiveOS и RaveOS и их быстрых и спокойных решений
Can’t find nonce with device CUDA_ERROR_LAUNCH_FAILED
Ошибка майнера Can’t find nonce
Ошибка говорит о том, что майнер не может найти нонс и сразу же сам предлагает решение — уменьшить разгон. Особенно начинающие майнеры стараются выжать из видеокарты максимум — разгоняют слишком сильно по ядру или памяти. В таком разгоне видеокарта даже может запуститься, но потом выдавать ошибки как указано ниже. Помните, лучше — стабильная отправка шар на пул, чем гонка за цифрами в майнере.
Зарабатывай на чужих сделках на бирже BingX. Подробнее — тут.
Phoenixminer Connection to API server failed — что делать?
Ошибка Connection to API server failed
Такая ошибка встречается на PhoenixMiner на операционной систему HiveOS. Она говорит о том, что майнинг-ферма/риг не может подключиться к серверу статистики. Что делать для ее решения:
- Введите команду net-test и запомните/запишите сервер с низким пингом. После чего смените его в веб интерфейсе Hive (на воркере) и перезагрузите ваш риг.
- Если это не помогло, выполните команду dnscrypt -i && sreboot
Phoenixminer CUDA error in CudaProgram.cu:474 : the launch timed out and was terminated (702)
Ошибка майнера Phoenixminer CUDA error in CudaProgram
Эта ошибка, как и в первом случае, говорит о переразгоне карты. Откатите видеокарту до заводских настроек и постепенно поднимайте разгон до тех пор, пока не будет ошибки.
UNABLE TO ENUM CUDA GPUS: INVALID DEVICE ORDINAL
Ошибка майнера Unable to enum CUDA GPUs: invalid device ordinal
Проверяем драйвера видеокарты и саму видеокарту на работоспособность (как она отмечена в диспетчере устройств, нет ли восклицательных знаков).
Если все ок, то проверяем райзера. Часто бывает, что именно райзер бывает причиной такой ошибки.
UNABLE TO ENUM CUDA GPUS: INSUFFICIENT CUDA DRIVER: 5000
Ошибка майнера Unable to enum CUDA GPUs: Insufficient CUDA driver: 5000
Аналогично предыдущей ошибке — проверяем драйвера видеокарты и саму видеокарту на работоспособность (как она отмечена в диспетчере устройств, нет ли восклицательных знаков).
NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED
Ошибка майнера NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED
Ошибка code 1073740791 nbminer возникает, если ваш риг/майнинг-ферма собраны из солянки Nvidia+AMD. В этом случае разделите майнинг на два .bat файла (или полетника, если вы на HiveOS). Один — с картами AMD, другой с картами Nvidia.
NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2) — как исправить?
Ошибка майнера NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2)
Одна из самых распространённых ошибок на Windows — нехватка памяти, в данном случае на майнере Nbminer, но встречается и в майнере Nicehash. Чтобы ее исправить — надо увеличить файл подкачки. Файл подкачки должен быть равен сумме гб всех видеокарт в риге плюс 10% запаса. Как увеличить файл подкачки — читаем тут.
GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0
Ошибка майнера GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0
В данном случае скорее всего виноват не файл подкачки, а переразгон по видеокарте, которая идет под номером 0. Сбавьте разгон и ошибка должна пропасть.
Socket error. the remote host closed the connection, в майнере Nbminer
Socket error. the remote host closed the connection
Также может быть описана как «ERROR — Failed to establish connection to mining pool: Socket operation timed out».
Сетевой конфликт — проверьте соединение рига с интернетом. Перегрузите роутер.
Также может быть, что провайдер закрывает соединение с пулом. Смените пул, попробуйте VPN или измените адреса DNS на внешнего провайдера, например cloudflare 1.1.1.1, 1.0.0.1
Server not responded on share, на майнере Gminer
Server not responded on share
Такая ошибка говорит о том, что у вас что-то с подключением к интернету, что критично для Gminer. Попробуйте сделать рестарт роутера и отключить watchdog на майнере.
DAG has been damaged check overclocking settings, в майнере Gminer
Также в этой ошибке может быть указано Device not responding, check overclocking settings.
Ошибка говорит о переразгоне, попробуйте сначала убавить его.
Если это не помогло, смените майнер — Gminer никогда не славился работой с видеокартами AMD. Мы рекомендуем поменять майнер на Teamredminer, а если вам критична поддержка майнером одновременно Nvidia и AMD видеокарт, то используйте Lolminer.
Если смена майнера не поможет, переставьте видеодрайвер.
Если и это не поможет, то нужно тестировать эту карту отдельно в слоте X16.
ERROR: Can’t start T-Rex, failed to initialize device map: can’t get busid, code -6
Ошибки настройки памяти с кодом -6 обычно указывают на проблему с драйвером.
Если у вас Windows, используйте программу DDU (DisplayDriverUninstaller), чтобы полностью удалить все драйверы Nvidia.
Перезагрузите систему.
Установите новый драйвер прямо с сайта Nvidia.
Перезагрузите систему снова.
Если у вас HiveOS/RaveOS — накатите чистый образ системы. Чтобы наверняка.
TREX: Can’t unlock GPU
Полный текст ошибки:
TREX: Can’t unlock GPU [ID=1, GPU #1], error code 15
WARN: Miner is going to shutdown…
WARN: NVML: can’t get fan speed for GPU #1, error code 15
WARN: NVML: can’t get power for GPU #1, error code 15
WARN: NVML: can’t get mem/core clock for GPU #1, error code 17
Решение:
- Проверьте все кабельные соединения видеокарты и райзера, особенно кабеля питания.
- Если с первый пунктом все ок, попробуйте поменять райзер на точно рабочий.
- Если ошибка остается, вставьте видеокарту в разъем х16 напрямую в материнскую плату.
CAN’T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN’T GET BUSID, CODE -6
Ошибка майнера CAN’T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN’T GET BUSID, CODE -6
В конкретном случае была проблема в блоке питания, он не держал 3 видеокарты. После замены блока питания ошибка пропала.
Если вы уверены, что ваш мощности вашего блока питания достаточно, попробуйте сменить майнер.
Зарабатывай на чужих сделках на бирже BingX. Подробнее — тут.
ОШИБКА 511 ГРАДУСОВ НА ВИДЕОКАРТА
Ошибка 511 градусов видеокарта
Ошибка 511 говорит о неисправности райзера или питания карты. Проверьте все соединения. Для выявления неисправности рекомендуется запустить систему с одной картой. Протестировать, и затем добавлять по одной карте.
GPU driver error, no temps в HiveOS — что делать?
Вероятнее всего, вы получили эту ошибку, майнив на HiveOS. Причин ее появления может быть несколько — как софтовая, так и аппаратная (например райзер).
Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.
Если ошибка не уйдет — проверьте райзер.
GPU are lost, rebooting
Это не ошибка, а ее последствие. Что узнать какая ошибка приводит к перезагрузке карт, сделайте следующее:
Включите сохранение логов (по умолчанию они выключены) командой
logs-on
И перезагрузите риг.
После того как ошибка повторится можно будет скачать логи командами ниже.
Вы можете использовать следующую команду, чтобы загрузить логи майнера прямо с панели мониторинга;
message file «miner.log» -f=/var/log/miner/minername/minername.log
Итак, скажем, например, мне нужны логи TeamRedMiner
message file «teamredminer.log» -f=/var/log/miner/teamredminer/teamredminer.log
Отправленная командная строка будет выделена синим цветом. Загружаемый файл будет отображаться белым цветом. Нажав на него, вы сможете его скачать.
Эта команда позволит скачать лог системы
message file «syslog» -f=/var/log/syslog
exitcode=3 в HiveOS
Вероятнее всего, вы получили эту ошибку, майнив на HiveOS. Причин ее появления может быть несколько — как софтовая, так и аппаратная (например райзер).
Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.
Если ошибка не уйдет — проверьте райзер.
exitcode=1 в HiveOS
Данная ошибка возникает когда есть проблема с датой в биосе материнской платы (сбитое время) и (или) есть проблема с интернетом.
Если сбито время, то удаленно вы не сможете подключиться.
Тем не менее, обновление драйверов Nvidia должно пройти командой:
nvidia-driver-update —list
gpu fault detected 146
Скорее всего вы пытаетесь майнить с помощью Phoenix miner. Решения два:
- Откатитесь на более старую версию, например на 5.4с
- (Рекомендуемый вариант) Используйте Trex для видеокарт Nvidia и TeamRedMiner для AMD.
Waiting interface to come up — не работает VPN на HiveOS
Waiting interface to come up
Начните с логов, чтобы понять какая именно ошибка вызывает эту проблему.
Команды для получения логов:
systemctl status openvpn@client
journalctl -u openvpn@client -e —no-pager -n 100
Как узнать ip адрес воркера hive os
Как узнать ip адрес воркера hive os
Самое простое — зайти в воркера и прокрутить страницу ниже видеокарт. Там будет указан Remote IP — это и есть внешний IP.
Альтернативный вариант — вы можете проверить ваш внешний айпи адрес hive через консоль Hive Shell:
Выполните одну из команд:
curl 2ip.ru
wget -qO- eth0.me
wget -qO- ipinfo.io/ip
wget -qO- ipecho.net/plain
wget -qO- icanhazip.com
wget -qO- ipecho.net
wget -qO- ident.me
Repository update failed в HiveOS
Иногда встречается на HiveOS. Полный текст ошибки:
Some index files failed to download. They have been ignored, or old ones used instead.
Repository update failed
------------------------------------------------------
> Restarting autofan and watchdog
> Starting miners
Miner screen is already running
Run miner or screen -r to resume screen
Upgrade failed
Решение:
- Выполнить команду apt update && selfupgrade -f
- Если не сработала и она, то 99.9%, что разработчики HiveOS уже знают об этой проблеме и решают ее. Попробуйте выполнить обновление через некоторое время.
Rave os не запускается. Boot aborted Rave os
Перепроверьте все настройки ПК и БИОСа материнской платы:
— Установите загрузочное устройство HDD/SSD/M2/USB в зависимости от носителя с ОС.
— Включите 4G decoding.
— Установите поддержку PCIe на Auto.
— Включите встроенную графику.
— Установите предпочтительный режим загрузки Legacy mode.
— Отключите виртуализацию.
Если после данных настроек не определяется часть карт, то выполните следующие настройки в BIOS (после каждого пункта требуется полная перезагрузка):
— Отключите 4G decoding
— Перезагрузка
— Отключите CSM
— Перезагрузка
— Включите 4G decoding, установите PCI-E Gen2/3, а при отсутствии Gen2/3, можно выбрать Gen1
Failed to allocate memory Raveos
Эта же ошибка может называться как:
failed to allocate initramfs memory bailing out, failed to load idlinux c.32
или
failed to allocate memory for kernel boot parameter block
или
failed to allocate initramfs memory raveos bailing
Но решение у нее одно — вы должны правильно настроить БИОС материнской платы.
gpu_driver_fault, GPU #0 fault в RaveOS
gpu_driver_fault, GPU #0 fault в RaveOS
В большинстве случаев эта проблема решается уменьшением разгона (особенно по памяти) на конкретной видеокарте (на скрине это карта номер 0).
Если уменьшение разгона не помогает, то попробуйте обновить драйвера.
Если обновление драйверов не привело к решению проблемы, то попробуйте поменять райзер на этой карте на точно работающий.
Если и это не помогает, перепроверьте все кабельные соединения и мощность блока питания, хватает ли его для вашей конфигурации.
Gpu driver fault. All tasks have been stopped. Worker will be rebooted after 5 minutes в RaveOS
Gpu driver fault. All tasks have been stopped. Worker will be rebooted after 5 minutes
Что приводит к появлению этой ошибки? Вероятно, вы переразогнали видеокарту (часто сильно гонят по памяти), сбавьте разгон. На скрине видно, что проблему дает именно GPU под номером 1 — начните с нее.
Вторая частая причина — нехватка питания БП на систему с видеокартами. Учтите, что сама система потребляет не менее 100 вт, каждый райзер еще закладывайте 50 вт. БП должно хватать с запасом в 20%.
Miner restarted after error RaveOS
Смотрите логи майнера, там будет указана конкретная ошибка, которая приводит к miner restarted. После этого найдите ее на этой странице и исправьте. Проблема уйдет.
Miner restart limit reached. Worker rebooting by flag auto в RaveOS
Аналогично предыдущему пункту — смотрите логи майнера, там будет указана конкретная ошибка, которая приводит к рестарту воркера. Пофиксите ту ошибку — уйдет и эта проблема.
Miner cannot be started, ОС RaveOS
Непосредственно перед этой ошибкой обычно пишется еще другая, которая и вызывает эту проблему. Но если ничего нет, то:
- Поставьте майнер на паузу, перезагрузите риг и в консоли выполните команды clear-miners clear-logs и fix-fs. Запустите майнинг.
- Если ошибка не ушла, перепишите образ RaveOS.
Overclock can’t be applied в RaveOS
Эта ошибка означает, что значения разгона между собой конфликтуют или выходят за пределы допустимых. Перепроверьте их. Скиньте разгон на стоковый и попробуйте еще раз.
В редких случаях причиной этой ошибки также становится райзер.
Error installing hive miners
Error installing hive miners
Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.
Если ошибка не уйдет — физически перезапишите образ. Если у вас флешка, то скорее всего она умерла. Купите SSD.
Warning: Nvidia settings applied with errors
Переразгон. Снизьте значения частот ядра и памяти. После этого перезагрузите риг.
Nvtool error или Danger: nvtool error
Скорее всего при установке драйвера появилась проблема с модулем nvtool
Попробуйте переустановить драйвер Nvidia командой через Hive shell:
nvidia-driver-update версия_драйвера —force
Или попробуйте обновить систему полностью командой из Hive shell:
hive-replace -y —stable
nvtool error
Перестал отображаться кулер видеокарты HiveOS
0% скорости вращения кулера.
Это может произойти по нескольким причинам:
- кулер действительно не крутится
- датчик оборотов отключен или сломан
- видеокарта слишком агрессивно работает (высокий разгон)
- неисправен райзер или одно из его частей
ERROR: parsing JSON failed
Необходимо выполнить на риге локально (с клавиатурой и монитором) следующую команду:
net-test
Данная команда покажет ваше текущее состояние подключения к разным зеркалам API серверов HiveOS.
Посмотрите, к какому API у вас наименьшая задержка (ping), и когда воркер снова появится в панели, измените стандартное зеркало на то, что ближе к вам.
После смены зеркала, в обязательном порядке перезагрузите ваш воркер.
Изменить сервер API вы можете командой nano /hive-config/rig.conf
После смены нажмите ctrl + o и ентер для того чтобы сохранить файл.
После этого выйдите в консоль командой ctrl + x, f10 и выполните команду hello
NVML: can’t get fan speed for GPU #5, error code 999 hive os
Проблема с скоростью кулеров на GPU 5
0% скорости вращения кулера / ошибки в целом
Это может произойти по нескольким причинам:
— кулер действительно не крутится
— датчик оборотов отключен или сломан
— видеокарта слишком агрессивно работает (высокий разгон)
Начните с визуальной проверки карты и ее кулера.
Can’t get power for GPU #2
Как правило эта ошибка встречается рядом вместе с другими:
Attribute ‘GPUGraphicsClockOffset’ was already set to 0
Attribute ‘GPUMemoryTransferRateOffset’ was already set to 2200
Attribute ‘GPUFanControlState’ (hive1660s_ETH:0[gpu:2]) assigned value
0.
20211029 12:40:50 WARN: NVML: can’t get fan speed for GPU #2, error code 999
20211029 12:40:50 WARN: NVML: can’t get power for GPU #2, error code 999
20211029 12:40:50 WARN: NVML: can’t get mem/core clock for GPU #2, error code 999
Решение:
Проверьте корректность установки драйвера на видеокарте.
Убедитесь что нет проблем с драйвером, если все в порядке, то попробуйте другой параметр разгона. Например уменьшить разгон по памяти.
GPU1 search error: unspecified launch failure
Уменьшите разгон и проверьте контакты райзера
Warning: Autofan: unable to set fan speed, rebooting
Найдите логи майнера, посмотрите какие ошибки майнер пишет в логах. Например:
kernel: [12112.410046][ T7358] NVRM: GPU at PCI:0000:0c:00: GPU-236e3bef-2e03-6cdb-0518-7ac01eb8736d
kernel: [12112.410049][ T7358] NVRM: Xid (PCI:0000:0c:00): 62, pid=7317, 0000(0000) 00000000 00000000
kernel: [12112.433831][ T7358] NVRM: Xid (PCI:0000:0c:00): 45, pid=7317, Ch 00000010
CRON[21094]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Исходя из логов, мы видим что есть проблема с видеокартой на слоте PCIE 0c:00 (под номером Gpu пишется номер PCIE слота) с ошибками 45 и 62
Коды ошибок (других, которые также могут быть там) и что с ними делать:
• 13, 43, 45: ошибки памяти, снизить MEM
• 8, 31, 32, 61, 62: снизить CORE, возможно и MEM
• 79: снизить CORE, проверить райзер
Ошибка Kernel-Power код 41
Проверьте все провода (от БП до карт, от БП до райзеров), возможно где-то идёт оплавление. Если визуальный осмотр показал, что все ок, то ошибка программная и вам нужно переустановить Windows.
Danger: hive-replace -y —stable (failed, exitcode=137)
Очень редкая ошибка, которая вылезла в момент удаленного обновления образа HiveOS. Она не встречается в тематических майнинг группах и сайтах. Не поверите что произошло.
На балконе, где стоял риг, поселилась семья голубей. Они засрали риг, в прямом смысле, из-за этого он постоянно уходил в оффлайн. После полной продувки материнской платы и видеокарт проблема решилась сама.
MALFUNCTION HIVEOS
Malfunction — неисправность. Причин и решений может быть несколько:
- Вам следует переустановить видео драйвер;
- Если драйвер не помог, тогда отключайте все GPU и поочередно вставляйте по 1 шт, и смотрите вызовет ли какая-то видеокарта подобную ошибку или нет. Если да, то возможно это райзер.
- Неисправен носитель, на который записана Hive OS, запишите образ еще раз.
Не нашли своей ошибки? Помогите сделать мир майнинга лучше. Отправьте ее по этой форме и мы обновим наш гайд в самое ближайшее время.
На чтение 12 мин. Просмотров 261 Опубликовано 15.12.2019
When I started to train some neural network, it met the CUDA_ERROR_OUT_OF_MEMORY but the training could go on without error. Because I wanted to use gpu memory as it really needs, so I set the gpu_options.allow_growth = True .The logs are as follows:
And after using nvidia-smi command, it gets:
After I commented the gpu_options.allow_growth = True , I trained the net again and everything was normal. There was no the problem of CUDA_ERROR_OUT_OF_MEMORY . Finally, ran the nvidia-smi command, it gets:
I have two questions about it. Why did the CUDA_OUT_OF_MEMORY come out and the procedure went on normally? why did the memory usage become smaller after commenting allow_growth = True .
Содержание
- 6 Answers 6
- Stee1Arm
- pilat200
- Comments
- mkabatek commented Dec 28, 2017
- This comment has been minimized.
- Tottom commented Dec 30, 2017 •
- This comment has been minimized.
- mkabatek commented Dec 30, 2017
- This comment has been minimized.
- Tottom commented Dec 30, 2017
- This comment has been minimized.
- mkabatek commented Dec 30, 2017
- This comment has been minimized.
- Tottom commented Dec 30, 2017
- This comment has been minimized.
- Tottom commented Dec 30, 2017
- This comment has been minimized.
- Tottom commented Dec 31, 2017
- This comment has been minimized.
- remotetech commented Jan 10, 2018
- This comment has been minimized.
- Tottom commented Jan 10, 2018
- This comment has been minimized.
- remotetech commented Jan 10, 2018 •
- This comment has been minimized.
- remotetech commented Jan 11, 2018
- This comment has been minimized.
- Tottom commented Jan 11, 2018
- This comment has been minimized.
- Tottom commented Jan 11, 2018
- This comment has been minimized.
- raduvultur commented Jan 12, 2018
- This comment has been minimized.
- remotetech commented Jan 16, 2018
- This comment has been minimized.
- HoverDrive commented Feb 16, 2018
- This comment has been minimized.
- samywee commented Feb 17, 2018
6 Answers 6
In case it’s still relevant for someone, I encountered this issue when trying to run Keras/Tensorflow for the second time, after a first run was aborted. It seems the GPU memory is still allocated, and therefore cannot be allocated again. It was solved by manually ending all python processes that use the GPU, or alternatively, closing the existing terminal and running again in a new terminal window.
By default, tensorflow try to allocate a fraction per_process_gpu_memory_fraction of the GPU memory to his process to avoid costly memory management. (See the GPUOptions comments).
This can fail and raise the CUDA_OUT_OF_MEMORY warnings. I do not know what is the fallback in this case (either using CPU ops or a allow_growth=True ).
This can happen if an other process uses the GPU at the moment (If you launch two process running tensorflow for instance). The default behavior takes
95% of the memory (see this answer).
When you use allow_growth = True , the GPU memory is not preallocated and will be able to grow as you need it. This will lead to smaller memory usage (as the default option is to use the whole memory) but decreases the perfomances if not use properly as it requires a more complex handeling of the memory (which is not the most efficient part of CPU/GPU interactions).
Stee1Arm
Новичок
Добрый вечер.
Подскажите пожалуйста, в чем может быть причина:
Майню на Nicehash, при переключение на алгоритм NeoScrypt вылетает ошибка «out of memory».
Майнер перезагружается и с ново выдает ту же ошибку, так по кругу пока не поменяет алгоритм.
Когда выставляю NeoScrypt только на 2 картах, все работает хорошо, больше 2-х вылетает с ошибкой.
Ферма:
8x Palit GTX 1080 Ti JetStream 11GB
1x Corsair 1000W 80+ Gold RM1000i
3x Corsair 850W 80+ Gold RM850
Asus Prime Z270-A + G4400 3.3Ghz 3MB
8GB DDR4 2400Mhz
Kingston SSD 120GB
Файл подкачки ставил 16000 и 24000 не помогает.
Бывалый
Добрый вечер.
Подскажите пожалуйста, в чем может быть причина:
Майню на Nicehash, при переключение на алгоритм NeoScrypt вылетает ошибка «out of memory».
Майнер перезагружается и с ново выдает ту же ошибку, так по кругу пока не поменяет алгоритм.
Когда выставляю NeoScrypt только на 2 картах, все работает хорошо, больше 2-х вылетает с ошибкой.
Ферма:
8x Palit GTX 1080 Ti JetStream 11GB
1x Corsair 1000W 80+ Gold RM1000i
3x Corsair 850W 80+ Gold RM850
Asus Prime Z270-A + G4400 3.3Ghz 3MB
8GB DDR4 2400Mhz
Kingston SSD 120GB
Файл подкачки ставил 16000 и 24000 не помогает.
pilat200
Свой человек
Добрый вечер.
Подскажите пожалуйста, в чем может быть причина:
Майню на Nicehash, при переключение на алгоритм NeoScrypt вылетает ошибка «out of memory».
Майнер перезагружается и с ново выдает ту же ошибку, так по кругу пока не поменяет алгоритм.
Когда выставляю NeoScrypt только на 2 картах, все работает хорошо, больше 2-х вылетает с ошибкой.
Ферма:
8x Palit GTX 1080 Ti JetStream 11GB
1x Corsair 1000W 80+ Gold RM1000i
3x Corsair 850W 80+ Gold RM850
Asus Prime Z270-A + G4400 3.3Ghz 3MB
8GB DDR4 2400Mhz
Kingston SSD 120GB
Файл подкачки ставил 16000 и 24000 не помогает.
Copy link Quote reply
Nicehash v2.0.1.5 Beta, Windows 10
Running on GeForce GTX 1070, CUDA 9.1.85 , Nvidia 388.71
wrkr0-6 | CUDA error ‘out of memory’ in func ‘cuda_neoscrypt::init’ line 1258
wrkr1-7 | CUDA error DRIVER: ‘2’ in func ‘cudahelp::device_thread_init’ line 168
Copy link Quote reply
Hi,
Same issue for me on GeForce GTX 6x 1070 and 2x 1070Ti, CUDA 9.1.85, Nvidia 388.71
CUDA error ‘out of memory’ in func ‘cuda_neoscrypt::init’ line 1258
Copy link Quote reply
I think it has to do with the amount of RAM in the machine. I only have 4Gb and I read somewhere else that someone added 8GB ram to their system and it fixed the issue.
Should be fixable in software though.
Copy link Quote reply
I do have 8GB memory on the system already. and 32GB swap. maybe i should do less on swap?
Copy link Quote reply
They ADDED 8Gb of memory, meaning they have 16Gb now. Here is the original thread.
Copy link Quote reply
ic. Another poster says he can run 3x gtx 1070 on 8GB memory, anymore than that then he gets out of memory. so if i run 12x gtx 1070 i need 32GB RAM?
I will get 2x 8GB dimms in the new year only 🙁 and confirm the results on my current 8 card rig.
thanks!
Copy link Quote reply
I have changed my vmem to 96GB. Neoscrypt ran for awhile without failing. still monitoring.
Copy link Quote reply
So i tried 16GB vMem and got the errors more frequently. And on 64GB vMem and had the errors maybe about 20 hours later.
I have now upped my vMem to 98GB and i have not had any further errors in the last 24 hours. I have 6x 1070 and 2x 1070ti cards. OC 150mhz on CPU and 500mhz on memory and 65% TDP.
I have only 8GB physical memory.
Copy link Quote reply
Nicehash v2.0.1.5 Beta, Windows 10
Algorithm neoscrypt
cuda error out of memory in func cuda_neoscrypt::init line 1258
cuda error driver: 2 in func cudahelp::device_thread_init line 168
Same issue here. just upgraded to Nicehash v2.0.1.6 will monitor to see if fixed running precise bench again now. I’m running 1070 ti’s with 4 G Ram
I’m sure my Virtual Memory is auto. are you guys having any luck increasing it?
Copy link Quote reply
Are you able to change your Virtual Memory at all? how many 1070ti’s 4gb are you running?
Copy link Quote reply
Hi Tottom, I’m running:
2 ZOTAC 1070 Ti 8GB
1 Gigabyte 1060 6GB
for a total of 3 GPU cards. my Motherboard is using 4G RAM stick and I have a 60G SSD with Windows 10.
Yes I can set the Virtual Memory manually but there is not much memory left to play with.
For now I have just disabled the Neoscrypt Algorithm on all 3 GPU’s as I still have 13 other active Algorithms that are working just fine.
Please let me know exactly what has worked to fix this Neoscrypt error for you guys? so I can make the adjustments and turn back on the Neoscrypt Algorithm at some point.
Copy link Quote reply
Tottom, so your change to Vmem to 98GB is still working with neoscrypt with no errors?
Please advise as I will need to upgrade my ssd 🙂
Copy link Quote reply
remotetech, i was running 6x 1070 and 2x 1070ti at the time when the fix for vMem helped stabilize neoscrypt. apparently a 1070 8gb card is recommended to have 10 to 15gb of vMem per card. Other guys did not seem to experience this issue and when adding more physical memory on the motherboard, 16gb instead of 8gb their issue was also then resolved. if you have 40gb vMem it might work out for you if you have enough space? Another thought, start on the vMem of 16gb then see how long it takes to give the memory error or restart excavator. then add another 8gb and see till you have a stable miner. before spending too much on another drive? I have a 180gb and can only set 128gb at this time and it also seems to just not be enough for 8x 1070 and 2x 1070ti. the excavator runs for a few minutes then restarts. I added a second disk and put the vMem on it this did not fix the issue. So i think the excavator does not like vMem on another disk or shared between disks? I am no expert on the application but anything is possible.
Copy link Quote reply
just saw this comment from a fellow miner about Neoscrypt. Maybe it is more harsh to attempt?
from: Alex Thomas
«I had the same problem when I was mining neoscrypt and solve it like that:
format and reinstall all drv nvidia and gigabyte oc soft. and nicehash last version.
oc gigabyte soft alls gpus -20% power
open nicehash soft and make normal benchmark
now all it is working perfect , i can miner neoscrypt without errors cuda
solved
CUDA error ‘out of memory’ in func ‘cuda_neoscrypt::init’ line 1258″
Copy link Quote reply
4x GTX 1070 (3 ASUS, 1 MSI) on WIN10 with 4GB RAM. After I got the error above I increased the vRAM amount to 64000 MB and running now with no errors since two hours ago.
Copy link Quote reply
Installed new drive and went with 125GB Vmem and turned back on neoscrypt and it’s mining neoscrypt now with no errors for about the last 10 minutes. Never got this far before. Thanks for all your help!
Copy link Quote reply
I’ve noticed a pattern here: everyone who has posted seems to have a mixture of GPUs in their mining rig. And so do I. One GTX 1080, one GTX 1070 ti, three GTX 1070s, and one GTX 1060.
I found my issue to be optimization confusion. I’m using the NIceHash miner, and when I ran the original benchmark against my GPUs, the optimizer assumed that my three GTX 1070s were created equal. But I have 2 that overclocked higher from the factory, and one that is lower-end and therefore has a slower GPU clock.
The optimizer picked one of the higher-end 1070s to run it’s optimization against, and simply assumed that the other two were identical cards. I eventually figured out that the error was occurring when the slower GTX 1070 was hit as hard as the higher-end GTX 1070s. Which was happening within seconds of starting the miner. Sometimes it took minutes.
A possible solution, would have been to overclock all three GTX 1070 at the same speed and re-run the optimizer. But what I ended up doing is replace the the slower 1070 with a GTX 1050 Ti from a different miner. The optimizer re-ran and now all seems to be working fine.
Copy link Quote reply
I have very similar problem. I somewhat agree with HoverDrive.
I too have mix of GPUs (1070, 1060, 1050ti, 1050 and some are factory OC’d).
I run v2.0.1.10 (Latest as of today) — Error I get is «wrkrx-x | CUDA error ‘out of memory’ in func ‘cuda_neoscrypt::init’ line 1405» .
I have 10 GPU rig with 8GB memory. Quick look at task manager show memory is not a problem.
Is this a bug? Should I file a bug report? When I turn off neoscrypt or remove someof my cards, this rig seems to work. Is there a gpu limit to what NiceHash can handle. Windows 10 that I use, seems to recognize all cards and use the latest drivers from NVIDIA.
Исправляем ошибку при майнинге Ethereum на GeForce 1050
Все кто занимается добычей криптовалюты, рано или поздно сталкиваются с определенными проблемами в работе оборудования. Часто, решаются они быстро, а в большинстве случаев, вовсе проходят сами, после автоматического обновления ПО.
Сегодня же, поговорим о ошибке «CUDA error», а если быть точнее, то о том, как её победить. Я лично столкнулся с подобной проблемой, по-этому знаю о чем говорю. Не буду мучить вас предысториями о том, как у меня все начиналось и как я от этого страдал — это лишнее. Давайте сразу приступим к сути вопроса и его решению.
Если вы занимаетесь добычей Ethereum (эфириума), и у вас возникает такая ошибка (ниже выложу скрин), значит мой метод решения именно для вас:
Решение ошибки CUDA error
Шаг 1. На рабочем столе находим «Мой компьютер» нажимаем на него правой кнопкой, и выбираем последний пункт «Свойства»
Шаг 2. Идем по пути: «Дополнительные параметры системы» — «Дополнительно» — «Параметры» — опять «Дополнительно»
Шаг 3. Нажимаем кнопку «Изменить» возле надписи «Виртуальная память»
Шаг 4. Вводим нужную цифру (напомним, что она не должна быть ниже 16 000 Мб)
Собственно все. После таких манипуляций, мой риг сново ожил, а майнинг вернулся на прежний уровень дохода. Для тех кто не понял, что нужно делать, ниже оставлю видео, как это выглядит у меня, а там уже разберетесь. Собственно вот, как и обещал!
[creativ_media type=»youtube» url=»www.youtube.com/watch?v=Y-F-VcsUUpI»]
Не знаю, поможет ли вам этот способ, но мне помог. На самом деле, ошибки связанные с файлом подкачки, довольно таки частые, а данный метод поможет их решить. Всем хорошего майнинга и меньше ошибок при добыче крипты!
Источник
Пример решения 3
Часто драйвера версии 20.11.2 исправляют ошибку.
Протестирована работа на Windows 19.09. Версия 5.4c работает.
Бывает такая же проблема на RX580 8 ГБ (clSetKernelArg (-48)). Нужно так же переустановить программное обеспечение драйвера AMD (Adrenalin версии 20.8.1) с включенной функцией сброса до заводских настроек, и проблема исчезнет. Также нужно отключить автоматические обновления в настройках Adrenalin, так как он что-то обновляет автоматически. Поэтому, чтобы решить эту проблему, нужно переустановить драйверы на старую версию, которая, как вы знаете, раньше работала нормально.
Так же многим помогает добавление параметра -eres -1 или -eres 0 но ни в коем случае ни -eres 2.
Пример: PhoenixMiner.exe -pool eth-eu2.nanopool.org:9999 -wal 0xBB942274AB3C8285400519e7F0c343Fca2394908.my -gser 10 -rvram -1 -eres 0 pause
CUDA error — cannot allocate big buffer for DAG как исправить
Майнингом криптовалют не пытаются заниматься только самые ленивые. Результаты этой работы зависят от вычислительных мощностей компьютера, в частности видеокарты. Каждый день компьютер должен находить все новые данные в виде хэша. Но в некоторых случаях пользователи сталкиваются с ошибкой CUDA error – cannot allocate big buffer for DAG. Как её исправить, вы узнаете из этой статьи.
Для чего нужен файл DAG
DAG — это определенный блок данных, который используется при поиске элементов блокчейна в сети. Он построен на алгоритме Dagger Hashimoto. Добываемая валюта — Ethereum (Эфириум). Но есть и другие монеты в этом алгоритме. Например, Whale, Ubiq, Pegas, Dubaicoin, Musicoin, Soil и другие. Когда пользователь запускает сам майнер, DAG должен загрузиться в память. Более точный его размер — 1200 Мб. Со временем он способен увеличиваться в размере. Этот феномен называется смена эпох.
Каждой смене таких эпох соответствует свой размер файла. Количество занимаемой памяти DAG-файлом вы можете узнать по адресу: https://investoon.com/tools/dag_size. Здесь вы сможете узнать размер файла для всех монет на алгоритме Ethash. Смена каждой эпохи происходит примерно 1 раз в 10 дней.
Впервые проблемы с файлом DAG появились еще в 2016 году зимой. После смены нескольких десятков эпох, размер увеличился до 1.7 Гб. Использование данного алгоритма на видеокартах с 2 Гб видео памяти стало невозможным. Но в некоторых ситуациях проблему все же можно было решить.
Как исправить?
Вы должны указать в батнике команду -gser с нужным вам значеним. Примеры ниже.
Что делает команда -gser?
-gser отвечает за сериализацию создания DAG файла на нескольких графических процессорах.
Возможные значения этого параметра:
- 0 — без сериализации, все графические процессоры генерируют DAG одновременно, это значение по умолчанию и с ним у вас появляется эта ошибка;
- 1 — частичное перекрытие генерации DAG на каждом GPU;
- 2 — без перекрытия (каждый GPU ожидает, пока предыдущий не закончит генерировать DAG);
- 3-10 — задержка от 1 до 8 секунд после каждого создания GPU DAG перед следующим).
Следовательно, вам нужно подобрать оптимальное значение команды -gser для ваших видеокарт.
Способы устранения ошибки
Проблема встречается в Windows потому, что операционная система требует для резерва около 750 Мб видеопамяти. При обычных операциях в видео процессоре эта память не занимается. Но со временем роста размера файла DAG, возникает ошибка CUDA error – cannot allocate big buffer for DAG.
Данная ошибка появляется все чаще на устройствах с видеокартой, которая имеет встроенную видеопамять — 2Гб. Файл DAG, который упоминается в тексте ошибки, требует от системы сплошного буфера. Этот буфер должен иметь размер чуть более 1 Гб. И вроде бы должно хватить видеопамяти, но система упорно выдает ошибку. Некоторым пользователям удается исправить эту проблему в Windows при помощи ввода нескольких команд. Про
Примеры решения
Вот так должен выглядеть батник с командой -gser.
PhoenixMiner.exe -pool eth-eu2.nanopool.org:9999 -wal 0xBB942274AB3C8285400519e7F0c343Fca2394908.my -gser 2 pause
или
PhoenixMiner.exe -pool eth-eu2.nanopool.org:9999 -wal 0xBB942274AB3C8285400519e7F0c343Fca2394908.my -gser 10 pause
Так же не забудьте увеличить виртуальную память Windows (размер файла подкачки). Нужно минимум 32 ГБ для фермы из 6 видеокарт RX580.
Если не помогает, то добавьте параметр -rvram -1.
Пример:
PhoenixMiner.exe -pool eth-eu2.nanopool.org:9999 -wal 0xBB942274AB3C8285400519e7F0c343Fca2394908.my -gser 10 -rvram -1 pause
Всегда используйте последнюю версию программы, чтобы избежать ошибок в дальнейшем.
Другие способы устранить ошибку
Если предыдущими методами решить проблему с видеокартой не получилось, попробуем увеличить файл подкачки Windows. В некоторых случаях эта рекомендация должна её решить.
Закройте окна и попытайтесь запустить майнер. Если вы пытаетесь на одной видеокарте майнить разными программами, попробуйте оставить только одну. Также попробуйте более новую Claymore Dual Miner 11.6. В этой версии разработчики решили проблемы, связанные с видеопамятью и рядом версий устройств. Найти данное ПО можно на странице https://www.dualminer.ru/. Также предпочтительно использовать для него операционную систему Windows 7. В ней пользователи намного реже сталкиваются с подобными ошибками.
А если у вас есть опыт использования ОС Linux — это будет для вас лучшим вариантом. Она уже настроена и готова работать с Claymore Dual Miner. Но работа и установка на этой ОС отличается более сложным процессом. Для этих задач Linux имеет ряд преимуществ. Главное — до 20% экономии электроэнергии при майнинге. Для больших ферм это немаловажно. В Linux достаточно редко встречается ошибка CUDA error — cannot allocate big buffer for DAG.
Источник
Ошибки майнеров, связанные с установкой, конфигурацией видеокарт
При настройке и эксплуатации оборудования для майнинга часто возникают различные ошибки.
В данной статье рассматриваются характерные ошибки, возникающие при майнинге при неверной сборке майнинг ферм или в связи с программными ошибками.
Аппаратные ошибки, приводящие к неверной работе или отсутствии видеокарт в диспетчере задач
На аппаратном уровне к ошибкам в определении видеокарт или к постоянному их вылету при работе приводят некоторые часто встречающиеся проблемы. К ним относятся:
- слабые блоки питания, которые не могут обеспечить достаточной мощности для видеокарт при майнинге. Нужно понимать, что различные блоки питания имеют граничные показатели эффективности и могут выдавать в круглосуточном режиме только ограниченную мощность. Для качественных БП это до 80% от их заявленной мощности, а для дешевых – от 50 до 70% от паспортных данных по линии 12 вольт;
- некачественные райзера. При использовании райзеров с плохими контактами (как по линии питания, так и по линии данных), с конденсаторами малой емкости, некачественными кабелями USB, видеокарты могут не определяться совсем, либо определяться системой, но вылетать при работе майнера. Для устранения проблем, связанных с райзерами, нужно выбирать только качественные райзера, желательно с 6-пиновым разъемом питания (в крайнем случае Molex), использовать по возможности самые короткие, толстые, экранированные USB-кабеля данных;
- иногда пользователи забывают подключить все разъемы питания к видеокарте и к райзеру. В этом случае видеокарта может и определяться, но будет отображаться в диспетчере устройств с ошибками;
- при подключении нескольких блоков питания к майнинг ферме нужно стараться подключать и видеокарту и ее райзер к одному блоку питания. Ни в коем случае нельзя подключать к материнской плате питание от разных блоков питания. Это гарантированно приведет к появлению перетоков и выгоранию электронных элементов платы.
Во всех случаях, связанных с поиском неисправностей в работе электро и радиоаппаратуры и вычислительной техники нужно помнить, что:
ОСНОВНЫМИ ПРИЧИНАМИ НЕИСПРАВНОСТЕЙ В ЛЮБЫХ ЭЛЕКТРИЧЕСКИХ УСТРОЙСТВАХ ЯВЛЯЮТСЯ НАЛИЧИЕ ЛИШНИХ ИЛИ ОТСУТСТВИЕ НУЖНЫХ КОНТАКТОВ.
Программные ошибки, связанные с видеокартами, приводящие к сбоям майнеров
При неверной настройке операционной системы, сбое в установке драйверов, неправильной конфигурации майнеров, избыточном разгоне возникают ошибки, в результате которых происходит сбой при запуске программы-майнера.
Ошибки, вызванные неправильной установкой драйверов
Для правильной установки драйверов видеокарт АМД и Нвидиа рекомендуем почитать статью «Правильная установка драйверов GPU для майнинга», а также профильные форумы.
Как правило, в майнинг фермах с несколькими видеокартами возникают следующие ошибки, связанные с неправильной установкой драйверов:
- Ошибка с кодом 43 (error 43) – при установке драйверов АМД на видеокарты с перепрошитым BIOS. Эта ошибка легко лечится с помощью патчера AMD/ATI Pixel Clock Patcher. В операционной системе Windows 7 при установке более четырех видеокарт такая ошибка может возникнуть и с непрошитыми картами. Для ее устранения нужно применять 6xGPU_mod, последнюю версию которого можно скачать на Bitcointalk.
Ошибка с кодом 43, как правило, возникает при установке новых драйверов в системе, что может сделать и сама система во время автоматической установки обновлений. Кроме того, драйвера могут слететь при сбоях в питании, появлении ошибок на носителе системы, воздействии вирусов и других проблемах.
После такого обновления может появиться ошибка 43, а также значительно упасть хешрейт видеокарт. Для видеокарт AMD после установки драйверов нужно применить AMD-Compute-Switcher, а для видеокарт Нвидиа включить P0 state согласно методике, описанной в статье «Оптимизация потребления видеокарт Nvidia при майнинге».
Если после применения патчера и мода (для Windows 7) и перезагрузки системы ошибка не исчезает, то возможно на видеокарте прошит неверный BIOS, произошел сбой при его записи, либо вышла из строя микросхема BIOS на видеокарте. Для устранения такой ошибки нужно:
- прошить верный BIOS (вернуть заводской)$
- повторить заново процесс прошивки и дождаться сообщения программы AtiFlash об успехе;
- переключиться на резервный Bios (при наличии такового).
При невозможности восстановить рабочее состояние видеокарты прошивкой верного Биоса или переключением переключателя BIOS на резерв нужно менять чип BIOS в сервис-центре, либо искать другую причину неполадок.
- Ошибка с кодом 12, которая обозначает нехватку ресурсов в системе. Для ее устранения нужно проверить настройки BIOS материнской платы, где нужно:
- отключить все лишнее (например, serial и parallel port);
- включить above 4g декодирование;
- попробовать переключить систему в режим multi GPU;
- включить/выключить внутреннюю видеокарту (на разных системах этот способ действует по разному);
- установить режим работы PCI-E устройств в Gen 1 или 2;
- попробовать обновить BIOS материнской платы на самый последний.
Ошибки в конфигурации майнера при указании видеокарт
Этот вид ошибок возникает в случае отсутствия или неправильного указания в пакетном файле для запуска майнинга видеокарт, которые должны осуществлять майнинг (как АМД, так и Nvidia).
Например, в программе claymore dual miner и других программах от этого программиста, иногда возникает ошибка NO AMD OPENCL found. Она появляется при запуске программы для майнинга и обозначает, что не найдено устройств, поддерживающих технологию OPENCL.
В разных программах она может иметь различное написание, но ее суть сводится к невозможности найти подходящее для майнинга устройство.
При отсутствии аппаратных ошибок и проблем, связанных с неверной установкой драйверов, неисправность нужно искать в конфигурации майнера.
Эта ошибка может возникать и в других программах, использующихся для майнинга. Например, в программе sgminer подобная ошибка называется clDevicesNum returned error, no GPUs usable. При запуске майнера появляется подобное сообщение:
[02:56:02] Started sgminer v0.1.1 [02:56:02] * using Jansson 2.11 [02:56:09] Specified platform that does not exist [02:56:09] clDevicesNum returned error, no GPUs usable [02:56:09] Command line options set a device that doesn’t exist
Еще раз повторимся, что если в диспетчере устройств нужные видеокарты отображены корректно и не имеют восклицательных знаков с кодами ошибки, то неправильно сконфигурирован BAT-файл.
Это случается в системах с различными типами карт, установленными в системе (например, интегрированная видеокарта плюс видеокарты AMD или одновременное использование GPU от AMD и Nvidia и все три типа устройств вместе).
Как правило, для устранения этой ошибки нужно либо правильно указать номера использующихся в майнере видеокарт, либо указать какую платформу (AMD или Nvidia) нужно использовать.
В Claymore-майнере это команда -platform с цифровым значением: 1 – использовать только видеокарты AMD, 2 — только NVIDIA, 3 – использовать и AMD и NVIDIA GPU (по умолчанию в майнере действует команда 3, согласно которой используются оба типа карт).
В Phoenix miner это команды -amd или –nvidia соответственно.
В sgminer (его различных версиях и подобных программах, например, cgminer) в смешанных системах может понадобиться указывать в командной строке параметр —gpu-platform 1 или 2.
Обычно, при отсутствии включенной внутренней видеокарты этот майнер работает без указания этого парметра, но в этом случае иногда может потребоваться использование команды —gpu-platform 0.
Другие ошибки, приводящие к сбоям в работе майнеров
Рассмотрим другие ошибки, которые иногда возникают при работе программ для майнинга:
- ошибка OpenCL error -4 (0) — cannot create DAG on GPU – эта ошибка в Claymore майнере возникает при майнинге криптовалют на алгоритме Ethash (Ethereum, UBIQ, ETC, MOAC и другие). Для ее устранения нужно увеличить объем доступной виртуальной памяти в системе, а также использовать самые новые версии майнеров, способные работать с последними эпохами DAG;
- ошибка WATCHDOG: GPU hangs in OpenCL call появляется при переразгоне видеокарт, некачественных райзерах, плохих (очень длинных) соединительных USB-кабелях. Не нужно выжимать из видеокарт все соки, увеличивая частоту памяти и видеоядра, так как простои, вызванные переразгоном, сведут на нет весь доход от такого майнинга. Понять то, где выставлены очень большие значения частоты поможет программа hwinfo, которая показывает ошибки по памяти для видеокарт AMD:
Как правило, при переразгоне по памяти вылетает одна из видеокарт, а при чрезмерном разгоне по ядру (или очень сильном даунвольтинге) компьютер полностью зависает;
- майнер с GPU от AMD выключается с ошибкой о температуре карты в 511 градусов (на картах Nvidia появляется ошибка NVML: cannot get current temperature, error 15) – эта проблема возникает при плохом контакте видеокарты с райзером, при котором не проходит сигнал о температуре видеокарты либо есть проблемы по линии питания. Нужно поменять райзер и/или USB-кабель, почистить их контакты, а также контакты разъема видеокарты ваткой, смоченной в спирте. Можно попробовать поменять разъем PCI-E на материнке или вставить карту непосредственно в разъем материнской платы. Кроме того, видеокарта может выдавать такую ошибку при слишком большом разгоне/даунволтинге, а также плохом контакте (или слишком большой нагрузке на блок питания) по линии 12 вольт. В этом случае нужно проверить все разъемы питания, подходящие к карте на предмет наличия прогаров, особенно в случае применения различных переходников/разветвителей, а также снизить нагрузку на БП.
Заключение
Майнинг требует наличия определенных знаний, связанных с эксплуатацией вычислительной техники и сетей связи. Это необходимо, потому что знание основ функционирования радиоаппаратуры и каналов связи дает возможность самостоятельно разобраться в причинах появления неполадок и понять, как их можно устранить наиболее рациональным способом.
Знание основ электротехнических цепей поможет избежать ошибок, связанных с навешиванием чрезмерной нагрузки на одну линию (например, более одной видеокарты на линию Molex), что часто приводит к подгоранию контактов или выходу из строя райзеров и видеокарт.
Понимание закона Ома поможет избежать проблем, связанных с использованием переходников с разъема питания SATA на райзера, которое гарантированно приведет к прогоранию контактов и связанным с этим проблемам.
Чем больше человек знает, тем больше он понимает, что знает очень мало или не знает ничего… Процесс поиска истины благотворно воздействует на человеческую карму и дает жизненный опыт, для обретения которого, возможно, мы и живем…
Источник: https://www.cryptoprofi.info/?p=2237
How to avoid «CUDA out of memory» in PyTorch
I think it’s a pretty common message for PyTorch users with low GPU memory:
I want to research object detection algorithms for my coursework. And many deep learning architectures require a large capacity of GPU-memory, so my machine can’t train those models. I tried to process an image by loading each layer to GPU and then loading it back:
But it doesn’t seem to be very effective. I’m wondering is there any tips and tricks to train large deep learning models while using little GPU memory. Thanks in advance!
Edit: I’m a beginner in deep learning. Apologize if it’s a dummy question:)
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.