Cuda error in cudaprogram cu 373 out of memory 2

Phoenix Miner 4.7c Windows/msvc - Release build CUDA version: 10.0, CUDA runtime: 8.0 Available GPUs for mining: GPU1: GeForce GTX 1050 Ti (pcie 2), CUDA cap. 6.1, 4 GB VRAM, 6 CUs Nvidia driver ve...

Phoenix Miner 4.7c Windows/msvc — Release build

CUDA version: 10.0, CUDA runtime: 8.0
Available GPUs for mining:
GPU1: GeForce GTX 1050 Ti (pcie 2), CUDA cap. 6.1, 4 GB VRAM, 6 CUs
Nvidia driver version: 441.12
Eth: the pool list contains 1 pool (1 from command-line)
Eth: primary pool: daggerhashimoto.br.nicehash.com:3353
Starting GPU mining
Eth: Connecting to ethash pool daggerhashimoto.br.nicehash.com:3353 (proto: Nicehash)
GPU1: 30C 30% 36W
GPUs power: 35.6 W
Eth: Connected to ethash pool daggerhashimoto.br.nicehash.com:3353 (172.65.195.159)
Listening for CDM remote manager at port 4000 in read-only mode
Eth: Subscribed to ethash pool
Eth: Worker 3KbfgWhzLi4QrM6METY3aAzAA1NBhWj7j9$0-FfPFLHLcjVWIwstHKh8jHw authorized
Eth: New job #79ff35a2 from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
GPU1: Starting up… (0)
GPU1: Generating ethash light cache for epoch #296
Eth: New job #b158f306 from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Eth: New job #7f4f2f7d from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Light cache generated in 2.6 s (20.7 MB/s)
GPU1: Allocating DAG (3.33) GB; good for epoch up to #298
CUDA error in CudaProgram.cu:373 : out of memory (2)
GPU1: CUDA memory: 4.00 GB total, 3.30 GB free
GPU1 initMiner error: out of memory

Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00
Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00
Eth: New job #831b4fb4 from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Eth: New job #e68b5bc2 from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00
Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00
Eth: New job #f7f9bd07 from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Eth: New job #be9671bf from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00
GPU1: 30C 30% 36W
GPUs power: 35.6 W
Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00
Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00
Eth: New job #40399f1d from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Eth: New job #c947cfff from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Eth: New job #9a1e3f7f from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00

*** 0:00 *** 11/7 17:13 **************************************
Eth: Mining ETH on daggerhashimoto.br.nicehash.com:3353 for 0:00
Eth: Accepted shares 0 (0 stales), rejected shares 0 (0 stales)
Eth: Incorrect shares 0 (0.00%), est. stales percentage 0.00%
Eth: Average speed (5 min): 0.000 MH/s

Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00

Содержание

  1. CUDA error in CudaProgram.cu:373 : out of memory (2) #1857
  2. Comments
  3. Phoenix Miner 4.7c Windows/msvc — Release build
  4. Ошибки Видеокарты При Майнинге
  5. UNABLE TO ENUM CUDA GPUS: INVALID DEVICE ORDINAL
  6. UNABLE TO ENUM CUDA GPUS: INSUFFICIENT CUDA DRIVER: 5000
  7. NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED
  8. NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2) — как исправить?
  9. GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0
  10. Socket error. the remote host closed the connection, в майнере Nbminer
  11. Server not responded on share, на майнере Gminer
  12. DAG has been damaged check overclocking settings, в майнере Gminer
  13. ERROR: Can’t start T-Rex, failed to initialize device map: can’t get busid, code -6
  14. TREX: Can’t unlock GPU
  15. CAN’T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN’T GET BUSID, CODE -6
  16. ОШИБКА 511 ГРАДУСОВ НА ВИДЕОКАРТА
  17. GPU driver error, no temps в HiveOS — что делать?
  18. GPU are lost, rebooting
  19. exitcode=3 в HiveOS
  20. exitcode=1 в HiveOS
  21. gpu fault detected 146
  22. Waiting interface to come up — не работает VPN на HiveOS
  23. Как узнать ip адрес воркера hive os
  24. Repository update failed в HiveOS
  25. Rave os не запускается. Boot aborted Rave os
  26. Failed to allocate memory Raveos
  27. gpu_driver_fault, GPU #0 fault в RaveOS
  28. Gpu driver fault. All tasks have been stopped. Worker will be rebooted after 5 minutes в RaveOS
  29. Miner restarted after error RaveOS
  30. Miner restart limit reached. Worker rebooting by flag auto в RaveOS
  31. Miner cannot be started, ОС RaveOS
  32. Overclock can’t be applied в RaveOS
  33. Error installing hive miners
  34. Warning: Nvidia settings applied with errors
  35. Nvtool error или Danger: nvtool error
  36. Перестал отображаться кулер видеокарты HiveOS
  37. ERROR: parsing JSON failed
  38. NVML: can’t get fan speed for GPU #5, error code 999 hive os
  39. Can’t get power for GPU #2
  40. GPU1 search error: unspecified launch failure
  41. Warning: Autofan: unable to set fan speed, rebooting

CUDA error in CudaProgram.cu:373 : out of memory (2) #1857

Phoenix Miner 4.7c Windows/msvc — Release build

CUDA version: 10.0, CUDA runtime: 8.0
Available GPUs for mining:
GPU1: GeForce GTX 1050 Ti (pcie 2), CUDA cap. 6.1, 4 GB VRAM, 6 CUs
Nvidia driver version: 441.12
Eth: the pool list contains 1 pool (1 from command-line)
Eth: primary pool: daggerhashimoto.br.nicehash.com:3353
Starting GPU mining
Eth: Connecting to ethash pool daggerhashimoto.br.nicehash.com:3353 (proto: Nicehash)
GPU1: 30C 30% 36W
GPUs power: 35.6 W
Eth: Connected to ethash pool daggerhashimoto.br.nicehash.com:3353 (172.65.195.159)
Listening for CDM remote manager at port 4000 in read-only mode
Eth: Subscribed to ethash pool
Eth: Worker 3KbfgWhzLi4QrM6METY3aAzAA1NBhWj7j9$0-FfPFLHLcjVWIwstHKh8jHw authorized
Eth: New job #79ff35a2 from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
GPU1: Starting up. (0)
GPU1: Generating ethash light cache for epoch #296
Eth: New job #b158f306 from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Eth: New job #7f4f2f7d from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Light cache generated in 2.6 s (20.7 MB/s)
GPU1: Allocating DAG (3.33) GB; good for epoch up to #298
CUDA error in CudaProgram.cu:373 : out of memory (2)
GPU1: CUDA memory: 4.00 GB total, 3.30 GB free
GPU1 initMiner error: out of memory

Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00
Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00
Eth: New job #831b4fb4 from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Eth: New job #e68b5bc2 from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00
Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00
Eth: New job #f7f9bd07 from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Eth: New job #be9671bf from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00
GPU1: 30C 30% 36W
GPUs power: 35.6 W
Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00
Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00
Eth: New job #40399f1d from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Eth: New job #c947cfff from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Eth: New job #9a1e3f7f from daggerhashimoto.br.nicehash.com:3353; diff: 8590MH
Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00

*** 0:00 *** 11/7 17:13 **************************************
Eth: Mining ETH on daggerhashimoto.br.nicehash.com:3353 for 0:00
Eth: Accepted shares 0 (0 stales), rejected shares 0 (0 stales)
Eth: Incorrect shares 0 (0.00%), est. stales percentage 0.00%
Eth: Average speed (5 min): 0.000 MH/s

Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00

The text was updated successfully, but these errors were encountered:

Hi @WillianSalceda
Thank you for reaching out.
The reason your gpu is unable to mine daggerhashimoto because it doesn’t have enough memory.
It hash 3.30 GB free memory but current DAG SIZE is over this number. So if you would still want to mine this algorithm install Windows 7, since it doesn’t take that much memory as Windows 10. Or just start mining another algorithm.

I hope my answer was helpful, if you still have any questions please reopen the issue.

Источник

Ошибки Видеокарты При Майнинге

Зарабатывай на чужих сделках на бирже BingX. Подробнее — тут.

UNABLE TO ENUM CUDA GPUS: INVALID DEVICE ORDINAL

UNABLE TO ENUM CUDA GPUS: INSUFFICIENT CUDA DRIVER: 5000

NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED

NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2) — как исправить?

GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0

Socket error. the remote host closed the connection, в майнере Nbminer

DAG has been damaged check overclocking settings, в майнере Gminer

ERROR: Can’t start T-Rex, failed to initialize device map: can’t get busid, code -6

Ошибки настройки памяти с кодом -6 обычно указывают на проблему с драйвером.

Если у вас Windows, используйте программу DDU (DisplayDriverUninstaller), чтобы полностью удалить все драйверы Nvidia.
Перезагрузите систему.
Установите новый драйвер прямо с сайта Nvidia.
Перезагрузите систему снова.
Если у вас HiveOS/RaveOS — накатите чистый образ системы. Чтобы наверняка. 🙂

TREX: Can’t unlock GPU

Полный текст ошибки:
TREX: Can’t unlock GPU [ID=1, GPU #1], error code 15
WARN: Miner is going to shutdown.
WARN: NVML: can’t get fan speed for GPU #1, error code 15
WARN: NVML: can’t get power for GPU #1, error code 15
WARN: NVML: can’t get mem/core clock for GPU #1, error code 17

Решение:

  1. Проверьте все кабельные соединения видеокарты и райзера, особенно кабеля питания.
  2. Если с первый пунктом все ок, попробуйте поменять райзер на точно рабочий.
  3. Если ошибка остается, вставьте видеокарту в разъем х16 напрямую в материнскую плату.

CAN’T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN’T GET BUSID, CODE -6

Зарабатывай на чужих сделках на бирже BingX. Подробнее — тут.

ОШИБКА 511 ГРАДУСОВ НА ВИДЕОКАРТА

GPU driver error, no temps в HiveOS — что делать?

Вероятнее всего, вы получили эту ошибку, майнив на HiveOS. Причин ее появления может быть несколько — как софтовая, так и аппаратная (например райзер).
Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.

Если ошибка не уйдет — проверьте райзер.

GPU are lost, rebooting

Это не ошибка, а ее последствие. Что узнать какая ошибка приводит к перезагрузке карт, сделайте следующее:

Включите сохранение логов (по умолчанию они выключены) командой

И перезагрузите риг.
После того как ошибка повторится можно будет скачать логи командами ниже.
Вы можете использовать следующую команду, чтобы загрузить логи майнера прямо с панели мониторинга;

message file «miner.log» -f=/var/log/miner/minername/minername.log

Итак, скажем, например, мне нужны логи TeamRedMiner
message file «teamredminer.log» -f=/var/log/miner/teamredminer/teamredminer.log

Отправленная командная строка будет выделена синим цветом. Загружаемый файл будет отображаться белым цветом. Нажав на него, вы сможете его скачать.
Эта команда позволит скачать лог системы

message file «syslog» -f=/var/log/syslog

exitcode=3 в HiveOS

Вероятнее всего, вы получили эту ошибку, майнив на HiveOS. Причин ее появления может быть несколько — как софтовая, так и аппаратная (например райзер).
Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.

Если ошибка не уйдет — проверьте райзер.

exitcode=1 в HiveOS

Данная ошибка возникает когда есть проблема с датой в биосе материнской платы (сбитое время) и (или) есть проблема с интернетом.
Если сбито время, то удаленно вы не сможете подключиться.
Тем не менее, обновление драйверов Nvidia должно пройти командой:

gpu fault detected 146

Waiting interface to come up — не работает VPN на HiveOS

Как узнать ip адрес воркера hive os

Repository update failed в HiveOS

Rave os не запускается. Boot aborted Rave os

Перепроверьте все настройки ПК и БИОСа материнской платы:
— Установите загрузочное устройство HDD/SSD/M2/USB в зависимости от носителя с ОС.
— Включите 4G decoding.
— Установите поддержку PCIe на Auto.
— Включите встроенную графику.
— Установите предпочтительный режим загрузки Legacy mode.
— Отключите виртуализацию.

Если после данных настроек не определяется часть карт, то выполните следующие настройки в BIOS (после каждого пункта требуется полная перезагрузка):

— Отключите 4G decoding
— Перезагрузка
— Отключите CSM
— Перезагрузка
— Включите 4G decoding, установите PCI-E Gen2/3, а при отсутствии Gen2/3, можно выбрать Gen1

Failed to allocate memory Raveos

Эта же ошибка может называться как:
failed to allocate initramfs memory bailing out, failed to load idlinux c.32
или
failed to allocate memory for kernel boot parameter block
или
failed to allocate initramfs memory raveos bailing

Но решение у нее одно — вы должны правильно настроить БИОС материнской платы.

gpu_driver_fault, GPU #0 fault в RaveOS

gpu_driver_fault, GPU #0 fault в RaveOS

Gpu driver fault. All tasks have been stopped. Worker will be rebooted after 5 minutes в RaveOS

Miner restarted after error RaveOS

Miner restart limit reached. Worker rebooting by flag auto в RaveOS

Miner cannot be started, ОС RaveOS

Непосредственно перед этой ошибкой обычно пишется еще другая, которая и вызывает эту проблему. Но если ничего нет, то:

  1. Поставьте майнер на паузу, перезагрузите риг и в консоли выполните команды clear-miners clear-logs и fix-fs. Запустите майнинг.
  2. Если ошибка не ушла, перепишите образ RaveOS.

Overclock can’t be applied в RaveOS

Error installing hive miners

Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.

Если ошибка не уйдет — физически перезапишите образ. Если у вас флешка, то скорее всего она умерла. Купите SSD. 🙂

Warning: Nvidia settings applied with errors

Перестал отображаться кулер видеокарты HiveOS

ERROR: parsing JSON failed

Необходимо выполнить на риге локально (с клавиатурой и монитором) следующую команду:
net-test

Данная команда покажет ваше текущее состояние подключения к разным зеркалам API серверов HiveOS.
Посмотрите, к какому API у вас наименьшая задержка (ping), и когда воркер снова появится в панели, измените стандартное зеркало на то, что ближе к вам.
После смены зеркала, в обязательном порядке перезагрузите ваш воркер.
Изменить сервер API вы можете командой nano /hive-config/rig.conf
После смены нажмите ctrl + o и ентер для того чтобы сохранить файл.
После этого выйдите в консоль командой ctrl + x, f10 и выполните команду hello

NVML: can’t get fan speed for GPU #5, error code 999 hive os

Can’t get power for GPU #2

Как правило эта ошибка встречается рядом вместе с другими:
Attribute ‘GPUGraphicsClockOffset’ was already set to 0
Attribute ‘GPUMemoryTransferRateOffset’ was already set to 2200
Attribute ‘GPUFanControlState’ (hive1660s_ETH:0[gpu:2]) assigned value
0.

20211029 12:40:50 WARN: NVML: can’t get fan speed for GPU #2, error code 999
20211029 12:40:50 WARN: NVML: can’t get power for GPU #2, error code 999
20211029 12:40:50 WARN: NVML: can’t get mem/core clock for GPU #2, error code 999

Решение:

Проверьте корректность установки драйвера на видеокарте.
Убедитесь что нет проблем с драйвером, если все в порядке, то попробуйте другой параметр разгона. Например уменьшить разгон по памяти.

GPU1 search error: unspecified launch failure

Warning: Autofan: unable to set fan speed, rebooting

Найдите логи майнера, посмотрите какие ошибки майнер пишет в логах. Например:

kernel: [12112.410046][ T7358] NVRM: GPU at PCI:0000:0c:00: GPU-236e3bef-2e03-6cdb-0518-7ac01eb8736d
kernel: [12112.410049][ T7358] NVRM: Xid (PCI:0000:0c:00): 62, pid=7317, 0000(0000) 00000000 00000000
kernel: [12112.433831][ T7358] NVRM: Xid (PCI:0000:0c:00): 45, pid=7317, Ch 00000010
CRON[21094]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)

Исходя из логов, мы видим что есть проблема с видеокартой на слоте PCIE 0c:00 (под номером Gpu пишется номер PCIE слота) с ошибками 45 и 62
Коды ошибок (других, которые также могут быть там) и что с ними делать:

• 13, 43, 45: ошибки памяти, снизить MEM
• 8, 31, 32, 61, 62: снизить CORE, возможно и MEM
• 79: снизить CORE, проверить райзер

Источник

  • #1

Приветствую всех, решил помайнить ETC solo, до этого майнил ETC на пуле без проблем. Запускаю батник с ETC solo и высвечивает такую ошибку, cuda error in cudaprogram.cu 373 out of memory 2. Ставлю обратно на ETC и он начал выдавать такую же ошибку. Запускаю ETH, все хорошо работает. Видеокарты P104-100 (8шт.), добавлял оперативки, не помогло.Подскажите в чем дело

  • IMG_5780.JPG

    IMG_5780.JPG

    1,2 МБ · Просмотры: 106

  • #4

Приветствую всех, решил помайнить ETC solo, до этого майнил ETC на пуле без проблем. Запускаю батник с ETC solo и высвечивает такую ошибку, cuda error in cudaprogram.cu 373 out of memory 2. Ставлю обратно на ETC и он начал выдавать такую же ошибку. Запускаю ETH, все хорошо работает. Видеокарты P104-100 (8шт.), добавлял оперативки, не помогло.Подскажите в чем дело

5.0 попробуйте. Если прошиты, странно…

  • #5

Вижу что нет. Эпоха сменилась, Даг файл не вместился. На ETC он больше, чем на ETH.

  • #6

Вижу что нет. Эпоха сменилась, Даг файл не вместился. На ETC он больше, чем на ETH.

Вот и я о том же. 4 гб

  • #7

5.0 попробуйте. Если прошиты, странно…

5.0 пробовал, не помогло.

  • #8

5.0 попробуйте. Если прошиты, странно…

Посмотрел, 3 видеокарты не прошиты, по 4gb.

  • #9

Спасибо, проблема нашлась. Где найти информацию как прошить карты?

  • #10

Просто три карты недавно приобрел, а не посмотрел прошиты или нет.

  • #11

Посмотрел, 3 видеокарты не прошиты, по 4gb.

О том и речь.

  • #12

На форуме где то лежит инфа, используй поиск. У меня 104 карт не было, по прошивкам от какой марки правильную брать подсказать не смогу. Николай точно в теме, у него поспрашивай.

  • #13

Спасибо, проблема нашлась. Где найти информацию как прошить карты?

  • #14

1.Покажи батник/конфиг.
2.Какая операционная система?
3.Какая версия драйверов?

  • #15

1.Покажи батник/конфиг.
2.Какая операционная система?
3.Какая версия драйверов?

1.
TIMEOUT 10

PhoenixMiner.exe -coin etc -pool solo-etc.2miners.com:5050 -rvram 1 -wal кошелек.риг -proto 2
pause
2. Windows 10
3. 23.21.13.9135

  • #16

1.
TIMEOUT 10

PhoenixMiner.exe -coin etc -pool solo-etc.2miners.com:5050 -rvram 1 -wal кошелек.риг -proto 2
pause
2. Windows 10
3. 23.21.13.9135

-rvram -1 Так должно быть. Это первое. Второе- проблему пояснили же. Либо шить на 8 гигов, либо свалить на хайв, к примеру. Час займет установка. И копай себе до ноября.
И еще, что за чудо- идея в соло классик копать? Лотереи любите?

  • #17

Хотел денёк попробовать,на удачу

  • #18

Вечер добрый, начал прошивку видеокарт, но у меня не получилось. В GPU-Z вообще показывает 0mb память. Когда начинаю прошивать, выдает такую ошибку

  • IMG_5788.JPG

    IMG_5788.JPG

    2 МБ · Просмотры: 31

  • #19

Вечер добрый, начал прошивку видеокарт, но у меня не получилось. В GPU-Z вообще показывает 0mb память. Когда начинаю прошивать, выдает такую ошибку

Запустите с правами администратора

  • #20

Запустите с правами администратора

Так и запускал

Зарегистрируйтесь или войдите, чтобы отвечать

15 сообщений в этой теме


vitaly68tara
Зарегистрирован:
23-10-2019, 14:43

Сообщений: 5

У меня видеокарта GTX 1060 3 ГБ пытаясь запустить PhoenixMiner 5.4c с порта 7100 или 7200 выдает ошибку а 7008 работает в чем проблема?


DragonFly
Зарегистрирован:
15-11-2017, 13:28

Сообщений: 9

Какую ошибку выдает? Может памяти не выделяет в нужном количестве?


DragonFly
Зарегистрирован:
15-11-2017, 13:28

Сообщений: 9

У меня, когда подключаюсь на 7100 пишет занято 2.59гб, поэтому 3гб должно быть достаточно, может система резервирует под чтото?


bobakov
Зарегистрирован:
2-03-2016, 11:22

Сообщений: 45

попробуй 5.2

мне помогло, была в 5.4 и 5.5 ошибка — отсутствие opencl


vitaly68tara
Зарегистрирован:
23-10-2019, 14:43

Сообщений: 5

Запуская в майнере появляются эти данные и повторяются раз за разом.

Красным выделено 

CUDA error in CudaProgram.cu:388 : out of memory (2)

GPU1 initMiner error: out of memory

Fatal error detected. Restarting.

==============================================

CUDA version: 11.0, CUDA runtime: 8.0

No OpenCL platforms found

Available GPUs for mining:

GPU1: GeForce GTX 1060 3GB (pcie 1), CUDA cap. 6.1, 3 GB VRAM, 9 CUs

Nvidia driver version: 461.40

Eth: the pool list contains 1 pool (1 from command-line)

Eth: primary pool: ltcraft.ru:7100

Starting GPU mining

GPU1: set auto fan: 65C target temp (min fan 30%, max fan 100%)

Eth: Connecting to ethash pool ltcraft.ru:7100 (proto: EthProxy)

GPU1: 49C 0% 10W

GPUs power: 9.8 W

Listening for CDM remote manager at port 3333 in read-only mode

Eth: Connected to ethash pool ltcraft.ru:7100 (185.31.161.248)

Eth: New job #62869729 from ltcraft.ru:7100; diff: 4000MH

GPU1: Starting up… (0)

GPU1: Generating etchash light cache for epoch #201

Light cache generated in 2.1 s (19.2 MB/s)

GPU1: Allocating DAG (2.59) GB; good for epoch up to #203

CUDA error in CudaProgram.cu:388 : out of memory (2)

GPU1: CUDA memory: 3.00 GB total, 2.43 GB free

GPU1 initMiner error: out of memory

Fatal error detected. Restarting.

Eth speed: 0.000 MH/s, shares: 0/0/0, time: 0:00


DragonFly
Зарегистрирован:
15-11-2017, 13:28

Сообщений: 9

В логе пишет:

Первое — GPU1: Allocating DAG (2.59) GB; good for epoch up to #203

Означает, что для работы надо 2.59 гб видеопамяти.

Второе — GPU1: CUDA memory: 3.00 GB total, 2.43 GB free

Означает, что свободно 2.43Гб, получается памяти не хватает, если освободить немного памяти около 200 мегабайт, то ошибка пропадет. Нужно для теста завершить работу ненужных программ и проверить сколько освободилось видеопамяти. 

Кто знает как выжать с GTX1080 макси в PhoenixMiner_5.4c ? Что нужно изменить в бат файле ? У меня показывает 21.326 MH/S GPU 61C 42% 129W


DragonFly
Зарегистрирован:
15-11-2017, 13:28

Сообщений: 9

Можно добавить параметр -straps с числом от 1 до 6, у меня работает с параметром 3. Нужно подобрать наиболее оптимальный, при котором видеокарта работает стабильно. Для 1080ti нормальная скорость 30-36.

 85 -fanmin 30 -Rmode 1 -fret 1 -rate 1 -coin eth -straps 3

pause

и желтым выскакивает error 31

GPU: unable to set straps: error 31

 you have to run PhoenixMiner as administrator to set straps

I successfully trained the network but got this error during validation:

RuntimeError: CUDA error: out of memory

Mateen Ulhaq's user avatar

Mateen Ulhaq

23k16 gold badges89 silver badges130 bronze badges

asked Jan 26, 2019 at 1:39

xiaoding chen's user avatar

5

The error occurs because you ran out of memory on your GPU.

One way to solve it is to reduce the batch size until your code runs without this error.

Mateen Ulhaq's user avatar

Mateen Ulhaq

23k16 gold badges89 silver badges130 bronze badges

answered Jan 26, 2019 at 7:11

K. Khanda's user avatar

K. KhandaK. Khanda

4904 silver badges11 bronze badges

7

1.. When you only perform validation not training,
you don’t need to calculate gradients for forward and backward phase.
In that situation, your code can be located under

with torch.no_grad():
    ...
    net=Net()
    pred_for_validation=net(input)
    ...

Above code doesn’t use GPU memory

2.. If you use += operator in your code,
it can accumulate gradient continuously in your gradient graph.
In that case, you need to use float() like following site
https://pytorch.org/docs/stable/notes/faq.html#my-model-reports-cuda-runtime-error-2-out-of-memory

Even if docs guides with float(), in case of me, item() also worked like

entire_loss=0.0
for i in range(100):
    one_loss=loss_function(prediction,label)
    entire_loss+=one_loss.item()

3.. If you use for loop in training code,
data can be sustained until entire for loop ends.
So, in that case, you can explicitly delete variables after performing optimizer.step()

for one_epoch in range(100):
    ...
    optimizer.step()
    del intermediate_variable1,intermediate_variable2,...

answered Jan 29, 2019 at 9:32

YoungMin Park's user avatar

YoungMin ParkYoungMin Park

1,0211 gold badge9 silver badges17 bronze badges

2

The best way is to find the process engaging gpu memory and kill it:

find the PID of python process from:

nvidia-smi

copy the PID and kill it by:

sudo kill -9 pid

answered Jun 15, 2020 at 6:47

Milad shiri's user avatar

Milad shiriMilad shiri

7226 silver badges5 bronze badges

2

I had the same issue and this code worked for me :

import gc

gc.collect()

torch.cuda.empty_cache()

Syscall's user avatar

Syscall

19k10 gold badges36 silver badges51 bronze badges

answered Apr 2, 2021 at 15:16

behnaz.sheikhi's user avatar

3

It might be for a number of reasons that I try to report in the following list:

  1. Modules parameters: check the number of dimensions for your modules. Linear layers that transform a big input tensor (e.g., size 1000) in another big output tensor (e.g., size 1000) will require a matrix whose size is (1000, 1000).
  2. RNN decoder maximum steps: if you’re using an RNN decoder in your architecture, avoid looping for a big number of steps. Usually, you fix a given number of decoding steps that is reasonable for your dataset.
  3. Tensors usage: minimise the number of tensors that you create. The garbage collector won’t release them until they go out of scope.
  4. Batch size: incrementally increase your batch size until you go out of memory. It’s a common trick that even famous library implement (see the biggest_batch_first description for the BucketIterator in AllenNLP.

In addition, I would recommend you to have a look to the official PyTorch documentation: https://pytorch.org/docs/stable/notes/faq.html

answered Jan 26, 2019 at 16:28

Alessandro Suglia's user avatar

1

I am a Pytorch user. In my case, the cause for this error message was actually not due to GPU memory, but due to the version mismatch between Pytorch and CUDA.

Check whether the cause is really due to your GPU memory, by a code below.

import torch
foo = torch.tensor([1,2,3])
foo = foo.to('cuda')

If an error still occurs for the above code, it will be better to re-install your Pytorch according to your CUDA version. (In my case, this solved the problem.)
Pytorch install link

A similar case will happen also for Tensorflow/Keras.

answered May 20, 2021 at 8:59

Toru Kikuchi's user avatar

2

If you are getting this error in Google Colab use this code:

import torch
torch.cuda.empty_cache()

answered Jun 9, 2021 at 14:55

Themba Tman's user avatar

2

In my experience, this is not a typical CUDA OOM Error caused by PyTorch trying to allocate more memory on the GPU than you currently have.

The giveaway is the distinct lack of the following text in the error message.

Tried to allocate xxx GiB (GPU Y; XXX GiB total capacity; yyy MiB already allocated; zzz GiB free; aaa MiB reserved in total by PyTorch)

In my experience, this is an Nvidia driver issue. A reboot has always solved the issue for me, but there are times when a reboot is not possible.

One alternative to rebooting is to kill all Nvidia processes and reload the drivers manually. I always refer to the unaccepted answer of this question written by Comzyh when performing the driver cycle. Hope this helps anyone trapped in this situation.

answered Nov 21, 2022 at 19:02

William Yolland's user avatar

If someone arrives here because of fast.ai, the batch size of a loader such as ImageDataLoaders can be controlled via bs=N where N is the size of the batch.

My dedicated GPU is limited to 2GB of memory, using bs=8 in the following example worked in my situation:

from fastai.vision.all import *
path = untar_data(URLs.PETS)/'images'

def is_cat(x): return x[0].isupper()
dls = ImageDataLoaders.from_name_func(
    path, get_image_files(path), valid_pct=0.2, seed=42,
    label_func=is_cat, item_tfms=Resize(244), num_workers=0, bs=)

learn = cnn_learner(dls, resnet34, metrics=error_rate)
learn.fine_tune(1)

answered Aug 22, 2020 at 19:57

dgellow's user avatar

dgellowdgellow

6241 gold badge11 silver badges18 bronze badges

1

Problem solved by the following code:

import os
os.environ['CUDA_VISIBLE_DEVICES']='2, 3'

answered May 22, 2021 at 13:54

ah bon's user avatar

ah bonah bon

8,9159 gold badges56 silver badges125 bronze badges

1

Not sure if this’ll help you or not, but this is what solved the issue for me:

export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128

Nothing else in this thread helped.

answered Sep 17, 2022 at 6:34

WaXxX333's user avatar

WaXxX333WaXxX333

1681 gold badge1 silver badge10 bronze badges

I faced the same issue with my computer. All you have to do is customize your configuration file to match your computer’s specifications. Turns out my computer takes image sizes below 600 X 600 and when I adjusted the same in the configuration file, the program ran smoothly.

Picture Describing my cfg file

Gino Mempin's user avatar

Gino Mempin

23.1k27 gold badges91 silver badges120 bronze badges

answered Dec 14, 2020 at 5:30

nimish nahar's user avatar

Исправляем ошибку при майнинге Ethereum на GeForce 1050

Все кто занимается добычей криптовалюты, рано или поздно сталкиваются с определенными проблемами в работе оборудования. Часто, решаются они быстро, а в большинстве случаев, вовсе проходят сами, после автоматического обновления ПО.

Сегодня же, поговорим о ошибке «CUDA error», а если быть точнее, то о том, как её победить. Я лично столкнулся с подобной проблемой, по-этому знаю о чем говорю. Не буду мучить вас предысториями о том, как у меня все начиналось и как я от этого страдал — это лишнее. Давайте сразу приступим к сути вопроса и его решению.

Если вы занимаетесь добычей Ethereum (эфириума), и у вас возникает такая ошибка (ниже выложу скрин), значит мой метод решения именно для вас:

Решение ошибки CUDA error

Шаг 1. На рабочем столе находим «Мой компьютер» нажимаем на него правой кнопкой, и выбираем последний пункт «Свойства»

Шаг 2. Идем по пути: «Дополнительные параметры системы» — «Дополнительно» — «Параметры» — опять «Дополнительно»

Шаг 3. Нажимаем кнопку «Изменить» возле надписи «Виртуальная память»

Шаг 4. Вводим нужную цифру (напомним, что она не должна быть ниже 16 000 Мб)

Собственно все. После таких манипуляций, мой риг сново ожил, а майнинг вернулся на прежний уровень дохода. Для тех кто не понял, что нужно делать, ниже оставлю видео, как это выглядит у меня, а там уже разберетесь. Собственно вот, как и обещал!

[creativ_media type=»youtube» url=»www.youtube.com/watch?v=Y-F-VcsUUpI»]

Не знаю, поможет ли вам этот способ, но мне помог. На самом деле, ошибки связанные с файлом подкачки, довольно таки частые, а данный метод поможет их решить. Всем хорошего майнинга и меньше ошибок при добыче крипты!

Источник

Пример решения 3

Часто драйвера версии 20.11.2 исправляют ошибку.

Протестирована работа на Windows 19.09. Версия 5.4c работает.

Бывает такая же проблема на RX580 8 ГБ (clSetKernelArg (-48)). Нужно так же переустановить программное обеспечение драйвера AMD (Adrenalin версии 20.8.1) с включенной функцией сброса до заводских настроек, и проблема исчезнет. Также нужно отключить автоматические обновления в настройках Adrenalin, так как он что-то обновляет автоматически. Поэтому, чтобы решить эту проблему, нужно переустановить драйверы на старую версию, которая, как вы знаете, раньше работала нормально.

Так же многим помогает добавление параметра -eres -1 или -eres 0 но ни в коем случае ни -eres 2.

Пример: PhoenixMiner.exe -pool eth-eu2.nanopool.org:9999 -wal 0xBB942274AB3C8285400519e7F0c343Fca2394908.my -gser 10 -rvram -1 -eres 0 pause

CUDA error — cannot allocate big buffer for DAG как исправить

Майнингом криптовалют не пытаются заниматься только самые ленивые. Результаты этой работы зависят от вычислительных мощностей компьютера, в частности видеокарты. Каждый день компьютер должен находить все новые данные в виде хэша. Но в некоторых случаях пользователи сталкиваются с ошибкой CUDA error – cannot allocate big buffer for DAG. Как её исправить, вы узнаете из этой статьи.

Для чего нужен файл DAG

DAG — это определенный блок данных, который используется при поиске элементов блокчейна в сети. Он построен на алгоритме Dagger Hashimoto. Добываемая валюта — Ethereum (Эфириум). Но есть и другие монеты в этом алгоритме. Например, Whale, Ubiq, Pegas, Dubaicoin, Musicoin, Soil и другие. Когда пользователь запускает сам майнер, DAG должен загрузиться в память. Более точный его размер — 1200 Мб. Со временем он способен увеличиваться в размере. Этот феномен называется смена эпох.

Каждой смене таких эпох соответствует свой размер файла. Количество занимаемой памяти DAG-файлом вы можете узнать по адресу: https://investoon.com/tools/dag_size. Здесь вы сможете узнать размер файла для всех монет на алгоритме Ethash. Смена каждой эпохи происходит примерно 1 раз в 10 дней.

Впервые проблемы с файлом DAG появились еще в 2016 году зимой. После смены нескольких десятков эпох, размер увеличился до 1.7 Гб. Использование данного алгоритма на видеокартах с 2 Гб видео памяти стало невозможным. Но в некоторых ситуациях проблему все же можно было решить.

Как исправить?

Вы должны указать в батнике команду -gser с нужным вам значеним. Примеры ниже.

Что делает команда -gser?

-gser отвечает за сериализацию создания DAG файла на нескольких графических процессорах.

Возможные значения этого параметра:

  • 0 — без сериализации, все графические процессоры генерируют DAG одновременно, это значение по умолчанию и с ним у вас появляется эта ошибка;
  • 1 — частичное перекрытие генерации DAG на каждом GPU;
  • 2 — без перекрытия (каждый GPU ожидает, пока предыдущий не закончит генерировать DAG);
  • 3-10 — задержка от 1 до 8 секунд после каждого создания GPU DAG перед следующим).

Следовательно, вам нужно подобрать оптимальное значение команды -gser для ваших видеокарт.

Способы устранения ошибки

Проблема встречается в Windows потому, что операционная система требует для резерва около 750 Мб видеопамяти. При обычных операциях в видео процессоре эта память не занимается. Но со временем роста размера файла DAG, возникает ошибка CUDA error – cannot allocate big buffer for DAG.

Данная ошибка появляется все чаще на устройствах с видеокартой, которая имеет встроенную видеопамять — 2Гб. Файл DAG, который упоминается в тексте ошибки, требует от системы сплошного буфера. Этот буфер должен иметь размер чуть более 1 Гб. И вроде бы должно хватить видеопамяти, но система упорно выдает ошибку. Некоторым пользователям удается исправить эту проблему в Windows при помощи ввода нескольких команд. Про

Примеры решения

Вот так должен выглядеть батник с командой -gser.

PhoenixMiner.exe -pool eth-eu2.nanopool.org:9999 -wal 0xBB942274AB3C8285400519e7F0c343Fca2394908.my -gser 2 pause

или

PhoenixMiner.exe -pool eth-eu2.nanopool.org:9999 -wal 0xBB942274AB3C8285400519e7F0c343Fca2394908.my -gser 10 pause

Так же не забудьте увеличить виртуальную память Windows (размер файла подкачки). Нужно минимум 32 ГБ для фермы из 6 видеокарт RX580.

Если не помогает, то добавьте параметр -rvram -1.

Пример:

PhoenixMiner.exe -pool eth-eu2.nanopool.org:9999 -wal 0xBB942274AB3C8285400519e7F0c343Fca2394908.my -gser 10 -rvram -1 pause

Всегда используйте последнюю версию программы, чтобы избежать ошибок в дальнейшем.

Другие способы устранить ошибку

Если предыдущими методами решить проблему с видеокартой не получилось, попробуем увеличить файл подкачки Windows. В некоторых случаях эта рекомендация должна её решить.

Закройте окна и попытайтесь запустить майнер. Если вы пытаетесь на одной видеокарте майнить разными программами, попробуйте оставить только одну. Также попробуйте более новую Claymore Dual Miner 11.6. В этой версии разработчики решили проблемы, связанные с видеопамятью и рядом версий устройств. Найти данное ПО можно на странице https://www.dualminer.ru/. Также предпочтительно использовать для него операционную систему Windows 7. В ней пользователи намного реже сталкиваются с подобными ошибками.

А если у вас есть опыт использования ОС Linux — это будет для вас лучшим вариантом. Она уже настроена и готова работать с Claymore Dual Miner. Но работа и установка на этой ОС отличается более сложным процессом. Для этих задач Linux имеет ряд преимуществ. Главное — до 20% экономии электроэнергии при майнинге. Для больших ферм это немаловажно. В Linux достаточно редко встречается ошибка CUDA error — cannot allocate big buffer for DAG.

Источник

Ошибки майнеров, связанные с установкой, конфигурацией видеокарт

При настройке и эксплуатации оборудования для майнинга часто возникают различные ошибки.
В данной статье рассматриваются характерные ошибки, возникающие при майнинге при неверной сборке майнинг ферм или в связи с программными ошибками.

Аппаратные ошибки, приводящие к неверной работе или отсутствии видеокарт в диспетчере задач

На аппаратном уровне к ошибкам в определении видеокарт или к постоянному их вылету при работе приводят некоторые часто встречающиеся проблемы. К ним относятся:

  • слабые блоки питания, которые не могут обеспечить достаточной мощности для видеокарт при майнинге. Нужно понимать, что различные блоки питания имеют граничные показатели эффективности и могут выдавать в круглосуточном режиме только ограниченную мощность. Для качественных БП это до 80% от их заявленной мощности, а для дешевых – от 50 до 70% от паспортных данных по линии 12 вольт;
  • некачественные райзера. При использовании райзеров с плохими контактами (как по линии питания, так и по линии данных), с конденсаторами малой емкости, некачественными кабелями USB, видеокарты могут не определяться совсем, либо определяться системой, но вылетать при работе майнера. Для устранения проблем, связанных с райзерами, нужно выбирать только качественные райзера, желательно с 6-пиновым разъемом питания (в крайнем случае Molex), использовать по возможности самые короткие, толстые, экранированные USB-кабеля данных;
  • иногда пользователи забывают подключить все разъемы питания к видеокарте и к райзеру. В этом случае видеокарта может и определяться, но будет отображаться в диспетчере устройств с ошибками;
  • при подключении нескольких блоков питания к майнинг ферме нужно стараться подключать и видеокарту и ее райзер к одному блоку питания. Ни в коем случае нельзя подключать к материнской плате питание от разных блоков питания. Это гарантированно приведет к появлению перетоков и выгоранию электронных элементов платы.

Во всех случаях, связанных с поиском неисправностей в работе электро и радиоаппаратуры и вычислительной техники нужно помнить, что:

ОСНОВНЫМИ ПРИЧИНАМИ НЕИСПРАВНОСТЕЙ В ЛЮБЫХ ЭЛЕКТРИЧЕСКИХ УСТРОЙСТВАХ ЯВЛЯЮТСЯ НАЛИЧИЕ ЛИШНИХ ИЛИ ОТСУТСТВИЕ НУЖНЫХ КОНТАКТОВ.

Программные ошибки, связанные с видеокартами, приводящие к сбоям майнеров

При неверной настройке операционной системы, сбое в установке драйверов, неправильной конфигурации майнеров, избыточном разгоне возникают ошибки, в результате которых происходит сбой при запуске программы-майнера.

Ошибки, вызванные неправильной установкой драйверов

Для правильной установки драйверов видеокарт АМД и Нвидиа рекомендуем почитать статью «Правильная установка драйверов GPU для майнинга», а также профильные форумы.

Как правило, в майнинг фермах с несколькими видеокартами возникают следующие ошибки, связанные с неправильной установкой драйверов:

  1. Ошибка с кодом 43 (error 43) – при установке драйверов АМД на видеокарты с перепрошитым BIOS. Эта ошибка легко лечится с помощью патчера AMD/ATI Pixel Clock Patcher. В операционной системе Windows 7 при установке более четырех видеокарт такая ошибка может возникнуть и с непрошитыми картами. Для ее устранения нужно применять 6xGPU_mod, последнюю версию которого можно скачать на Bitcointalk.

Ошибка с кодом 43, как правило, возникает при установке новых драйверов в системе, что может сделать и сама система во время автоматической установки обновлений. Кроме того, драйвера могут слететь при сбоях в питании, появлении ошибок на носителе системы, воздействии вирусов и других проблемах.

После такого обновления может появиться ошибка 43, а также значительно упасть хешрейт видеокарт. Для видеокарт AMD после установки драйверов нужно применить AMD-Compute-Switcher, а для видеокарт Нвидиа включить P0 state согласно методике, описанной в статье «Оптимизация потребления видеокарт Nvidia при майнинге».

Если после применения патчера и мода (для Windows 7) и перезагрузки системы ошибка не исчезает, то возможно на видеокарте прошит неверный BIOS, произошел сбой при его записи, либо вышла из строя микросхема BIOS на видеокарте. Для устранения такой ошибки нужно:

  • прошить верный BIOS (вернуть заводской)$
  • повторить заново процесс прошивки и дождаться сообщения программы AtiFlash об успехе;
  • переключиться на резервный Bios (при наличии такового).

При невозможности восстановить рабочее состояние видеокарты прошивкой верного Биоса или переключением переключателя BIOS на резерв нужно менять чип BIOS в сервис-центре, либо искать другую причину неполадок.

  1. Ошибка с кодом 12, которая обозначает нехватку ресурсов в системе. Для ее устранения нужно проверить настройки BIOS материнской платы, где нужно:
  • отключить все лишнее (например, serial и parallel port);
  • включить above 4g декодирование;
  • попробовать переключить систему в режим multi GPU;
  • включить/выключить внутреннюю видеокарту (на разных системах этот способ действует по разному);
  • установить режим работы PCI-E устройств в Gen 1 или 2;
  • попробовать обновить BIOS материнской платы на самый последний.

Ошибки в конфигурации майнера при указании видеокарт

Этот вид ошибок возникает в случае отсутствия или неправильного указания в пакетном файле для запуска майнинга видеокарт, которые должны осуществлять майнинг (как АМД, так и Nvidia).

Например, в программе claymore dual miner и других программах от этого программиста, иногда возникает ошибка NO AMD OPENCL found. Она появляется при запуске программы для майнинга и обозначает, что не найдено устройств, поддерживающих технологию OPENCL.

В разных программах она может иметь различное написание, но ее суть сводится к невозможности найти подходящее для майнинга устройство.

При отсутствии аппаратных ошибок и проблем, связанных с неверной установкой драйверов, неисправность нужно искать в конфигурации майнера.

Эта ошибка может возникать и в других программах, использующихся для майнинга. Например, в программе sgminer подобная ошибка называется clDevicesNum returned error, no GPUs usable. При запуске майнера появляется подобное сообщение:

[02:56:02] Started sgminer v0.1.1 [02:56:02] * using Jansson 2.11 [02:56:09] Specified platform that does not exist [02:56:09] clDevicesNum returned error, no GPUs usable [02:56:09] Command line options set a device that doesn’t exist

Еще раз повторимся, что если в диспетчере устройств нужные видеокарты отображены корректно и не имеют восклицательных знаков с кодами ошибки, то неправильно сконфигурирован BAT-файл.

Это случается в системах с различными типами карт, установленными в системе (например, интегрированная видеокарта плюс видеокарты AMD или одновременное использование GPU от AMD и Nvidia и все три типа устройств вместе).

Как правило, для устранения этой ошибки нужно либо правильно указать номера использующихся в майнере видеокарт, либо указать какую платформу (AMD или Nvidia) нужно использовать.

В Claymore-майнере это команда -platform с цифровым значением: 1 – использовать только видеокарты AMD, 2 — только NVIDIA, 3 – использовать и AMD и NVIDIA GPU (по умолчанию в майнере действует команда 3, согласно которой используются оба типа карт).

В Phoenix miner это команды -amd или –nvidia соответственно.

В sgminer (его различных версиях и подобных программах, например, cgminer) в смешанных системах может понадобиться указывать в командной строке параметр —gpu-platform 1 или 2.

Обычно, при отсутствии включенной внутренней видеокарты этот майнер работает без указания этого парметра, но в этом случае иногда может потребоваться использование команды —gpu-platform 0.

Другие ошибки, приводящие к сбоям в работе майнеров

Рассмотрим другие ошибки, которые иногда возникают при работе программ для майнинга:

  • ошибка OpenCL error -4 (0) — cannot create DAG on GPU – эта ошибка в Claymore майнере возникает при майнинге криптовалют на алгоритме Ethash (Ethereum, UBIQ, ETC, MOAC и другие). Для ее устранения нужно увеличить объем доступной виртуальной памяти в системе, а также использовать самые новые версии майнеров, способные работать с последними эпохами DAG;
  • ошибка WATCHDOG: GPU hangs in OpenCL call появляется при переразгоне видеокарт, некачественных райзерах, плохих (очень длинных) соединительных USB-кабелях. Не нужно выжимать из видеокарт все соки, увеличивая частоту памяти и видеоядра, так как простои, вызванные переразгоном, сведут на нет весь доход от такого майнинга. Понять то, где выставлены очень большие значения частоты поможет программа hwinfo, которая показывает ошибки по памяти для видеокарт AMD:

Как правило, при переразгоне по памяти вылетает одна из видеокарт, а при чрезмерном разгоне по ядру (или очень сильном даунвольтинге) компьютер полностью зависает;

  • майнер с GPU от AMD выключается с ошибкой о температуре карты в 511 градусов (на картах Nvidia появляется ошибка NVML: cannot get current temperature, error 15) – эта проблема возникает при плохом контакте видеокарты с райзером, при котором не проходит сигнал о температуре видеокарты либо есть проблемы по линии питания. Нужно поменять райзер и/или USB-кабель, почистить их контакты, а также контакты разъема видеокарты ваткой, смоченной в спирте. Можно попробовать поменять разъем PCI-E на материнке или вставить карту непосредственно в разъем материнской платы. Кроме того, видеокарта может выдавать такую ошибку при слишком большом разгоне/даунволтинге, а также плохом контакте (или слишком большой нагрузке на блок питания) по линии 12 вольт. В этом случае нужно проверить все разъемы питания, подходящие к карте на предмет наличия прогаров, особенно в случае применения различных переходников/разветвителей, а также снизить нагрузку на БП.

Заключение

Майнинг требует наличия определенных знаний, связанных с эксплуатацией вычислительной техники и сетей связи. Это необходимо, потому что знание основ функционирования радиоаппаратуры и каналов связи дает возможность самостоятельно разобраться в причинах появления неполадок и понять, как их можно устранить наиболее рациональным способом.

Знание основ электротехнических цепей поможет избежать ошибок, связанных с навешиванием чрезмерной нагрузки на одну линию (например, более одной видеокарты на линию Molex), что часто приводит к подгоранию контактов или выходу из строя райзеров и видеокарт.

Понимание закона Ома поможет избежать проблем, связанных с использованием переходников с разъема питания SATA на райзера, которое гарантированно приведет к прогоранию контактов и связанным с этим проблемам.

Чем больше человек знает, тем больше он понимает, что знает очень мало или не знает ничего… Процесс поиска истины благотворно воздействует на человеческую карму и дает жизненный опыт, для обретения которого, возможно, мы и живем…

Источник: https://www.cryptoprofi.info/?p=2237

How to avoid «CUDA out of memory» in PyTorch

I think it’s a pretty common message for PyTorch users with low GPU memory:

I want to research object detection algorithms for my coursework. And many deep learning architectures require a large capacity of GPU-memory, so my machine can’t train those models. I tried to process an image by loading each layer to GPU and then loading it back:

But it doesn’t seem to be very effective. I’m wondering is there any tips and tricks to train large deep learning models while using little GPU memory. Thanks in advance!

Edit: I’m a beginner in deep learning. Apologize if it’s a dummy question:)

    • Home
    • Tech

27 Sep 2022 1:13 PM +00:00 UTC

Try these tips and the Stable Diffusion runtime error will be a thing of the past.

Stable Diffusion Runtime Error: How To Fix CUDA Out Of Memory Error In Stable Diffusion


Credit: Stability.ai

If the Stable Diffusion runtime error is preventing you from making art, here is what you need to do.

Stable Diffusion is one of the best AI image generators out there. Unlike DALL-E and MidJourney AI, Stable Diffusion is available for the public and anyone with a powerful machine can generate images from texts.

However, Stable Diffusion might sometimes run into memory issues and stop working. If you are experiencing the Stable Diffusion runtime error, try the following tips.

How To Fix Runtime Error: CUDA Out Of Memory In Stable Diffusion

So you are running Stable Diffusion locally on your PC, maybe trying to make some NSFW images and bam! You are hit by the infamous RuntimeError: CUDA out of memory.

The error is accompanied by a long message that basically looks like this. The amount of memory may change but the content is the same.

RuntimeError: CUDA out of memory. Tried to allocate 30.00 MiB (GPU 0; 6.00 GiB total capacity; 5.16 GiB already allocated; 0 bytes free; 5.30 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

It appears you have run out of GPU memory. It is worth mentioning that you need at least 4 GB VRAM in order to run Stable Diffusion. If you have 4 GB or more of VRAM, below are some fixes that you can try.

  • Restarting the PC worked for some people.
  • Reduce the resolution. Start with 256 x 256 resolution. Just change the -W 256 -H 256 part in the command.
  • Try this fork as it requires a lot less VRAM according to many Reddit users.

If the issue persists, don’t worry. We have some additional troubleshooting tips for you to try. Keep reading!

Other Troubleshooting Tips

So you have tried all the simple and quick fixes but the runtime error seems to have no intention to leave you, huh? No worries! Let’s dive into relatively more complex steps. Here you go.

  • As mentioned in the error message, run the following command first: PYTORCH_CUDA_ALLOC_CONF=garbage_collection_threshold:0.6, max_split_size_mb:128. Then run the image generation command with: —n_samples 1.
  • Call the optimized python script. Use the following command: python optimizedSD/optimized_txt2img.py —prompt «a drawing of a cat on a log» —n_iter 5 —n_samples 1 —H 512 —W 512 —precision full
  • You can also try removing the safety checks aka NSFW filters, which take up 2GB of VRAM. Just replace scripts/txt2img.py with this:
    https://github.com/JustinGuese/stable-diffusor-docker-text2image/blob/master/txt2img.py

Hopefully, one of the suggestions will work for you and you will be able to generate images again. Now that the Stable Diffusion runtime error is fixed, have a look at how to access Stable Diffusion using Google Colab.

Понравилась статья? Поделить с друзьями:
  • Cuda error device unavailable
  • Cuda error device side assert triggered pytorch
  • Cuda error codes
  • Cuda error blender
  • Cuda error an illegal instruction was encountered