Runtimeerror cuda error invalid device ordinal

model = model.to(device) File "/usr/local/lib/python3.6/dist-packages/torch/nn/modules/module.py", line 426, in to return self._apply(convert) File "/usr/local/lib/python3.6/dist-pac...

I also call model.to(device).

Traceback:

Traceback (most recent call last):
  File "bert_att_weight_retrieval.py", line 381, in <module>
    main()
  File "bert_att_weight_retrieval.py", line 244, in main
    model.to(device)
  File "/run/media/marco/Daten/GitHub/feature-importance/venv36/lib/python3.6/site-packages/torch/nn/modules/module.py", line 381, in to
    return self._apply(convert)
  File "/run/media/marco/Daten/GitHub/feature-importance/venv36/lib/python3.6/site-packages/torch/nn/modules/module.py", line 187, in _apply
    module._apply(fn)
  File "/run/media/marco/Daten/GitHub/feature-importance/venv36/lib/python3.6/site-packages/torch/nn/modules/module.py", line 187, in _apply
    module._apply(fn)
  File "/run/media/marco/Daten/GitHub/feature-importance/venv36/lib/python3.6/site-packages/torch/nn/modules/module.py", line 187, in _apply
    module._apply(fn)
  File "/run/media/marco/Daten/GitHub/feature-importance/venv36/lib/python3.6/site-packages/torch/nn/modules/module.py", line 193, in _apply
    param.data = fn(param.data)
  File "/run/media/marco/Daten/GitHub/feature-importance/venv36/lib/python3.6/site-packages/torch/nn/modules/module.py", line 379, in convert
    return t.to(device, dtype if t.is_floating_point() else None, non_blocking)
RuntimeError: CUDA error: invalid device ordinal

Output of the collect_env.py script:

Collecting environment information...
PyTorch version: 1.0.1.post2
Is debug build: No
CUDA used to build PyTorch: 9.0.176

OS: Manjaro Linux
GCC version: (Arch Linux 9.3.0-1) 9.3.0
CMake version: Could not collect

Python version: 3.6
Is CUDA available: Yes
CUDA runtime version: Could not collect
GPU models and configuration: GPU 0: GeForce GTX 1660
Nvidia driver version: 440.82
cuDNN version: Could not collect

Versions of relevant libraries:
[pip3] msgpack-numpy==0.4.3.2
[pip3] numpy==1.17.1
[pip3] torch==1.0.1.post2
[conda] Could not collect

Output of nvidia-smi:

Wed May 27 13:22:05 2020       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.82       Driver Version: 440.82       CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 1660    Off  | 00000000:01:00.0  On |                  N/A |
|  0%   48C    P8     9W / 120W |    413MiB /  5936MiB |      1%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0       750      G   /usr/lib/Xorg                                275MiB |
|    0      2536      G   ...RubyMine/ch-0/201.6668.156/jbr/bin/java     3MiB |
|    0      5829      G   ...AAAAAAAAAAAACAAAAAAAAAA= --shared-files   125MiB |
|    0     23410      G   ...yCharm-P/ch-0/201.6668.115/jbr/bin/java     3MiB |
+-----------------------------------------------------------------------------+

Теги:  Сообщить об ошибке  cuda  gpu  error  RunTimeError


Решение:
Основная причина этой ошибки — причина номера графического процессора или версия установки CUDA не совпадает

Например, когда в локальной области есть только один графический процессор (GPU: 0), а в программе используется графические процессоры: 1.

Поэтому найдите место для определения устройства в программе следующим образом:

device = th. device ("cuda:1")

Измените «CUDA: 1» на «CUDA: 0», и программа не сообщит об ошибке.

device = th. device ("cuda:0")

Интеллектуальная рекомендация

DBAccess

[size = xx-large] [color = red] DBAccess SQL Server на основе хранимой процедуры, которую я написал ранее, просто вставьте ее (Oracle и другие методы общего доступа похожи): [/ color] [/ size] [size =…

Не имеют дополнения и вычитания

Двоичное значение добавлено: Первый шаг: два различия или: эквивалент каждому биту, несущий; Шаг 2: два числа и левый Shift One: эквивалентно переносу переноски; Шаг 3: Повторите вышеуказанные шаги до…

Один круглая трансляция в DEMO JS

Во-первых, ручной круглой трансляции 1. Во-первых, вы должны подготовить несколько спецификаций, одинаковый размер (больше двух ОН), название закона, в порядке, ниже моего расположения изображения и и…

Вам также может понравиться

Роль ключевого слова params в C #

params указывает, что параметры являются переменными Без оформления параметров вы можете передать только массив. После добавления параметров можно передавать не только массив, но и несколько параметро…

Экран запуска QT

Иногда требуется некоторое время для загрузки перед запуском программы. Чтобы пользователь не чувствовал, что программа зависает и зависает, специально добавлен загрузочный интерфейс, чтобы напомнить …

Анализ исходного кода Live555: обработка PLAY

ВSETUP После запроса клиент инициируетPLAY Запрос на запрос к серверу начала передачи аудио- и видеоданных. ВPLAY Когда запрос выполняется, он должен быть выполненSETUP Request, клиентский сеанс устан…

  • #1

Доброго времени суток.
Прошу помощи бывалых.
Есть 3 фермы по 4 карты.
Одна на мамке Асус Z270 с ней все ок.
И две на мамке Asrock H81 PRO BTC R2.0
Пытаюсь майнить на найсхеше.
Фермы переодически зависают намертво с черным екраном, и постоянно выпадает ошибка
cuda error ‘invalid device ordinal’
Биос обновлен до последней версии, Винда 10 х64 Версия 1607,драйвера ставил уже почти все которые есть на сайте Нвидиа.
Готов даже заплатить тому кто поможет победить эту ошибку и зависание ферм.
Зависают как с Афтербернером так и без него.
Зарание спасибо.

  • #2

Что за карты? Переключи на стоковый биос если шил новый. Попробуй убрать одну или 2 карты, если ферма на 2х или 3х картах будет пахать то будем думать уже дальше.

  • #4

Карты ASUA DUAL GTX 1070 8GB

  • #5

Убрать разгон стоит и поменять майнер

  • #6

У меня есть найсовый экскаватор тоже или перезапускался циклически или вешал систему при смене алгоритма. Сменил на ewbf 033 и всё прошло. А потом вообще ушёл с найса)

  • #7

У меня есть найсовый экскаватор тоже или перезапускался циклически или вешал систему при смене алгоритма. Сменил на ewbf 033 и всё прошло. А потом вообще ушёл с найса)

А что такое ewbf 033? На какой пул ушел?

  • #8

Убрать разгон стоит и поменять майнер

Карты в стоке не разогнаны.

  • #9

А что такое ewbf 033? На какой пул ушел?

EWBF’s Zcash cuda miner 0.3.3b
Ушел сначала на коинмайн копать зклассик, потом на супрнову и теперь на флайпуле) тут саепись)

  • #11

У меня такая же проблема появилась сегодня, до этого почти сутки нормальной работы. Карты MSI GeForce GTX 1060 1594Mhz PCI-E 3.0 3072Mb 8108Mhz 192 bit 2 шт. Винда 10. Майнер Найс 1.7.5.10. (Вообще есть подозрения что карты бракованные) Кто то сталкивался? как решали?

  • #12

У меня оказалась проблема с райзерами.

  • #14

Какое решение проблемы все таки? я тоже столкнулся с данной проблемой?

  • #15

У меня сейчас работает всё стабильно, как я понял проблема была в переразгоне, в начале убрал разгон полностью и потом понемногу прибавлял и смотрел на поведение карт, двое суток не спал))) зато сейчас всё норм.

  • #16

У меня сейчас работает всё стабильно, как я понял проблема была в переразгоне, в начале убрал разгон полностью и потом понемногу прибавлял и смотрел на поведение карт, двое суток не спал))) зато сейчас всё норм.

Так у меня в стоке выдаёт эту ошибку…вот в чем проблема…

  • #17

У меня сейчас работает всё стабильно, как я понял проблема была в переразгоне, в начале убрал разгон полностью и потом понемногу прибавлял и смотрел на поведение карт, двое суток не спал))) зато сейчас всё норм.

Одну карту с этой ошибкой просто отбивает и все….у меня на одной ферме стоит и AMD и Nvidia уже на это грешить начал…но ведь работало до этого

Понравилась статья? Поделить с друзьями:
  • Runtime error 2147319767 80028029 automation error
  • Runtime error 207 паскаль
  • Runtime error 207 pascal
  • Runtime error 203 at 0040a9cf
  • Run time error 10 native error native arraygetcell