Cuda error an illegal instruction was encountered

Went from everything stable for days with 0.12 to crashing all the time with 0.13 with: CUDA error in func 'ethash_cuda_miner::search' at line 300 : an illegal instruction was encountered. ...

@DLS-bau

Went from everything stable for days with 0.12 to crashing all the time with 0.13 with:

CUDA error in func 'ethash_cuda_miner::search' at line 300 : an illegal instruction was encountered.
  X  02:50:52|CUDA2     Error CUDA mining: an illegal instruction was encountered
CUDA error in func 'ethash_cuda_miner::search' at line 300 : an illegal instruction was encountered.
  X  02:50:52|CUDA1     Error CUDA mining: an illegal instruction was encountered
CUDA error in func 'ethash_cuda_miner::search' at line 300 : an illegal instruction was encountered.
  X  02:50:52|CUDA0     Error CUDA mining: an illegal instruction was encountered

The weird thing is this does not happen on a rig with combined GTX 1070 and 1060 cards but it does on another rig with only GTX 1060. Basically, that rig can’t even find 80-90 shares in a row without crashing, no matter the frequencies on VRAM or core or power limit.

I’m not completely sure but I suspect the issue was introduced here #361

@MariusVanDerWijden

Do you have an Overclock applied?
Which version of cuda do you use?

@DLS-bau

Yes, there is VRAM overclocking. I’m getting crashes with Samsung GDDR5 overclocked to just 8600 Gbps (didn’t try less, and I have no intention to; it would probably happen at stock 8000 too anyway).
0.12 is stable at over 9000-9200 Gbps.
I used CUDA 9.0 and 9.1, compiled with VS2015. Same thing with both. No difference with Appveyor build either.
Tested with drivers 388.71 and 390.65, no difference.

@jean-m-cyr

@DLS-bau

I’m getting crashes with Samsung GDDR5 overclocked to just 8600 Gbps

It only takes one card running too hot to take down the entire farm this way. Are all you cards running this light overclock? Not being critical… just wondering?

@DLS-bau

The cards in the GTX 1060 rig where 0.13 is unstable are running practically cold. I keep them between 56 and 62C.
On the combined GTX 1070+1060 rig, where 0.13 runs just fine, the cards run much hotter. Between 66 and 75 C.

I don’t think heat is the issue here. There’s about the same amount of heat with 0.12 and 0.13 and 0.12 is completely stable at much higher clocks than the minimum I tested on 0.13.

@MariusVanDerWijden

Can you post, which parameter you use to launch the miner?

@DLS-bau

Sure.

—farm-recheck 5000 -U —cuda-devices 0 1 2 -S eu2.ethermine.org:4444 -FS us2.ethermine.org:4444 -RH -O wallet.workerID

@AndreaLanfranchi

Issue is related to an out-dated version.
Closing.

Feel free to open a new issue with updated version of ethminer.

If I run the following program I get «an illegal instruction was encountered». The program accesses an array of unsigned long longs.

Error: ../file.cu(43) : CUDA Runtime API error 73: an illegal instruction was encountered.

GPU: GTX 760

Cuda 6.5 (V6.5.16). The error happens only when running the code in the Release mode (-O3 optimization flag).

The code:

#include <stdio.h>
#include <cuda_runtime.h>

typedef unsigned long long ul;

static inline void __checkCudaErrors(cudaError err, const char *file, const int line )
{
    if(cudaSuccess != err){
        fprintf(stderr, "%s(%i) : CUDA Runtime API error %d: %s.n",file, line, (int)err, cudaGetErrorString( err ) );
        exit(-1);
    }
}
#define checkCuda(err)  __checkCudaErrors (err, __FILE__, __LINE__)


__global__ void testReadOnly(ul *A)
{
    int i = threadIdx.x/32;
    A=A+(32*i);
    atomicCAS(A+threadIdx.x, 0ull, 0ull);
}
int main(void)
{
    ul *d_A = NULL;
    int size = 32*sizeof(ul);
    checkCuda(cudaMalloc((void **)&d_A, size));
    checkCuda(cudaMemset(d_A, (int)0, size));
    testReadOnly<<<1, 32>>>(d_A);
    checkCuda(cudaDeviceSynchronize());
    checkCuda(cudaFree(d_A));
    checkCuda(cudaDeviceReset());
    return 0;
}

PTX code: _Z12testReadOnlyPy:

MOV R1, c[0x0][0x44]
S2R R0, SR_TID.X
MOV R4, c[0x0][0x140]
LOP.AND R3, R0, -0x20
MOV R8, RZ
IADD R2.CC, R3, R0
ISET.LT.AND R0, R3, RZ, PT

IADD.X R0, R0, RZ
SHL R3, R0, 0x3
MOV R9, RZ
IMAD.U32.U32 R4.CC, R2, 0x8, R4
IMAD.U32.U32.HI R0, R2, 0x8, R3
IADD.X R5, R0, c[0x0][0x144]
ATOM.E.CAS.U64 RZ, [R4], R8, RZ

  • #1

Всем привет, пользуюсь Claymore 9.7 копаю Эфир соло, сегодня начала возникать 73 ошибка, пишет gpuminer cu_k1 failed 73 an illegal instruction was encountered , подскажите что это за ошибка? До сегодняшнего дня ферма стабильно работала при таком разгоне вообще без реджектов. Еще заметил что на одной карте хэшрейд плавает 24,5/22,5 не знаю это связано с этой ошибкой или нет. Карты 1060 3Gb.

  • #2

у меня такое было вчера, походу переразгон был, порешалось понижением ядра и памяти , вначале немного понизил вроде норм шло, но через 10 мин вылетело, потом снова понизил, уже через час выкинуло ну еще понизил чутка и теперь 12 часов работало без проблем.
хотя у меня с мамкой глюк и на первом слоте вечно хеш проседает или вылетает видяха пох какую ставлю на других слотах все норм.

  • #3

закрыв

  • Screenshot_1.png

    Screenshot_1.png

    97,5 КБ · Просмотры: 390

  • #4

Мучаюсь с этой проблемой с 1-го дня настройки фермы на 6х1060 от MSI на памяти Самсунг. После обильного копания как этого форума, так и других ресурсов, вариантов почему вылетает ошибка много. Самый частый из них — переразгон. Потом идут райзера, БП итд. Пока идеальный вариант для меня — андервольт + индивидуальная настройка каждой карты в АБ. В идеале, когда руки дойдут — отдельный тест каждой. Но стал замечать, что если раньше при одних значениях карта не вылетала, то со временем вылеты все чаще и чаще. Приходится занижать разгон по памяти. Смотри какая gpu стоит первая в списке при вылете, в ней и проблема.

  • #5

Мучаюсь с этой проблемой с 1-го дня настройки фермы на 6х1060 от MSI на памяти Самсунг. После обильного копания как этого форума, так и других ресурсов, вариантов почему вылетает ошибка много. Самый частый из них — переразгон. Потом идут райзера, БП итд. Пока идеальный вариант для меня — андервольт + индивидуальная настройка каждой карты в АБ. В идеале, когда руки дойдут — отдельный тест каждой. Но стал замечать, что если раньше при одних значениях карта не вылетала, то со временем вылеты все чаще и чаще. Приходится занижать разгон по памяти. Смотри какая gpu стоит первая в списке при вылете, в ней и проблема.

3 карты 1060 6г, две на микроне были +500, сделал сейчас +450, одна карта на самсунге, была +840, сейчас сделал 750.

  • #6

3 карты 1060 6г, две на микроне были +500, сделал сейчас +450, одна карта на самсунге, была +840, сейчас сделал 750.

До андервольта у меня стабильно держали до +700, что очень грустно для самсунга. Очень хочется закопаться в них и выколупать проблему, но времени нет :(

  • #7

До андервольта у меня стабильно держали до +700, что очень грустно для самсунга. Очень хочется закопаться в них и выколупать проблему, но времени нет :(

У меня андервольт 1987mhz при 875mv раньше +840 работало без проблем. На микронах 1949mhz при 900mv и 925mv

  • #8

индивидуальная настройка каждой карты в АБ

самый лучший вариант, определить карту которая крашит систему и ей сделать разгон поменьше или майнить зек/другую валюту(я так для себя решил проблему хайниксов которые на эфире вылетали)

  • #9

ТС, как исправил ошибку, нашёл решение? У меня часто повторяющаяся ошибка cu_k100 failed 73

  • #10

Была такая беда , помогла установка «хромой карты» в слот материнки и в настройках автербернера «выбор ведущего графического процессора» выбор «хромой карты» , повер лимит 100 % (через 24 часа понижал на 5 — 10 % ).
Трое суток ничего не беспокоит , пока прохладно пусть в материнке сидит, а потом что нибудь придумаю.

  • вк.png

    вк.png

    170,6 КБ · Просмотры: 247

  • #11

upload_2017-12-3_14-29-15.png
Здравствуйте , появилась на днях во такая ерунда , подскажите в чем проблема??

  • #12

Здравствуйте , появилась на днях во такая ерунда , подскажите в чем проблема??

а 10 постов перед тем как вопрос задать ЛЕНЬ ПРОЧИТАТЬ ?

  • #13

Началась такая же песня когда добавил в риг еще одну 1050ti, перепробовал все!!! Купил новый БП, менял рейзер, ставил gen1, даунвольтил по максимуму — ничего из этого не помогло. А попробовать gen2 выставить в биосе чет не додумывался, сегодня наконец поставил и о ЧУДО 12 часов полет нормальный, надеюсь и дальше будет норм.

  • #14

Началась такая же песня когда добавил в риг еще одну 1050ti, перепробовал все!!! Купил новый БП, менял рейзер, ставил gen1, даунвольтил по максимуму — ничего из этого не помогло. А попробовать gen2 выставить в биосе чет не додумывался, сегодня наконец поставил и о ЧУДО 12 часов полет нормальный, надеюсь и дальше будет норм.

Спасибо, мне тоже помогло.

  • #15

народ, что такое Gen2 в биосе? куда ткнуть?( такая же хрень с ошибкой 73)

  • #16

Сегодня выключили свет в 10:00, в 18:00 включил думая что все запустится но нет та же ошибка «an illegal memory access was encountered». Фермой трудно назвать две 1050ти в корпусе, крч читал всех тут про разгон и тд попробывал обновить майнер была 9.7 поставил 11.9 все заработало, если у вас проблема попробуйте либо до 11.9 обновить либо на 9.7 откатить майнеры качал официальные с меги.

Loren Zhu

I use gpu to train neural network and the first several (about 20) iterations are OK, but it will suddenly stop and shows the following error.

If i click «run» again, it will show the same error immediately without executing even one iteration at all.

I have to exit matlab and reboot my computer to run it again, and it gives the same error as before.

error2.png

I installed Nvidia driver with version 419.67 before which gave «DriverVersion: 10.1000»,

but now i installed version 391.35 which gave «DriverVersion: 9.1000» as below.

gpuDevice.PNG

Meanwhile, the cuda 9.1.85 (although not necessary) is also installed with cudnn.

cuda.png

So can anyone tell me how to fix the problem? thx

So can anyone tell me how to fix the problem? thx

So can anyone tell me how to fix the problem? thx


Answers (0)

See Also

Categories

Community Treasure Hunt

Find the treasures in MATLAB Central and discover how the community can help you!

Start Hunting!

An Error Occurred

Unable to complete the action because of changes made to the page. Reload the page to see its updated state.

cudaError_t 73 : «an illegal instruction was encountered» occurs sometimes.

When pre-training the Dnn model(using nnet), the first 2 RBM layers run OK, then goto RBM 3 layers, this error occurs. If restart the training, this error may disappear and may occcur when goto RBM 4 layers.

RBM Log:

rbm-train-cd1-frmshuff —learn-rate=0.4 —l2-penalty=0.0002 —num-iters=20 —drop-data=0.0 —verbose=1 ‘—feature-transform=nnet-concat exp/dnn4_pretrain-dbn/tr_splice5-1_cmvn-g.nnet exp/dnn4_pretrain-dbn/2.dbn — |’ exp/dnn4_pretrain-dbn/3.rbm.init ‘ark:copy-feats scp:exp/dnn4_pretrain-dbn/train.scp ark:- |’ exp/dnn4_pretrain-dbn/3.rbm
LOG (rbm-train-cd1-frmshuff:SelectGpuIdAuto():cu-device.cc:241) Selecting from 1 GPUs
LOG (rbm-train-cd1-frmshuff:SelectGpuIdAuto():cu-device.cc:256) cudaSetDevice(0): GeForce GTX TITAN Black free:6055M, used:88M, total:6143M, free/total:0.985606

LOG (rbm-train-cd1-frmshuff:Init():nnet-randomizer.cc:31) Seeding by srand with : 777
LOG (rbm-train-cd1-frmshuff:main():rbm-train-cd1-frmshuff.cc:141) RBM TRAINING STARTED
LOG (rbm-train-cd1-frmshuff:main():rbm-train-cd1-frmshuff.cc:144) Iteration 1/20
VLOG[1] (rbm-train-cd1-frmshuff:main():rbm-train-cd1-frmshuff.cc:246) Setting momentum 0.9 and learning rate 0.2 after processing 0.000277778h

ERROR (rbm-train-cd1-frmshuff:SetZero():cu-matrix.cc:444) cudaError_t 73 : «an illegal instruction was encountered» returned from ‘cudaMemset2D(data_, stride_ * sizeof(Real), 0, num_cols_ * sizeof(Real), num_rows_ )’
ERROR (rbm-train-cd1-frmshuff:Free():cu-device.cc:654) cudaError_t 73 : «an illegal instruction was encountered» returned from ‘cudaFree(addr)’

[CUDA_Runtime_API.pdf]

cudaErrorIllegalInstruction = 73
The device encountered an illegal instruction during kernel execution The context
cannot be used, so it must be destroyed (and a new one should be created). All
existing device memory allocations from this context are invalid and must be
reconstructed if the program is to continue using CUDA.

Thanks in advance!

Feiteng

Понравилась статья? Поделить с друзьями:
  • Cscf server internal error
  • Cscalp ожидание текущего состояния портфеля ошибка
  • Csc7200022 код ошибки
  • Csc error cs5001
  • Csc error cs2001 не удалось найти исходный файл