I get a Cuda error 6 (also known as cudaErrorLaunchTimeout
and CUDA_ERROR_LAUNCH_TIMEOUT
) with this (simplified) code:
for(int i = 0; i < 650; ++i)
{
int param = foo(i); //some CPU computation here, but no memory copy
MyKernel<<<dimGrid, dimBlock>>>(&data, param);
}
The Cuda error 6 indicates that the kernel took too much time to return. The duration of a single MyKernel
is only ~60 ms though. The block size is a classic 16×16.
Now, when I call cudaDeviceSynchronize()
every, say, 50 iterations, the error doesn’t occur:
for(int i = 0; i < 650; ++i)
{
int param = foo(i); //some CPU computation here, but no memory copy
MyKernel<<<dimGrid, dimBlock>>>(&data, param);
if(i % 50 == 0) cudaDeviceSynchronize();
}
I would like to avoid this synchronization, because it slows the program down a lot.
Since kernel launches are asynchronous, I guess the error occurs because the watchdog measures the execution duration of a kernel from its asynchronous launch, and not from the actual beginning of its execution.
I am new to Cuda. Is this a common case for the error 6 to occur? Is there a way to avoid this error without altering the performance?
CUDA_ERROR_LAUNCH_TIMEOUT generally indicates that your kernel took too long to execute, and the operating system aborted the execution. Look at the output of running ‘gpuDevice’, and see whether KernelExecutionTimeout is true. If it is, then you may need to make changes to your system to get that value to be false. The changes you need to make depend on your operating system, and also whether you have a display attached to the GPU.
Thank you very much for your fast answer.
Yes, my KernelExecutionTimeout is true. My operating System is Windows 7 (64), I have two cards, one for visualization and another for computing, but I wordering if the computing card is also visualizing, how can I know it? I haven’t intall the hardware…
Please, could you give a clue about how to fix it?
Hello,
I re-intalled the drivers, I included the TdrLevel=0 registry entry, and now I have KernelExecutionTimeout=0. But, the same problem with Matlab is happening… What annoys me is that I have the same code in CUDA-C launched with a C executable and it works fine, but Matlab continue saying:
??? Error using ==> feval An error occurred during: waiting for a kernel invocation to complete. The CUDA error was: CUDA_ERROR_UNKNOWN.__
I solve this updating the CUDA driver and toolkit to the latest version and updating my GPU driver.
System information
- Have I written custom code (as opposed to using a stock
example script provided in TensorFlow): Based on https://www.tensorflow.org/tutorials/distribute/multi_worker_with_keras but using bigger dataset and Resnet - OS Platform and Distribution (e.g.,Linux Ubuntu 16.04): RHEL 7
- TensorFlow installed from (source or binary): source
- TensorFlow version (use command below): 2.1.0
- Python version: 3.7.4
- Bazel version (if compiling from source): 0.29.1
- GCC/Compiler version (if compiling from source): GCC 8.3.0
- CUDA/cuDNN version: CUDA/10.1.243, cuDNN/7.6.4.38, NCCL/2.4.8
- GPU model and memory:Tesla K80
Describe the current behavior
Running the standard training loop results in a CUDA_ERROR_LAUNCH_TIMEOUT when using NCCL.
Describe the expected behavior
No error.
Standalone code to reproduce the issue
import tensorflow as tf
import tensorflow_datasets as tfds
from slurm_utils import set_tf_config
from slurm_cluster_resolver import SlurmClusterResolver
tfds.disable_progress_bar()
BUFFER_SIZE = 10000
BATCH_SIZE = 32
def make_datasets_unbatched():
def preprocess(image, label):
image = tf.image.convert_image_dtype(image, tf.float32)
image = tf.image.resize_with_pad(image, 299, 299)
image = image - [123.68, 116.78, 103.94]
return image, label
datasets, info = tfds.load(name='stanford_dogs',
with_info=True,
as_supervised=True)
return {
'train':
datasets['train'].map(preprocess).cache().shuffle(BUFFER_SIZE),
'test': datasets['test'].map(preprocess)
}, info
def build_and_compile_cnn_model(num_classes):
model = tf.keras.applications.InceptionV3(weights=None,
classes=num_classes)
model.compile(loss=tf.keras.losses.sparse_categorical_crossentropy,
optimizer=tf.keras.optimizers.SGD(learning_rate=0.001),
metrics=['accuracy'])
return model
resolver = SlurmClusterResolver()
set_tf_config(resolver)
strategy = tf.distribute.experimental.MultiWorkerMirroredStrategy(
tf.distribute.experimental.CollectiveCommunication.NCCL,
cluster_resolver=resolver)
# Here the batch size scales up by number of workers since
# `tf.data.Dataset.batch` expects the global batch size.
GLOBAL_BATCH_SIZE = BATCH_SIZE * strategy.num_replicas_in_sync
with strategy.scope():
# Creation of dataset, and model building/compiling need to be within
# `strategy.scope()`.
options = tf.data.Options()
options.experimental_distribute.auto_shard_policy = tf.data.experimental.AutoShardPolicy.DATA
datasets, info = make_datasets_unbatched()
for split in datasets:
datasets[split] = datasets[split].batch(
GLOBAL_BATCH_SIZE).with_options(options)
model = build_and_compile_cnn_model(info.features['label'].num_classes)
train_steps = info.splits['train'].num_examples // GLOBAL_BATCH_SIZE
test_steps = info.splits['test'].num_examples // GLOBAL_BATCH_SIZE
print("Have %s examples -> %s batches of %s" %
(info.splits['train'].num_examples, train_steps, GLOBAL_BATCH_SIZE))
model.fit(x=datasets['train'].repeat(),
epochs=1,
steps_per_epoch=train_steps,
verbose=2)
Note: SlurmClusterResolver
is the one that got recently included to TF and set_tf_config
is:
def set_tf_config(cluster_resolver, environment=None):
"""Set the TF_CONFIG env variable from the given cluster resolver"""
cfg = {
'cluster': cluster_resolver.cluster_spec().as_dict(),
'task': {
'type': cluster_resolver.get_task_info()[0],
'index': cluster_resolver.get_task_info()[1],
},
'rpc_layer': cluster_resolver.rpc_layer,
}
if environment:
cfg['environment'] = environment
os.environ['TF_CONFIG'] = json.dumps(cfg)
print("Set TF_CONFIG=" + os.environ['TF_CONFIG'])
Other info / logs
This happens everytime when using more than 1 node.
Set TF_CONFIG={"cluster": {"worker": ["taurusi2107:8888", "taurusi2108:8888"]}, "task": {"type": "worker", "index": 1}, "rpc_layer": "grpc"}
Have 12000 examples -> 46 batches of 256
WARNING:tensorflow:`eval_fn` is not passed in. The `worker_fn` will be used if an "evaluator" task exists in the cluster.
WARNING:tensorflow:`eval_fn` is not passed in. The `worker_fn` will be used if an "evaluator" task exists in the cluster.
WARNING:tensorflow:`eval_strategy` is not passed in. No distribution strategy will be used for evaluation.
WARNING:tensorflow:`eval_strategy` is not passed in. No distribution strategy will be used for evaluation.
WARNING:tensorflow:ModelCheckpoint callback is not provided. Workers will need to restart training if any fails.
WARNING:tensorflow:ModelCheckpoint callback is not provided. Workers will need to restart training if any fails.
Train for 46 steps
Have 12000 examples -> 46 batches of 256
WARNING:tensorflow:`eval_fn` is not passed in. The `worker_fn` will be used if an "evaluator" task exists in the cluster.
WARNING:tensorflow:`eval_fn` is not passed in. The `worker_fn` will be used if an "evaluator" task exists in the cluster.
WARNING:tensorflow:`eval_strategy` is not passed in. No distribution strategy will be used for evaluation.
WARNING:tensorflow:`eval_strategy` is not passed in. No distribution strategy will be used for evaluation.
WARNING:tensorflow:ModelCheckpoint callback is not provided. Workers will need to restart training if any fails.
WARNING:tensorflow:ModelCheckpoint callback is not provided. Workers will need to restart training if any fails.
Train for 46 steps
2020-03-18 16:51:46.733598: E tensorflow/stream_executor/cuda/cuda_event.cc:29] Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_TIMEOUT: the launch timed out and was terminated
2020-03-18 16:51:46.733598: E tensorflow/stream_executor/cuda/cuda_event.cc:29] Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_TIMEOUT: the launch timed out and was terminated
2020-03-18 16:51:46.733599: E tensorflow/stream_executor/cuda/cuda_event.cc:29] Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_TIMEOUT: the launch timed out and was terminated
2020-03-18 16:51:46.733602: E tensorflow/stream_executor/cuda/cuda_event.cc:29] Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_TIMEOUT: the launch timed out and was terminated
2020-03-18 16:51:46.733657: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:273] Unexpected Event status: 1
2020-03-18 16:51:46.733656: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:273] Unexpected Event status: 1
2020-03-18 16:51:46.733662: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:273] Unexpected Event status: 1
2020-03-18 16:51:46.733671: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:273] Unexpected Event status: 1
[taurusi2108:15936] *** Process received signal ***
2020-03-18 16:51:47.705311: E tensorflow/stream_executor/cuda/cuda_event.cc:29] Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_TIMEOUT: the launch timed out and was terminated
2020-03-18 16:51:47.705311: E tensorflow/stream_executor/cuda/cuda_event.cc:29] Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_TIMEOUT: the launch timed out and was terminated
2020-03-18 16:51:47.705349: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:273] Unexpected Event status: 1
2020-03-18 16:51:47.705311: E tensorflow/stream_executor/cuda/cuda_event.cc:29] Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_TIMEOUT: the launch timed out and was terminated
2020-03-18 16:51:47.705359: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:273] Unexpected Event status: 1
[taurusi2107:31475] *** Process received signal ***
2020-03-18 16:51:47.705372: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:273] Unexpected Event status: 1
2020-03-18 16:51:47.705326: E tensorflow/stream_executor/cuda/cuda_driver.cc:818] failed to free device memory at 0x1d8c005800; result: CUDA_ERROR_LAUNCH_TIMEOUT: the launch timed out and was terminated
[taurusi2107:31475] Signal: Aborted (6)
[taurusi2107:31475] Signal code: (-6)
2020-03-18 16:51:47.705358: E tensorflow/stream_executor/stream.cc:332] Error recording event in stream: Error recording CUDA event: CUDA_ERROR_LAUNCH_TIMEOUT: the launch timed out and was terminated; not marking stream as bad, as the Event object may be at fault. Monitor for further errors.
2020-03-18 16:51:47.705412: E tensorflow/stream_executor/cuda/cuda_event.cc:29] Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_TIMEOUT: the launch timed out and was terminated
2020-03-18 16:51:47.705421: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:273] Unexpected Event status: 1
srun: error: taurusi2107: task 0: Aborted (core dumped)
srun: error: taurusi2108: task 1: Aborted (core dumped)
Содержание
- CUDA_ERROR_LAUNCH_TIMEOUT when using NCCL with MultiWorkerMirroredStrategy on multi-node systems #37693
- Comments
- BART-Large: RuntimeError: CUDA error: the launch timed out and was terminated #2311
- Comments
- ❓ Questions and Help
- What is your question?
- What have you tried?
- What’s your environment?
- Failed to memcpy from device to host: CUDA_ERROR_LAUNCH_TIMEOUT when running CIFAR10 after 113K steps #2117
- Comments
- Similar issues
- Environment info
CUDA_ERROR_LAUNCH_TIMEOUT when using NCCL with MultiWorkerMirroredStrategy on multi-node systems #37693
System information
- Have I written custom code (as opposed to using a stock
example script provided in TensorFlow): Based on https://www.tensorflow.org/tutorials/distribute/multi_worker_with_keras but using bigger dataset and Resnet - OS Platform and Distribution (e.g.,Linux Ubuntu 16.04): RHEL 7
- TensorFlow installed from (source or binary): source
- TensorFlow version (use command below): 2.1.0
- Python version: 3.7.4
- Bazel version (if compiling from source): 0.29.1
- GCC/Compiler version (if compiling from source): GCC 8.3.0
- CUDA/cuDNN version: CUDA/10.1.243, cuDNN/7.6.4.38, NCCL/2.4.8
- GPU model and memory:Tesla K80
Describe the current behavior
Running the standard training loop results in a CUDA_ERROR_LAUNCH_TIMEOUT when using NCCL.
Describe the expected behavior
Standalone code to reproduce the issue
Note: SlurmClusterResolver is the one that got recently included to TF and set_tf_config is:
Other info / logs
This happens everytime when using more than 1 node.
The text was updated successfully, but these errors were encountered:
CUDA launch timeout usually means the kernel is taking too long to run on GPU which is also used for an active display. GPU driver could kick out the kernel to update the display. Perhaps try updating your GPU driver and cuda version? Reducing the batch size or using a dedicated GPU card may also help.
I tried this on 2 different kinds of nodes. In both cases I started the script via srun (SLURM).
GeForce GTX 1080 Ti:
- Runs fine with AUTO for communication
- Hangs indefinitely when switching to NCCL
- nvidia-smi shows no running processes
- Driver Version: 418.87.01 CUDA Version: 10.1
- Runs fine with AUTO
- Shows LAUNCH_TIMEOUT when switching to NCCL
- nvidia-smi shows /usr/bin/X and /usr/bin/gnome-shell with a single-digit MB usage
- Driver Version: 418.87.01 CUDA Version: 10.1
Both are only dedicated GPUs, no Display attached.
Reducing the batch size down to 8/worker leads to Caught signal 11 (Segmentation fault: address not mapped to object at address 0x80) in tensorflow::NcclReducer::Run() .
Reducing to only 16/worker didn’t change anything.
Hi, can you clarify whether you can run nccl tests (no TF dependency) across nodes? Can you also run with NCCL_DEBUG environment variable set to INFO and paste the logs? Thanks.
can you clarify whether you can run nccl tests (no TF dependency) across nodes
I used the code from https://docs.nvidia.com/deeplearning/sdk/nccl-developer-guide/docs/examples.html «Example 2: One Device per Process or Thread» and sucessfully run it. Compiled with nvcc example2.c -lnccl -lmpi . I also used the «Example 3» with 3 devices/process (changed the nDev line). Both show Success.
I run TF with NCCL_DEBUG=INFO . For the GeForce GTX 1080 Ti (hang) the output is:
Источник
BART-Large: RuntimeError: CUDA error: the launch timed out and was terminated #2311
❓ Questions and Help
What is your question?
I am finetuning BART-Large in a translation task through fairseq command line as in Bart-Fairseq but before starting the second epoch the process is terminated with the following error:
terminate called after throwing an instance of ‘c10::Error’
what(): CUDA error: the launch timed out and was terminated (insert_events at /pytorch/c10/cuda/CUDACachingAllocator.cpp:771)
frame #0: c10::Error::Error(c10::SourceLocation, std::string const&) + 0x46 (0x7f9582a79536 in /home/ml/users/jgonza38/anaconda3/lib/python3.7/site-packages/torch/lib/libc10.so)
frame #1: c10::cuda::CUDACachingAllocator::raw_delete(void*) + 0x7ae (0x7f9582cbcfbe in /home/ml/users/jgonza38/anaconda3/lib/python3.7/site-packages/torch/lib/libc10_cuda.so)
frame #2: c10::TensorImpl::release_resources() + 0x4d (0x7f9582a69abd in /home/ml/users/jgonza38/anaconda3/lib/python3.7/site-packages/torch/lib/libc10.so)
frame #3: std::vector ::
vector() + 0x1d9 (0x7f95cebab619 in /home/ml/users/jgonza38/anaconda3/lib/python3.7/site-packages/torch/lib/libtorc$
frame #4: c10d::Reducer::
Reducer() + 0x23a (0x7f95ceba0f6a in /home/ml/users/jgonza38/anaconda3/lib/python3.7/site-packages/torch/lib/libtorch_python.so)
frame #5: std::_Sp_counted_ptr ::_M_dispose() + 0x12 (0x7f95ceb7fef2 in /home/ml/users/jgonza38/anaconda3/lib/python3.7/site-packages/torch/lib/libtorch_python$
frame #6: std::_Sp_counted_base ::_M_release() + 0x46 (0x7f95ce542506 in /home/ml/users/jgonza38/anaconda3/lib/python3.7/site-packages/torch/lib/libtorch_python.so)
frame #7: + 0x871b9b (0x7f95ceb80b9b in /home/ml/users/jgonza38/anaconda3/lib/python3.7/site-packages/torch/lib/libtorch_python.so)
frame #8: + 0x2405b0 (0x7f95ce54f5b0 in /home/ml/users/jgonza38/anaconda3/lib/python3.7/site-packages/torch/lib/libtorch_python.so)
frame #9: + 0x2417fe (0x7f95ce5507fe in /home/ml/users/jgonza38/anaconda3/lib/python3.7/site-packages/torch/lib/libtorch_python.so)
frame #10: + 0x10f998 (0x562f97760998 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #11: + 0x1ad971 (0x562f977fe971 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #12: + 0x10f998 (0x562f97760998 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #13: + 0x1ad971 (0x562f977fe971 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #14: + 0xfec08 (0x562f9774fc08 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #15: + 0x1100f7 (0x562f977610f7 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #16: + 0x11010d (0x562f9776110d in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #17: + 0x11010d (0x562f9776110d in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #18: + 0x110a97 (0x562f97761a97 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #19: + 0x110b34 (0x562f97761b34 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #20: + 0x1e91b3 (0x562f9783a1b3 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #21: _PyEval_EvalFrameDefault + 0x2966 (0x562f97823d96 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #22: _PyFunction_FastCallKeywords + 0xfb (0x562f977c979b in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #23: _PyEval_EvalFrameDefault + 0x6a0 (0x562f97821ad0 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #24: _PyFunction_FastCallKeywords + 0xfb (0x562f977c979b in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #25: _PyEval_EvalFrameDefault + 0x416 (0x562f97821846 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #26: _PyEval_EvalCodeWithName + 0x2f9 (0x562f977674f9 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #27: _PyFunction_FastCallKeywords + 0x387 (0x562f977c9a27 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #28: _PyEval_EvalFrameDefault + 0x14ce (0x562f978228fe in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #29: _PyEval_EvalCodeWithName + 0x2f9 (0x562f977674f9 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #30: PyEval_EvalCodeEx + 0x44 (0x562f977683c4 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #31: PyEval_EvalCode + 0x1c (0x562f977683ec in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #32: + 0x22f874 (0x562f97880874 in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #33: PyRun_StringFlags + 0x7d (0x562f9788baad in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #34: PyRun_SimpleStringFlags + 0x3f (0x562f9788bb0f in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #35: + 0x23ac0d (0x562f9788bc0d in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #36: _Py_UnixMain + 0x3c (0x562f9788bf7c in /home/ml/users/jgonza38/anaconda3/bin/python)
frame #37: __libc_start_main + 0xe7 (0x7f95de6d5b97 in /lib/x86_64-linux-gnu/libc.so.6)
frame #38: + 0x1e0122 (0x562f97831122 in /home/ml/users/jgonza38/anaconda3/bin/python)
Process 1 terminated with the following error:
Traceback (most recent call last):
File «/home/ml/users/jgonza38/anaconda3/lib/python3.7/site-packages/torch/multiprocessing/spawn.py», line 20, in _wrap
fn(i, *args)
File «/home/ml/users/jgonza38/reproduce_master_thesis/fairseq/fairseq_cli/train.py», line 324, in distributed_main
main(args, init_distributed=True)
File «/home/ml/users/jgonza38/reproduce_master_thesis/fairseq/fairseq_cli/train.py», line 117, in main
valid_losses = train(args, trainer, task, epoch_itr, max_update)
File «/home/ml/users/jgonza38/anaconda3/lib/python3.7/contextlib.py», line 74, in inner
return func(*args, **kwds)
File «/home/ml/users/jgonza38/reproduce_master_thesis/fairseq/fairseq_cli/train.py», line 187, in train
log_output = trainer.train_step(samples)
File «/home/ml/users/jgonza38/anaconda3/lib/python3.7/contextlib.py», line 74, in inner
return func(*args, **kwds)
File «/home/ml/users/jgonza38/reproduce_master_thesis/fairseq/fairseq/trainer.py», line 412, in train_step
logging_outputs, sample_size, ooms, ignore=is_dummy_batch,
File «/home/ml/users/jgonza38/reproduce_master_thesis/fairseq/fairseq/trainer.py», line 685, in _aggregate_logging_outputs
logging_outputs, *extra_stats_to_sum, ignore=ignore
File «/home/ml/users/jgonza38/reproduce_master_thesis/fairseq/fairseq/trainer.py», line 746, in _fast_stat_sync_sum
group=self.data_parallel_process_group
File «/home/ml/users/jgonza38/reproduce_master_thesis/fairseq/fairseq/distributed_utils.py», line 292, in all_reduce_dict
cpu_data = _all_reduce_dict(cpu_data)
File «/home/ml/users/jgonza38/reproduce_master_thesis/fairseq/fairseq/distributed_utils.py», line 288, in _all_reduce_dict
buf = torch.stack(list(data.values())).to(device=device)
RuntimeError: CUDA error: the launch timed out and was terminated
I also used CUDA_LAUNCH_BLOCKING=1 to get a «more detailed error»:
Process 1 terminated with the following error:
Traceback (most recent call last):
File «/home/ml/users/jgonza38/anaconda3/lib/python3.7/site-packages/torch/multiprocessing/spawn.py», line 20, in _wrap
fn(i, *args)
File «/home/ml/users/jgonza38/reproduce_master_thesis/fairseq/fairseq_cli/train.py», line 324, in distributed_main
main(args, init_distributed=True)
File «/home/ml/users/jgonza38/reproduce_master_thesis/fairseq/fairseq_cli/train.py», line 117, in main
valid_losses = train(args, trainer, task, epoch_itr, max_update)
File «/home/ml/users/jgonza38/anaconda3/lib/python3.7/contextlib.py», line 74, in inner
return func(*args, **kwds)
File «/home/ml/users/jgonza38/reproduce_master_thesis/fairseq/fairseq_cli/train.py», line 187, in train
log_output = trainer.train_step(samples)
File «/home/ml/users/jgonza38/anaconda3/lib/python3.7/contextlib.py», line 74, in inner
return func(*args, **kwds)
File «/home/ml/users/jgonza38/reproduce_master_thesis/fairseq/fairseq/trainer.py», line 399, in train_step
raise e
File «/home/ml/users/jgonza38/reproduce_master_thesis/fairseq/fairseq/trainer.py», line 377, in train_step
ignore_grad=is_dummy_batch,
File «/home/ml/users/jgonza38/reproduce_master_thesis/fairseq/fairseq/tasks/fairseq_task.py», line 342, in train_step
optimizer.backward(loss)
File «/home/ml/users/jgonza38/reproduce_master_thesis/fairseq/fairseq/optim/fairseq_optimizer.py», line 81, in backward
loss.backward()
File «/home/ml/users/jgonza38/anaconda3/lib/python3.7/site-packages/torch/tensor.py», line 198, in backward
torch.autograd.backward(self, gradient, retain_graph, create_graph)
File «/home/ml/users/jgonza38/anaconda3/lib/python3.7/site-packages/torch/autograd/init.py», line 100, in backward
allow_unreachable=True) # allow_unreachable flag
RuntimeError: NCCL error in: /opt/conda/conda-bld/pytorch_1591914855613/work/torch/lib/c10d/ProcessGroupNCCL.cpp:32, unhandled cuda error, NCCL version 2.4.8
My interpretation of the traceback for the first error «RuntimeError: CUDA error: the launch timed out and was terminated» is the _all_reduce_dict takes much time in CPU. It could be related with this? Is there some option to increase the CUDA time out?
CUDA_VISIBLE_DEVICES=0,1 python train.py «$FULL_TASK-bin»
—max-epoch $MAX_EPOCHS
—max-tokens $MAX_TOKENS
—update-freq $UPDATE_FREQ
—lr-scheduler polynomial_decay
—lr $LR
—total-num-update $TOTAL_NUM_UPDATES
—warmup-updates $WARMUP_UPDATES
—restore-file $BART/model.pt
—save-dir $RESULTS_PATH
—task translation
—source-lang source
—target-lang target
—truncate-source
—layernorm-embedding
—share-all-embeddings
—share-decoder-input-output-embed
—reset-optimizer
—reset-dataloader
—reset-meters
—required-batch-size-multiple 1
—arch bart_large
—criterion label_smoothed_cross_entropy
—label-smoothing 0.1
—dropout 0.1
—attention-dropout 0.1
—weight-decay 0.01
—optimizer adam
—adam-betas «(0.9, 0.999)»
—adam-eps 1e-08
—clip-norm 0.1
—no-last-checkpoints
—find-unused-parameters;
What have you tried?
- To reduce the —max-tokens in case it was related to a GPU memory limitation.
- To use —distributed-no-spawn (#
cpp:272, unhandled system error #826 )
What’s your environment?
- fairseq Version (e.g., 1.0 or master): master
- PyTorch Version (e.g., 1.0): 1.5.1
- OS (e.g., Linux): Ubuntu 18.04.4 LTS
- How you installed fairseq ( pip , source): pip install —editable ./
- Build command you used (if compiling from source):
- Python version: 3.7.3
- CUDA/cuDNN version: CUDA 10.2, CUDNN 7.6.5
- GPU models and configuration: 2x GeForce GTX TITAN X
- Any other relevant information:
The text was updated successfully, but these errors were encountered:
Источник
Failed to memcpy from device to host: CUDA_ERROR_LAUNCH_TIMEOUT when running CIFAR10 after 113K steps #2117
I tried to run the cifar10 model provided from TF with GPU support. I was able to successfully install Tensorflow from source (with GPU) and also was able to run the cifar10_train.py with utilizing my GPU. However, after step=113330, I encountered the following error which is probably related to async memcpy from device to host. As my graphic card compute capability is 5.2, I thought it should not be due to compute capability conflicts.
Similar issues
But my error is slightly different
Environment info
Operating System: Ubuntu 14.04
GPU: GM200 — GeForce GTX TITAN X (rev a1)
Tensorflow 0.8 (installed from source)
Installed version of CUDA and cuDNN:
cuda 7.5
cudnn 7.0 (v4)
using Anaconda virtual env
The text was updated successfully, but these errors were encountered:
Is this error reproducible, i.e. does it occur repeatedly at roughly that number of steps? Are there any other indications of unusual behavior before this error, e.g. signs of memory exhaustion?
@poxvoculi
It is hard to reproduce it as it takes really long to reach 113K steps. I had it running overnight several times and sometimes my system reboots after core dumps. So I lost the step at which it failed.
I am trying to keep track of it in a log file to see if there is a random failure or not.
I did not notice any sign of memory exhaustion. Indeed, it was my initial guess. But what is the best way to ensure there is no memory bandwidth limit?
My current GPU memory usage at step=70K is 11501MiB with GPU utilization around %30-%45
I have not personally seen this CUDA error previously. The error likely is not directly related to the memcpy, but rather the memcpy is failing because the GPU is in a bad state. Many CUDA driver commands are asynchronous: the error from a prior action is only fielded when trying to launch a subsequent action. If it’s a bad error (e.g. one we never expect to see), then a bad status will propagate back up to the top of TensorFlow. That’s what’s happening here. NVIDIA documentation indicates that this error can result when a kernel takes too long to execute. If you’re not using any modified kernels and are just running the provided model with the usual data, then no kernel should take an excessive amount of time unless something causes the GPU to not be able to make progress. It’s hard to guess what that might be. TensorFlow uses its own external memory manager for GPU memory, so memory exhaustion should trigger a TF bad status exception on the CPU side, and never trigger a GPU error. Since this error only showed up after a long period, I don’t think it’s impossible that it could be a hardware issue, e.g. an un-corrected memory error (IIRC, most consumer NVIDIA GPUs don’t use ECC memory).
Yes it takes a long time. And I figured out that it is not happened at the exact step. I re-ran the training this time with TF built using the whl file. And so far 238K step is reached without core dump.
Could it be according to building from source?
I did not change anything with respect the code, though.
Источник
-
#1
Добрый день, коллеги столкнулся с проблемой-в сутки 6 раз перезагружается риг и на 6 раз отлетают 5 карт. Разбираюсь неделю и не как не пойму в чем проблема.
6 карт 1080 palit, феникс майнер, дрова обновлял сбрасывал, разгон сбрасывал все тоже самое, майнер менял-проблема сохраняется. Подкачку менял от 16000-35000.
Куда копать?
2019.01.25:12:21:54.029: eths Eth: Received: {«id»:6,»jsonrpc»:»2.0″,»result»:true}
2019.01.25:12:21:55.763: main Eth speed: 226.051 MH/s, shares: 186/0/0, time: 0:51
2019.01.25:12:21:55.763: main GPUs: 1: 37.539 MH/s (25) 2: 37.832 MH/s (26) 3: 37.749 MH/s (39) 4: 37.739 MH/s (26) 5: 37.552 MH/s (42) 6: 37.641 MH/s (28)
2019.01.25:12:22:01.502: main Eth speed: 58.365 MH/s, shares: 186/0/0, time: 0:51
2019.01.25:12:22:01.502: main GPUs: 1: 21.526 MH/s (25) 2: 0.000 MH/s (26) 3: 0.000 MH/s (39) 4: 0.000 MH/s (26) 5: 0.000 MH/s (42) 6: 36.839 MH/s (28)
2019.01.25:12:22:01.910: GPU2 CUDA error in CudaProgram.cu:329 : the launch timed out and was terminated (702)
2019.01.25:12:22:01.911: GPU4 CUDA error in CudaProgram.cu:329 : the launch timed out and was terminated (702)
2019.01.25:12:22:01.911: GPU5 CUDA error in CudaProgram.cu:329 : the launch timed out and was terminated (70
-
#2
Переразгон либо с питанием проблемы. Разъёмы горят или БП косячит. Но я бы начал с разгона. Или просто power limit ниже поставить для эксперимента.
-
#3
Переразгон либо с питанием проблемы. Разъёмы горят или БП косячит. Но я бы начал с разгона. Или просто power limit ниже поставить для эксперимента.
Спасибо за ответ. Менял разгон pl80 cc-100 проблема сохраняется.
-
#4
Спасибо за ответ. Менял разгон pl80 cc-100 проблема сохраняется.
У меня было такое в двух случаях: один райзер плохо работал и БП в нагрузке косячил. Заменил райзер+БП проблема исчезла. Возможно у вас скорее всего именно с райзером проблемы, карта не отваливается из диспетчера устройств при возникновении ошибки?
-
#5
У меня было такое в двух случаях: один райзер плохо работал и БП в нагрузке косячил. Заменил райзер+БП проблема исчезла. Возможно у вас скорее всего именно с райзером проблемы, карта не отваливается из диспетчера устройств при возникновении ошибки?
Спасибо за ответ. Я скинул ошибку из лога, после этой ошибки риг перезагружается такое происходить с периодичностью, но на 6-8 раз перезагружается с вылетом 5 карт из 6.
Думаю проблема с БП, но вот как проверить
-
#6
Добрый день, коллеги столкнулся с проблемой-в сутки 6 раз перезагружается риг и на 6 раз отлетают 5 карт. Разбираюсь неделю и не как не пойму в чем проблема.
6 карт 1080 palit, феникс майнер, дрова обновлял сбрасывал, разгон сбрасывал все тоже самое, майнер менял-проблема сохраняется. Подкачку менял от 16000-35000.
Куда копать?2019.01.25:12:21:54.029: eths Eth: Received: {«id»:6,»jsonrpc»:»2.0″,»result»:true}
2019.01.25:12:21:55.763: main Eth speed: 226.051 MH/s, shares: 186/0/0, time: 0:51
2019.01.25:12:21:55.763: main GPUs: 1: 37.539 MH/s (25) 2: 37.832 MH/s (26) 3: 37.749 MH/s (39) 4: 37.739 MH/s (26) 5: 37.552 MH/s (42) 6: 37.641 MH/s (28)
2019.01.25:12:22:01.502: main Eth speed: 58.365 MH/s, shares: 186/0/0, time: 0:51
2019.01.25:12:22:01.502: main GPUs: 1: 21.526 MH/s (25) 2: 0.000 MH/s (26) 3: 0.000 MH/s (39) 4: 0.000 MH/s (26) 5: 0.000 MH/s (42) 6: 36.839 MH/s (28)
2019.01.25:12:22:01.910: GPU2 CUDA error in CudaProgram.cu:329 : the launch timed out and was terminated (702)
2019.01.25:12:22:01.911: GPU4 CUDA error in CudaProgram.cu:329 : the launch timed out and was terminated (702)
2019.01.25:12:22:01.911: GPU5 CUDA error in CudaProgram.cu:329 : the launch timed out and was terminated (70
у самого ферма на 1080 и ситуация не в первый раз,
проверяй разъемы питания,
-
#8
а саму винду переставить тоже надо. иногда после автообнов что-то ломается в системе
-
#9
Райзеры поменяй на другие у тех карт, что вылетают. Плюс, как уже сказали, может быть разгон и питание.
Конфиг полный в студию.
-
#10
И еще — таблетку используешь? Судя по хешам — да. Вот и возможный ответ.
-
#11
И еще — таблетку используешь? Судя по хешам — да. Вот и возможный ответ.
Спасибо за ответ. Пробовал без таблетки и разгона- ситуация не меняется…
-
#12
Спасибо за ответ. Пробовал без таблетки и разгона- ситуация не меняется…
Попробуйте вытащить ГПУ2 и без нее запустить.
и вылетает одна и та же карта?
-
#13
Попробуйте вытащить ГПУ2 и без нее запустить.
и вылетает одна и та же карта?
поддерживаю!
2019.01.25:12:22:01.910: GPU2 CUDA error in CudaProgram.cu:329 : the launch timed out and was terminated (702)
у ТС отвал начинается с этой карты, если так всегда происходит именно с этой карты, её надо либо придушить(переразгон), либо копать питание, от райзера если переходник сата- 100% плохой контакт или прогар, для начала поппробуйте отсоединить эту карту от райзера и питалова, проверить визуально и потом если нет прогаров всё собрать заново, на том же райзере.
п.с. в 90% случает простой разбор-сбор помогает. При прогаре разъёма конечно не поможет, зато помогает пара кусачек и пайка, на крайняк хорошая скрутка. есть и такой у меня опыт!)
-
#14
Такая же проблема! Не могу решить.
>phoenixminer reboot: 2020.09.28:10:30:04.337: GPU1 GPU1 initMiner error: the launch timed out and was terminated
22s
>phoenixminer reboot: 2020.09.28:10:28:52.333: GPU1 GPU1 initMiner error: the launch timed out and was terminated
4s
>phoenixminer reboot: 2020.09.28:10:27:41.490: GPU1 GPU1 initMiner error: the launch timed out and was terminated
15s
>phoenixminer reboot: 2020.09.28:10:26:30.452: GPU1 GPU1 initMiner error: the launch timed out and was terminated
26s
>phoenixminer reboot: 2020.09.28:10:25:19.324: GPU1 GPU1 initMiner error: the launch timed out and was terminated
1m 6s
>phoenixminer reboot: 2020.09.28:10:24:08.286: GPU1 GPU1 initMiner error: the launch timed out and was terminated
2m 17s
>phoenixminer reboot: 2020.09.28:10:22:56.407: GPU1 GPU1 initMiner error: the launch timed out and was terminated
3m 29s
>phoenixminer reboot: 2020.09.28:10:21:45.451: GPU1 GPU1 initMiner error: the launch timed out and was terminated
4m 40s
>phoenixminer reboot: 2020.09.28:10:20:33.410: GPU1 GPU1 initMiner error: the launch timed out and was terminated
5m 52s
>phoenixminer reboot: 2020.09.28:10:19:21.414: GPU1 GPU1 initMiner error: the launch timed out and was terminated
7m 4s
Отключал все карты, оставляю только одну та же проблема и постоянно перезагружается!
Не подскажите как решить?
-
#15
Такая же проблема! Не могу решить.
>phoenixminer reboot: 2020.09.28:10:30:04.337: GPU1 GPU1 initMiner error: the launch timed out and was terminated
22s
>phoenixminer reboot: 2020.09.28:10:28:52.333: GPU1 GPU1 initMiner error: the launch timed out and was terminated
4s
>phoenixminer reboot: 2020.09.28:10:27:41.490: GPU1 GPU1 initMiner error: the launch timed out and was terminated
15s
>phoenixminer reboot: 2020.09.28:10:26:30.452: GPU1 GPU1 initMiner error: the launch timed out and was terminated
26s
>phoenixminer reboot: 2020.09.28:10:25:19.324: GPU1 GPU1 initMiner error: the launch timed out and was terminated
1m 6s
>phoenixminer reboot: 2020.09.28:10:24:08.286: GPU1 GPU1 initMiner error: the launch timed out and was terminated
2m 17s
>phoenixminer reboot: 2020.09.28:10:22:56.407: GPU1 GPU1 initMiner error: the launch timed out and was terminated
3m 29s
>phoenixminer reboot: 2020.09.28:10:21:45.451: GPU1 GPU1 initMiner error: the launch timed out and was terminated
4m 40s
>phoenixminer reboot: 2020.09.28:10:20:33.410: GPU1 GPU1 initMiner error: the launch timed out and was terminated
5m 52s
>phoenixminer reboot: 2020.09.28:10:19:21.414: GPU1 GPU1 initMiner error: the launch timed out and was terminated
7m 4sОтключал все карты, оставляю только одну та же проблема и постоянно перезагружается!
Не подскажите как решить?
Сначала проверьте все контакты, загляните внутрь каждого разъема, нет ли нагара/деформаций/обугливания проводов, можно эту карту переставить вместо нормальной карты и проверить будет ли глючить, если да, то в отдельный стенд в х16 Слот и гонять в тестах, не только в бублике но и память проверять
Ошибки Видеокарты При Майнинге
Самое полное собрание ошибок в майнинге на Windows, HiveOS и RaveOS и их быстрых и спокойных решений
Can’t find nonce with device CUDA_ERROR_LAUNCH_FAILED
Ошибка майнера Can’t find nonce
Ошибка говорит о том, что майнер не может найти нонс и сразу же сам предлагает решение — уменьшить разгон. Особенно начинающие майнеры стараются выжать из видеокарты максимум — разгоняют слишком сильно по ядру или памяти. В таком разгоне видеокарта даже может запуститься, но потом выдавать ошибки как указано ниже. Помните, лучше — стабильная отправка шар на пул, чем гонка за цифрами в майнере.
Зарабатывай на чужих сделках на бирже BingX. Подробнее — тут.
Phoenixminer Connection to API server failed — что делать?
Ошибка Connection to API server failed
Такая ошибка встречается на PhoenixMiner на операционной систему HiveOS. Она говорит о том, что майнинг-ферма/риг не может подключиться к серверу статистики. Что делать для ее решения:
- Введите команду net-test и запомните/запишите сервер с низким пингом. После чего смените его в веб интерфейсе Hive (на воркере) и перезагрузите ваш риг.
- Если это не помогло, выполните команду dnscrypt -i && sreboot
Phoenixminer CUDA error in CudaProgram.cu:474 : the launch timed out and was terminated (702)
Ошибка майнера Phoenixminer CUDA error in CudaProgram
Эта ошибка, как и в первом случае, говорит о переразгоне карты. Откатите видеокарту до заводских настроек и постепенно поднимайте разгон до тех пор, пока не будет ошибки.
UNABLE TO ENUM CUDA GPUS: INVALID DEVICE ORDINAL
Ошибка майнера Unable to enum CUDA GPUs: invalid device ordinal
Проверяем драйвера видеокарты и саму видеокарту на работоспособность (как она отмечена в диспетчере устройств, нет ли восклицательных знаков).
Если все ок, то проверяем райзера. Часто бывает, что именно райзер бывает причиной такой ошибки.
UNABLE TO ENUM CUDA GPUS: INSUFFICIENT CUDA DRIVER: 5000
Ошибка майнера Unable to enum CUDA GPUs: Insufficient CUDA driver: 5000
Аналогично предыдущей ошибке — проверяем драйвера видеокарты и саму видеокарту на работоспособность (как она отмечена в диспетчере устройств, нет ли восклицательных знаков).
NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED
Ошибка майнера NBMINER MINING PROGRAM UNEXPECTED EXIT.CODE: -1073740791, REASON: PROCESS CRASHED
Ошибка code 1073740791 nbminer возникает, если ваш риг/майнинг-ферма собраны из солянки Nvidia+AMD. В этом случае разделите майнинг на два .bat файла (или полетника, если вы на HiveOS). Один — с картами AMD, другой с картами Nvidia.
NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2) — как исправить?
Ошибка майнера NBMINER CUDA ERROR: OUT OF MEMORY (ERR_NO=2)
Одна из самых распространённых ошибок на Windows — нехватка памяти, в данном случае на майнере Nbminer, но встречается и в майнере Nicehash. Чтобы ее исправить — надо увеличить файл подкачки. Файл подкачки должен быть равен сумме гб всех видеокарт в риге плюс 10% запаса. Как увеличить файл подкачки — читаем тут.
GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0
Ошибка майнера GMINER ERROR ON GPU: OUT OF MEMORY STOPPED MINING ON GPU0
В данном случае скорее всего виноват не файл подкачки, а переразгон по видеокарте, которая идет под номером 0. Сбавьте разгон и ошибка должна пропасть.
Socket error. the remote host closed the connection, в майнере Nbminer
Socket error. the remote host closed the connection
Также может быть описана как «ERROR — Failed to establish connection to mining pool: Socket operation timed out».
Сетевой конфликт — проверьте соединение рига с интернетом. Перегрузите роутер.
Также может быть, что провайдер закрывает соединение с пулом. Смените пул, попробуйте VPN или измените адреса DNS на внешнего провайдера, например cloudflare 1.1.1.1, 1.0.0.1
Server not responded on share, на майнере Gminer
Server not responded on share
Такая ошибка говорит о том, что у вас что-то с подключением к интернету, что критично для Gminer. Попробуйте сделать рестарт роутера и отключить watchdog на майнере.
DAG has been damaged check overclocking settings, в майнере Gminer
Также в этой ошибке может быть указано Device not responding, check overclocking settings.
Ошибка говорит о переразгоне, попробуйте сначала убавить его.
Если это не помогло, смените майнер — Gminer никогда не славился работой с видеокартами AMD. Мы рекомендуем поменять майнер на Teamredminer, а если вам критична поддержка майнером одновременно Nvidia и AMD видеокарт, то используйте Lolminer.
Если смена майнера не поможет, переставьте видеодрайвер.
Если и это не поможет, то нужно тестировать эту карту отдельно в слоте X16.
ERROR: Can’t start T-Rex, failed to initialize device map: can’t get busid, code -6
Ошибки настройки памяти с кодом -6 обычно указывают на проблему с драйвером.
Если у вас Windows, используйте программу DDU (DisplayDriverUninstaller), чтобы полностью удалить все драйверы Nvidia.
Перезагрузите систему.
Установите новый драйвер прямо с сайта Nvidia.
Перезагрузите систему снова.
Если у вас HiveOS/RaveOS — накатите чистый образ системы. Чтобы наверняка.
TREX: Can’t unlock GPU
Полный текст ошибки:
TREX: Can’t unlock GPU [ID=1, GPU #1], error code 15
WARN: Miner is going to shutdown…
WARN: NVML: can’t get fan speed for GPU #1, error code 15
WARN: NVML: can’t get power for GPU #1, error code 15
WARN: NVML: can’t get mem/core clock for GPU #1, error code 17
Решение:
- Проверьте все кабельные соединения видеокарты и райзера, особенно кабеля питания.
- Если с первый пунктом все ок, попробуйте поменять райзер на точно рабочий.
- Если ошибка остается, вставьте видеокарту в разъем х16 напрямую в материнскую плату.
CAN’T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN’T GET BUSID, CODE -6
Ошибка майнера CAN’T START MINER, FAILED TO INITIALIZE DEVIS MAP, CAN’T GET BUSID, CODE -6
В конкретном случае была проблема в блоке питания, он не держал 3 видеокарты. После замены блока питания ошибка пропала.
Если вы уверены, что ваш мощности вашего блока питания достаточно, попробуйте сменить майнер.
Зарабатывай на чужих сделках на бирже BingX. Подробнее — тут.
ОШИБКА 511 ГРАДУСОВ НА ВИДЕОКАРТА
Ошибка 511 градусов видеокарта
Ошибка 511 говорит о неисправности райзера или питания карты. Проверьте все соединения. Для выявления неисправности рекомендуется запустить систему с одной картой. Протестировать, и затем добавлять по одной карте.
GPU driver error, no temps в HiveOS — что делать?
Вероятнее всего, вы получили эту ошибку, майнив на HiveOS. Причин ее появления может быть несколько — как софтовая, так и аппаратная (например райзер).
Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.
Если ошибка не уйдет — проверьте райзер.
GPU are lost, rebooting
Это не ошибка, а ее последствие. Что узнать какая ошибка приводит к перезагрузке карт, сделайте следующее:
Включите сохранение логов (по умолчанию они выключены) командой
logs-on
И перезагрузите риг.
После того как ошибка повторится можно будет скачать логи командами ниже.
Вы можете использовать следующую команду, чтобы загрузить логи майнера прямо с панели мониторинга;
message file «miner.log» -f=/var/log/miner/minername/minername.log
Итак, скажем, например, мне нужны логи TeamRedMiner
message file «teamredminer.log» -f=/var/log/miner/teamredminer/teamredminer.log
Отправленная командная строка будет выделена синим цветом. Загружаемый файл будет отображаться белым цветом. Нажав на него, вы сможете его скачать.
Эта команда позволит скачать лог системы
message file «syslog» -f=/var/log/syslog
exitcode=3 в HiveOS
Вероятнее всего, вы получили эту ошибку, майнив на HiveOS. Причин ее появления может быть несколько — как софтовая, так и аппаратная (например райзер).
Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.
Если ошибка не уйдет — проверьте райзер.
exitcode=1 в HiveOS
Данная ошибка возникает когда есть проблема с датой в биосе материнской платы (сбитое время) и (или) есть проблема с интернетом.
Если сбито время, то удаленно вы не сможете подключиться.
Тем не менее, обновление драйверов Nvidia должно пройти командой:
nvidia-driver-update —list
gpu fault detected 146
Скорее всего вы пытаетесь майнить с помощью Phoenix miner. Решения два:
- Откатитесь на более старую версию, например на 5.4с
- (Рекомендуемый вариант) Используйте Trex для видеокарт Nvidia и TeamRedMiner для AMD.
Waiting interface to come up — не работает VPN на HiveOS
Waiting interface to come up
Начните с логов, чтобы понять какая именно ошибка вызывает эту проблему.
Команды для получения логов:
systemctl status openvpn@client
journalctl -u openvpn@client -e —no-pager -n 100
Как узнать ip адрес воркера hive os
Как узнать ip адрес воркера hive os
Самое простое — зайти в воркера и прокрутить страницу ниже видеокарт. Там будет указан Remote IP — это и есть внешний IP.
Альтернативный вариант — вы можете проверить ваш внешний айпи адрес hive через консоль Hive Shell:
Выполните одну из команд:
curl 2ip.ru
wget -qO- eth0.me
wget -qO- ipinfo.io/ip
wget -qO- ipecho.net/plain
wget -qO- icanhazip.com
wget -qO- ipecho.net
wget -qO- ident.me
Repository update failed в HiveOS
Иногда встречается на HiveOS. Полный текст ошибки:
Some index files failed to download. They have been ignored, or old ones used instead.
Repository update failed
------------------------------------------------------
> Restarting autofan and watchdog
> Starting miners
Miner screen is already running
Run miner or screen -r to resume screen
Upgrade failed
Решение:
- Выполнить команду apt update && selfupgrade -f
- Если не сработала и она, то 99.9%, что разработчики HiveOS уже знают об этой проблеме и решают ее. Попробуйте выполнить обновление через некоторое время.
Rave os не запускается. Boot aborted Rave os
Перепроверьте все настройки ПК и БИОСа материнской платы:
— Установите загрузочное устройство HDD/SSD/M2/USB в зависимости от носителя с ОС.
— Включите 4G decoding.
— Установите поддержку PCIe на Auto.
— Включите встроенную графику.
— Установите предпочтительный режим загрузки Legacy mode.
— Отключите виртуализацию.
Если после данных настроек не определяется часть карт, то выполните следующие настройки в BIOS (после каждого пункта требуется полная перезагрузка):
— Отключите 4G decoding
— Перезагрузка
— Отключите CSM
— Перезагрузка
— Включите 4G decoding, установите PCI-E Gen2/3, а при отсутствии Gen2/3, можно выбрать Gen1
Failed to allocate memory Raveos
Эта же ошибка может называться как:
failed to allocate initramfs memory bailing out, failed to load idlinux c.32
или
failed to allocate memory for kernel boot parameter block
или
failed to allocate initramfs memory raveos bailing
Но решение у нее одно — вы должны правильно настроить БИОС материнской платы.
gpu_driver_fault, GPU #0 fault в RaveOS
gpu_driver_fault, GPU #0 fault в RaveOS
В большинстве случаев эта проблема решается уменьшением разгона (особенно по памяти) на конкретной видеокарте (на скрине это карта номер 0).
Если уменьшение разгона не помогает, то попробуйте обновить драйвера.
Если обновление драйверов не привело к решению проблемы, то попробуйте поменять райзер на этой карте на точно работающий.
Если и это не помогает, перепроверьте все кабельные соединения и мощность блока питания, хватает ли его для вашей конфигурации.
Gpu driver fault. All tasks have been stopped. Worker will be rebooted after 5 minutes в RaveOS
Gpu driver fault. All tasks have been stopped. Worker will be rebooted after 5 minutes
Что приводит к появлению этой ошибки? Вероятно, вы переразогнали видеокарту (часто сильно гонят по памяти), сбавьте разгон. На скрине видно, что проблему дает именно GPU под номером 1 — начните с нее.
Вторая частая причина — нехватка питания БП на систему с видеокартами. Учтите, что сама система потребляет не менее 100 вт, каждый райзер еще закладывайте 50 вт. БП должно хватать с запасом в 20%.
Miner restarted after error RaveOS
Смотрите логи майнера, там будет указана конкретная ошибка, которая приводит к miner restarted. После этого найдите ее на этой странице и исправьте. Проблема уйдет.
Miner restart limit reached. Worker rebooting by flag auto в RaveOS
Аналогично предыдущему пункту — смотрите логи майнера, там будет указана конкретная ошибка, которая приводит к рестарту воркера. Пофиксите ту ошибку — уйдет и эта проблема.
Miner cannot be started, ОС RaveOS
Непосредственно перед этой ошибкой обычно пишется еще другая, которая и вызывает эту проблему. Но если ничего нет, то:
- Поставьте майнер на паузу, перезагрузите риг и в консоли выполните команды clear-miners clear-logs и fix-fs. Запустите майнинг.
- Если ошибка не ушла, перепишите образ RaveOS.
Overclock can’t be applied в RaveOS
Эта ошибка означает, что значения разгона между собой конфликтуют или выходят за пределы допустимых. Перепроверьте их. Скиньте разгон на стоковый и попробуйте еще раз.
В редких случаях причиной этой ошибки также становится райзер.
Error installing hive miners
Error installing hive miners
Можно попробовать обойтись малой кровью и вбить в HiveOS команду:
hive-replace -y —stable
Система по новой накатит стабильную версию HiveOS.
Если ошибка не уйдет — физически перезапишите образ. Если у вас флешка, то скорее всего она умерла. Купите SSD.
Warning: Nvidia settings applied with errors
Переразгон. Снизьте значения частот ядра и памяти. После этого перезагрузите риг.
Nvtool error или Danger: nvtool error
Скорее всего при установке драйвера появилась проблема с модулем nvtool
Попробуйте переустановить драйвер Nvidia командой через Hive shell:
nvidia-driver-update версия_драйвера —force
Или попробуйте обновить систему полностью командой из Hive shell:
hive-replace -y —stable
nvtool error
Перестал отображаться кулер видеокарты HiveOS
0% скорости вращения кулера.
Это может произойти по нескольким причинам:
- кулер действительно не крутится
- датчик оборотов отключен или сломан
- видеокарта слишком агрессивно работает (высокий разгон)
- неисправен райзер или одно из его частей
ERROR: parsing JSON failed
Необходимо выполнить на риге локально (с клавиатурой и монитором) следующую команду:
net-test
Данная команда покажет ваше текущее состояние подключения к разным зеркалам API серверов HiveOS.
Посмотрите, к какому API у вас наименьшая задержка (ping), и когда воркер снова появится в панели, измените стандартное зеркало на то, что ближе к вам.
После смены зеркала, в обязательном порядке перезагрузите ваш воркер.
Изменить сервер API вы можете командой nano /hive-config/rig.conf
После смены нажмите ctrl + o и ентер для того чтобы сохранить файл.
После этого выйдите в консоль командой ctrl + x, f10 и выполните команду hello
NVML: can’t get fan speed for GPU #5, error code 999 hive os
Проблема с скоростью кулеров на GPU 5
0% скорости вращения кулера / ошибки в целом
Это может произойти по нескольким причинам:
— кулер действительно не крутится
— датчик оборотов отключен или сломан
— видеокарта слишком агрессивно работает (высокий разгон)
Начните с визуальной проверки карты и ее кулера.
Can’t get power for GPU #2
Как правило эта ошибка встречается рядом вместе с другими:
Attribute ‘GPUGraphicsClockOffset’ was already set to 0
Attribute ‘GPUMemoryTransferRateOffset’ was already set to 2200
Attribute ‘GPUFanControlState’ (hive1660s_ETH:0[gpu:2]) assigned value
0.
20211029 12:40:50 WARN: NVML: can’t get fan speed for GPU #2, error code 999
20211029 12:40:50 WARN: NVML: can’t get power for GPU #2, error code 999
20211029 12:40:50 WARN: NVML: can’t get mem/core clock for GPU #2, error code 999
Решение:
Проверьте корректность установки драйвера на видеокарте.
Убедитесь что нет проблем с драйвером, если все в порядке, то попробуйте другой параметр разгона. Например уменьшить разгон по памяти.
GPU1 search error: unspecified launch failure
Уменьшите разгон и проверьте контакты райзера
Warning: Autofan: unable to set fan speed, rebooting
Найдите логи майнера, посмотрите какие ошибки майнер пишет в логах. Например:
kernel: [12112.410046][ T7358] NVRM: GPU at PCI:0000:0c:00: GPU-236e3bef-2e03-6cdb-0518-7ac01eb8736d
kernel: [12112.410049][ T7358] NVRM: Xid (PCI:0000:0c:00): 62, pid=7317, 0000(0000) 00000000 00000000
kernel: [12112.433831][ T7358] NVRM: Xid (PCI:0000:0c:00): 45, pid=7317, Ch 00000010
CRON[21094]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Исходя из логов, мы видим что есть проблема с видеокартой на слоте PCIE 0c:00 (под номером Gpu пишется номер PCIE слота) с ошибками 45 и 62
Коды ошибок (других, которые также могут быть там) и что с ними делать:
• 13, 43, 45: ошибки памяти, снизить MEM
• 8, 31, 32, 61, 62: снизить CORE, возможно и MEM
• 79: снизить CORE, проверить райзер
Ошибка Kernel-Power код 41
Проверьте все провода (от БП до карт, от БП до райзеров), возможно где-то идёт оплавление. Если визуальный осмотр показал, что все ок, то ошибка программная и вам нужно переустановить Windows.
Danger: hive-replace -y —stable (failed, exitcode=137)
Очень редкая ошибка, которая вылезла в момент удаленного обновления образа HiveOS. Она не встречается в тематических майнинг группах и сайтах. Не поверите что произошло.
На балконе, где стоял риг, поселилась семья голубей. Они засрали риг, в прямом смысле, из-за этого он постоянно уходил в оффлайн. После полной продувки материнской платы и видеокарт проблема решилась сама.
MALFUNCTION HIVEOS
Malfunction — неисправность. Причин и решений может быть несколько:
- Вам следует переустановить видео драйвер;
- Если драйвер не помог, тогда отключайте все GPU и поочередно вставляйте по 1 шт, и смотрите вызовет ли какая-то видеокарта подобную ошибку или нет. Если да, то возможно это райзер.
- Неисправен носитель, на который записана Hive OS, запишите образ еще раз.
Не нашли своей ошибки? Помогите сделать мир майнинга лучше. Отправьте ее по этой форме и мы обновим наш гайд в самое ближайшее время.