Tensorflow API Training Hatası


#1

Tensorflow Object Detection API kullanarak kendi object detection programımı yapmaya çalışıyorum ancak ne zaman programı eğitmek için “python train.py --logtostderr --train_dir=training/ --pipeline_config_path=training/faster_rcnn_inception_v2_pets.config” kodunu girsem çözümünü bulamadığım şöyle bir hata ile karşılaşıyorum :

InternalError (see above for traceback): cuDNN launch failure : input shape ([1,400,300,64])
[[Node: FirstStageFeatureExtractor/InceptionV2/InceptionV2/Conv2d_1a_7x7/BatchNorm/FusedBatchNorm = FusedBatchNorm[T=DT_FLOAT, data_format=“NHWC”, epsilon=0.001, is_training=false, _device="/job:localhost/replica:0/task:0/device:GPU:0"](FirstStageFeatureExtractor/InceptionV2/InceptionV2/Conv2d_1a_7x7/separable_conv2d, FirstStageFeatureExtractor/InceptionV2/Conv2d_1a_7x7/BatchNorm/gamma/read/_207, FirstStageFeatureExtractor/InceptionV2/Conv2d_1a_7x7/BatchNorm/beta/read/_209, FirstStageFeatureExtractor/InceptionV2/Conv2d_1a_7x7/BatchNorm/moving_mean/read/_211, FirstStageFeatureExtractor/InceptionV2/Conv2d_1a_7x7/BatchNorm/moving_variance/read/_213)]]
[[Node: Loss/RPNLoss/Loss/huber_loss/assert_broadcastable/is_valid_shape/has_valid_nonscalar_shape/has_invalid_dims/concat/_1113 = _Recvclient_terminated=false, recv_device="/job:localhost/replica:0/task:0/device:CPU:0", send_device="/job:localhost/replica:0/task:0/device:GPU:0", send_device_incarnation=1, tensor_name=“edge_3345_…ims/concat”, tensor_type=DT_INT32, _device="/job:localhost/replica:0/task:0/device:CPU:0"]]

gpu\gpu_util.cc:343] CPU->GPU Memcpy failed

sizce bunun sebebi ve çözümü ne olabilir?


#2

Öncelikle tensorflow’un hangi versiyonunu kullanıyorsun? Ona göre 2 sebebi olabilir:

  • cuDNN launch failure hatası sebebiyle, belki compatible olmayan tensorflow/cuDNN versiyonları kullanıyor olabilirsin (örneği tensorflow 1.6.0’da spesifik CUDA ve cuDNN versiyonunu kullanman gerekiyor, daha güncelini kullanmaya çalışırsan hata veriyor).
  • Input sizeları (memoryde kapladığı yer olarak, vector olarak değil), GPU’na out of memory verdirtiyor olabilir. Batch size’ını düşürüp tekrar deneyebilirsin.

#3

merhaba bende aynı hatayı alıyorum sorunu çözebildiniz mi ?