A veces, los errores en mis programas CUDA hacen que los gráficos de escritorio se rompan (en Windows). Normalmente, la pantalla permanece legible, pero cuando los gráficos cambian, como al arrastrar una ventana, aparecen muchos píxeles de colores semialeatorios y pequeños bloques.Restablecer la GPU y el controlador después del error CUDA
He intentado restablecer la GPU y el controlador cambiando la resolución del escritorio, pero eso no ayuda. La única solución que he encontrado es reiniciar la computadora.
¿Hay algún programa o algún truco que pueda usar para que el controlador y la GPU se restablezcan sin reiniciar?
Antecedentes:
he tenido 1.0, 1.1, 1.3 y 2.0 tarjetas, pero sólo tengo una tarjeta de 1.1 y 2.0 ahora. He visto el problema en 1.0 y 1.1. Estoy bastante seguro de haberlo visto en 1.3. No estoy seguro acerca de 2.0. ¿La protección de la memoria se agregó en algún momento alrededor de 1.3? Estoy casi seguro de que no se debe a un hardware inestable, ya que los problemas parecen haber sido provocados por errores en mi código y han desaparecido cuando se solucionaron los errores. Al ejecutar código terminado, las cartas se han mantenido estables. Escribí esta pregunta después de verla en mi tarjeta 1.1, pero desapareció después de que arreglé un error y ahora no tengo ningún código que lo reproduzca. Tal vez debería intentar escribir en lugares al azar en la tarjeta 1.1 y ver si pasa algo ...
¿Se refiere a cuando tiene un programa de cuda de larga ejecución y el controlador falla? – Tudor
@Tudor: No, no creo que el tiempo necesario para ejecutar los factores del kernel en él. No está relacionado con el temporizador de vigilancia. –
Esto realmente no debería suceder, por lo que debe probar su placa para detectar problemas de hardware. Primero intente intercambiar la placa y ejecutar los mismos programas que causan errores para ver si puede reproducirla (idealmente una instancia de la misma placa modelo y una placa diferente). Si se reproduce, no es probable que sea un problema de hardware. También puede probar un corrector de memoria como [esto] (https://simtk.org/home/memtest/) (no estoy seguro si está actualizado). – harrism