Esta pregunta se relaciona con el uso de flujos de CUDA para ejecutar muchos núcleoscómo reducir CUDA latencia de sincronización/retrasar
En CUDA hay muchos comandos de sincronización cudaStreamSynchronize, CudaDeviceSynchronize, cudaThreadSynchronize, y también cudaStreamQuery para comprobar si las corrientes están vacías
Cuando utilicé el generador de perfiles noté que estos comandos de sincronización introducen un gran retraso en el programa. Me preguntaba si alguien sabe algún medio para reducir esta latencia aparte de, por supuesto, usando la menor cantidad de comandos de sincronización posible.
También hay algunas cifras para juzgar el método de sincronización más eficiente. eso es considerar 3 secuencias usadas en una aplicación y dos de ellas deben completarse para poder lanzar una cuarta secuencia si utilizo 2 cudaStreamSyncs o solo una cudaDeviceSync, ¿en qué incurrirá menos pérdida?
cudaThreadSynchronize está en desuso. –