Sospecho que tiene algunos conceptos erróneos sobre CUDA y cómo usarlos, especialmente porque se refiere a un "proceso" cuando, en la terminología de CUDA, no existe tal cosa.
Para la mayoría de las aplicaciones CUDA, hay dos cosas importantes para obtener un buen rendimiento: optimizar el acceso a la memoria y asegurarse de que cada hilo CUDA activo en una urdimbre realiza la misma operación al mismo tiempo que otros hilos activos en la urdimbre. Ambos suenan como importantes para su aplicación.
Para optimizar su acceso a la memoria, debe asegurarse de que sus lecturas de la memoria global y sus escrituras en la memoria global se combinen. Puede leer más sobre esto en la guía de programación de CUDA, pero esencialmente significa que los hilos adyacentes en una mitad de urdimbre deben leer o escribir en ubicaciones de memoria adyacentes. Además, cada hilo debe leer o escribir 4, 8 o 16 bytes a la vez.
Si su patrón de acceso a la memoria es aleatorio, entonces es posible que deba considerar el uso de la memoria de textura. Cuando necesite referirse a la memoria que ha sido leída por otros hilos en un bloque, entonces debe hacer uso de la memoria compartida.
En su caso, no estoy seguro de cuáles son sus datos de entrada, pero al menos debe asegurarse de que sus escrituras estén unidas. Probablemente tendrá que invertir una cantidad de esfuerzo no trivial para que sus lecturas funcionen de manera eficiente.
Para la segunda parte, recomendaría que cada subproceso CUDA procese un píxel en su imagen de salida. Con esta estrategia, debes tener cuidado con los bucles en tus núcleos que se ejecutarán más o menos dependiendo de los datos por hilo. Cada hilo en sus urdimbres debe realizar la misma cantidad de pasos en el mismo orden. La única excepción a esto es que no existe una penalización de rendimiento real por tener algunos subprocesos en un warp que no realizan ninguna operación mientras que los subprocesos realizan la misma operación juntos.
Por lo tanto, recomendaría tener cada hilo comprobar si su píxel está dentro de un triángulo determinado. Si no, no debería hacer nada. Si lo es, debe calcular el color de salida para ese píxel.
Además, recomiendo leer más acerca de CUDA, ya que parece que estás saltando a las profundidades sin tener una buena comprensión de algunos de los fundamentos básicos.
Lo siento por mi idioma, el inglés no es mi nativo. Entonces, ¿cuál es la terminología adecuada para el procesamiento en tarjetas gráficas? Bueno, creo que entiendo CUDA bastante bien, pero sí, tengo falta de conocimiento en algoritmos paralelos. Mi entrada es un conjunto de vértices en el espacio de recorte, y tuve que dibujar triángulos. Creo que el algoritmo en el que cada píxel debería verificar cada triángulo no sería óptimo. – qba
Evitar que cada píxel se compruebe cada triángulo se puede hacer mediante la partición de triángulos utilizando BVH, KD-Tree o R-Tree. – whatnick