Acabo de leer este artículo bastante interesante, Copying Accelerated Video Decode Frame Buffers.cargas de transmisión y memoria no USWC
Donde explican cómo hacer copias de la memoria USWC lo más rápido posible usando cargas continuas.
Mi pregunta es por qué esta técnica no también podría acelerar las copias normales, desde la memoria no USWC?
Una carga de transmisión leería toda una línea de caché de una sola vez en lugar de la carga normal que solo carga 16 bytes a la vez. ¿Qué me estoy perdiendo? Y copiar desde un búfer de relleno al "búfer de caché" que se escribirá en la memoria caché no puede tener una sobrecarga, ¿o sí?
+1 por título sugerente (Una carga humeante se vierte mejor en bruto) – sehe
La descripción en su último párrafo es completamente al revés. La carga/almacenamiento en tiempo real significa que ** se pasa por alto ** la memoria caché, mientras que la carga/almacenamiento regular ('MOVDQA') se realiza con la ayuda de la memoria caché. También tenga en cuenta que una única línea de caché suele ser más ancha que la longitud del registro SIMD en cada arquitectura. – rwong