Al leer sus comentarios, parece que podría querer usar el paralelismo. Hay instrucciones para hacer esto, pero solo operan en registros, no en memoria.
Esto se debe a la forma en que la arquitectura de la computadora es (supongo x86).
Solo puede acceder a una ubicación de memoria a la vez porque la computadora solo tiene un bus de direcciones. Si intenta acceder a más de una ubicación a la vez, estaría sobrecargando el autobús y nada funcionaría correctamente.
Si puede colocar los datos que necesita en los registros, puede usar muchas instrucciones interesantes del procesador, como MMX o SSE, para realizar cálculos paralelos. Pero en cuanto a la copia de memoria en paralelo, no es posible.
Como han dicho otros, use memcpy. Es confiable, depurado y rápido.
Bueno, tu respuesta me ayudó a ahorrar unos pocos milisegundos. –