Realmente no soy un experto en arquitecturas de CPU, así que tome mis comentarios a la ligera. Wikipedia tiene un artículo que describe la arquitectura x86-64 (link text).
El x86-64 tiene más registros, esto solo debería ayudar a acelerar el programa. Además, esta nueva arquitectura ofrece nuevos conjuntos de instrucciones que podrían mejorar la velocidad si el compilador se aprovecha de ello.
Otro factor a tener en cuenta es la cantidad de conjuntos de instrucciones disponibles. Cuando un programa se compila en x86, generalmente su objetivo es ejecutar en todos los CPUS existentes de 32 bits (Pentium 1, 2, 3, 4, core *, etc.). Cada nueva generación de CPU agrega nuevos conjuntos de instrucciones, estas instrucciones no pueden ser utilizadas por un programa que quiera ser totalmente portátil en formato binario entre todos los CPUS x86. Como x86-64 bit es una nueva arquitectura, la recompilación de un programa para esta máquina le da al compilador un conjunto más amplio de instrucciones para usar sin preocuparse demasiado por la compatibilidad binaria entre los diferentes CPUS de 64 bits.
¡Gracias por la explicación! – Jason