El asesoramiento de Jason es justo. Las mejores reducciones de velocidad que obtendrás provienen de "descubrir" que permites que un algoritmo O (n) se deslice en un bucle interno en alguna parte, o que puedas almacenar en caché ciertos cálculos fuera de funciones costosas.
En comparación con las micro-optimizaciones que PGO puede activar, estos son los grandes ganadores. Una vez que haya hecho ese nivel de optimización, PGO podría ayudarlo. Sin embargo, nunca tuvimos demasiada suerte: el costo de la instrumentación fue tal que nuestra aplicación se volvió inusualmente lenta (en varios órdenes de magnitud).
Me gusta usar Intel VTune como generador de perfiles principalmente porque no es invasivo en comparación con los perfiladores de instrumento que cambian demasiado el comportamiento.
http://stackoverflow.com/questions/4365980/how-to-use-profile-guided-optimizations-in-g describe cómo usarlo (banderas, etc.) necesarios – rogerdpack