Wikipedia, por desgracia ... mantiene cada revisión en la base de datos en alguna forma de XML (?) Como texto.
Eche un vistazo a wikipedia database schema. Cambios y texto específicamente recientes.
Por lo tanto, tienen maravillosas búsquedas O (1) en la primera copia de la página "biología". Esto tiene el desafortunado efecto secundario de hacer que la wikipedia technology cost se eleve desde $ 8mil USD en 2010-2011 a $ 12mil USD en 2011-2012. Esto a pesar de que los discos duros (y todo lo demás) se vuelven más baratos, no más caros.
Tanto para el control de revisión de mantener cada archivo. Git toma un enfoque lindo. Ver Is the git storage model wasteful?.
Almacena todos los archivos, de forma similar al método anterior. Una vez que el espacio tomado por el repositorio supera un cierto límite, realiza un reempaquetado de la fuerza bruta (hay una opción para establecer cuánto se esfuerza --window = [N], --depth = [N]), lo que puede llevar horas.Utiliza una combinación de delta y compresión sin pérdida para dicho empaquetamiento (recursivamente delta, luego aplica lossless en cualquier bit que tengas).
Otros como SVN usan compresión delta simple. (de memoria, en la que no debes confiar).
Nota al pie: compresión delta almacena cambios incrementales. compresión sin pérdida es más o menos como zip, rar, etc.