Tengo una gran cantidad de datos para mantener sincronizados en 4 o 5 sitios en todo el mundo, alrededor de medio terabyte en cada sitio. Esto cambia (ya sea agregados o cambios) en alrededor de 1.4 Gigabytes por día, y los datos pueden cambiar en cualquiera de los cuatro sitios.¿Cuál es la mejor manera de sincronizar grandes cantidades de datos en todo el mundo?
Un gran porcentaje (30%) de los datos son paquetes duplicados (tal vez JDK empaquetados), por lo que la solución debería incluir una forma de detectar el hecho de que existen tales cosas en la máquina local y agarrarlos en lugar de descargar desde otro sitio.
El control de las versiones no es un problema, esto no es una base de código per se.
Estoy interesado si hay alguna solución (preferiblemente de código abierto) que se acerque a tal cosa?
Mi script de bebé usando rsync ya no corta la mostaza, me gustaría hacer una sincronización más compleja e inteligente.
Gracias
Editar: Esta debe basarse UNIX :)
Esto es * casi * correcto, y me gusta especialmente el enlace al sitio web. Con Unison, primero no mira al sistema de archivos local para la solución, por ejemplo, en el directorio padre o en un directorio hermano (incluso me gustaría definir esto). Si el tamaño, el nombre, la hora del modificador, la suma de comprobación son iguales, tome eso en su lugar ... – Spedge
¿Por qué no utiliza en su lugar enlaces para esto, en lugar de replicar estos JDK y otras cosas? No parece correcto preocuparse por duplicar cosas que ciertamente no necesitan duplicación. Unison sincronizará enlaces ... para que funcione, y le libere de algunas necesidades de espacio y algunos dolores de cabeza –