Tengo que buscar soluciones para proporcionar una base de datos MySQL que pueda manejar volúmenes de datos en el rango de terabytes y estar altamente disponible (cinco nueves). Cada fila de la base de datos es probable que tenga una marca de tiempo y hasta 30 valores flotantes. La carga de trabajo esperada es de hasta 2500 inserciones/seg. Es probable que las consultas sean menos frecuentes, pero podrían ser de gran tamaño (quizás con 100 Gb de datos), aunque probablemente solo involucren tablas individuales.Puede MySQL Cluster manejar una base de datos de terabytes
He estado buscando en MySQL Cluster dado que es su oferta de HA. Debido al volumen de datos, necesitaría hacer uso del almacenamiento basado en disco. De manera realista, creo que solo las marcas de tiempo podrían mantenerse en la memoria y todos los demás datos tendrían que almacenarse en el disco.
¿Alguien tiene experiencia en el uso de MySQL Cluster en una base de datos de esta escala? ¿Es incluso viable? ¿Cómo afecta el almacenamiento basado en disco al rendimiento?
También estoy abierto a otras sugerencias sobre cómo lograr la disponibilidad deseada para este volumen de datos. Por ejemplo, ¿sería mejor utilizar una biblioteca de terceros como Sequoia para manejar la agrupación de instancias estándar de MySQL? ¿O una solución más directa basada en la replicación de MySQL?
La única condición es que debe ser una solución basada en MySQL. No creo que MySQL sea la mejor manera de buscar los datos que manejamos, pero es un requisito difícil.
Si está buscando tecnologías, puede considerar algunos proyectos basados en BigTable de Google. HBase de Hadoop, e Hypertable son proyectos interesantes a tener en cuenta. http://hadoop.apache.org/hbase/ y http://www.hypertable.org/ – Kekoa
Esa pregunta se puede hacer mejor en serverfault.com. – lothar