Estoy trabajando con grandes conjuntos de datos (decenas de millones de registros, a veces, cientos de millones), y quiero usar un programa de base de datos que enlace bien con R. Estoy tratando de decidir entre mysql y sqlite. Los datos son estáticos, pero hay muchas consultas que debo hacer.sqlite o mysql para grandes conjuntos de datos
En este link to sqlite help, se establece que:.
"Con el tamaño de página predeterminado de 1024 bytes, una base de datos SQLite tiene un tamaño limitado a 2 terabytes (241 bytes) E incluso si pudiera manejar grandes bases de datos, SQLite almacena toda la base de datos en un solo archivo de disco y muchos sistemas de archivos limitan el tamaño máximo de los archivos a algo menor. Por lo tanto, si está contemplando bases de datos de esta magnitud, haría bien en utilizar un motor de base de datos cliente/servidor que se propague su contenido en múltiples archivos de disco, y quizás en múltiples volúmenes ".
No estoy seguro de lo que esto significa. Cuando he experimentado con mysql y sqlite, parece que mysql es más rápido, pero no he construido pruebas de velocidad muy rigurosas. Me pregunto si mysql es una mejor opción para mí que sqlite debido al tamaño de mi conjunto de datos. La descripción anterior parece sugerir que este podría ser el caso, pero mis datos no están cerca de 2TB.
Hubo un discussion on stackoverflow que tocó esto y se refirió a la misma página de información sqlite, pero no resolvió completamente esta cuestión.
Agradecería cualquier información sobre la comprensión de esta limitación del tamaño máximo de archivo del sistema de archivos y cómo esto podría afectar la velocidad para las tablas de indexación y las consultas en ejecución. Esto realmente podría ayudarme en mi decisión de qué base de datos usar para mi análisis.
Lo que él dijo ... – Bohemian