La mayoría de las respuestas, excepto los usuarios slayton, rauchen, Paul Amstrong están completamente equivocados si se trata de almacenamiento puro de uno a uno sin técnicas de compresión.
El genoma humano con 3Gb de nucleótidos se corresponde con 3Gb de bytes y no ~ 750MB. El genoma "hpaloide" construido de acuerdo con NCBI es actualmente 3436687kb o 3.436687 Gb de tamaño. Compruebe here por usted mismo.
Haploid = copia única de un cromosoma. Diploid = dos versiones de haploid. Los seres humanos tienen 22 cromosomas únicos x 2 = 44. El cromosoma 23 masculino es X, Y y compone 46 en total. Hembras 23er crom. es X, X y por lo tanto hace 46 en total.
Para los hombres sería 23 + 1 cromosoma en el almacenamiento de datos en una HDD y para las mujeres 23 cromosomas, explicando las pequeñas diferencias mencionadas de vez en cuando en las respuestas. El X crom. de los hombres es igual a X crom. de las hembras
Por lo tanto, la carga del genoma (23 + 1) en la memoria se realiza en partes a través de BLAST usando bases de datos construidas desde fasta-files. Independientemente de las versiones comprimidas o no, los nucleótidos apenas se pueden comprimir. En los primeros días, uno de los trucos utilizados era reemplazar las repeticiones en tándem (GACGACGAC con codificación más corta, por ejemplo, "3GAC"; de 9 a 4 bytes). El motivo fue ahorrar espacio en el disco duro (área de los discos HDDD de 500bm-2GB con 7.200 rpm y conectores SCSI).Para la búsqueda de secuencias, esto también se hizo con la consulta.
Si "nucleótido codificado" de almacenamiento sería de 2 bits por cada letra continuación, que se obtiene por un byte:
A = 00
C = 01
G = 10
T = 11
Solo de esta manera se beneficiará completamente de las posiciones 1,2,3,4,5,6,7 y 8 para 1 byte de codificación. Por ejemplo, la combinación 00.01.10.11 correspondiente con "ACTG". Solo esto es ressonible para la reducción de 4 veces en el tamaño del archivo como vemos en otras respuestas. Por lo tanto 3.4Gb se reducirá a 0.85917175 Gb ... ~ 860MB incluyendo un programa de conversión requerido (23kb-4mb).
Pero ... en biología, quiere poder leer algo, por lo tanto, la compresión gzip es más que suficiente. Descomprimido todavía puede leerlo. Si se utilizó este relleno de bytes, se vuelve más difícil leer los datos. Es por eso que los archivos fasta son archivos de texto sin formato en realidad.
En cuanto al número de átomos, esto depende de la composición. A y T son moléculas más pequeñas que G y C. Sin embargo, la estructura de la molécula es la carne, no su composición atómica, por lo que este no es realmente un cálculo muy útil. (Por lo que vale, por ejemplo, la molécula A aka [desoxiadenosina] (https://en.wikipedia.org/wiki/Deoxyadenosine) es C10H13N5O3 entonces 31 átomos). – tripleee
Véase también https://www.biostars.org/p/5514/ –
Excepto para los usuarios de slayton, Paul Amstrong y Rauchen, todas las demás respuestas dadas son totalmente erróneas o están lejos de ser completas. En las respuestas, el usuario (no) menciona los métodos de compresión o está poco explicado. Vea mi respuesta para aclarar la reducción de 4 veces del genoma como se ve en muchas respuestas. – ZF007