2012-01-21 11 views
49

Estoy buscando la cantidad de memoria en bytes (MB, GB, TB, lo que sea) requerida para almacenar un solo ADN humano. Leí algunos artículos en Wikipedia sobre ADN, cromosomas, pares de bases, genes, y tengo algunas suposiciones aproximadas, pero antes de revelar algo me gustaría ver cómo otros abordarían este tema.¿Cuánta memoria se necesitaría para almacenar ADN humano?

La pregunta alternativa sería cuántos átomos hay en el ADN humano, pero eso estaría fuera del tema de este sitio.

Entiendo que esto será una aproximación, entonces estoy buscando un valor mínimo que pueda almacenar ADN de cualquier ser humano.

+0

En cuanto al número de átomos, esto depende de la composición. A y T son moléculas más pequeñas que G y C. Sin embargo, la estructura de la molécula es la carne, no su composición atómica, por lo que este no es realmente un cálculo muy útil. (Por lo que vale, por ejemplo, la molécula A aka [desoxiadenosina] (https://en.wikipedia.org/wiki/Deoxyadenosine) es C10H13N5O3 entonces 31 átomos). – tripleee

+0

Véase también https://www.biostars.org/p/5514/ –

+0

Excepto para los usuarios de slayton, Paul Amstrong y Rauchen, todas las demás respuestas dadas son totalmente erróneas o están lejos de ser completas. En las respuestas, el usuario (no) menciona los métodos de compresión o está poco explicado. Vea mi respuesta para aclarar la reducción de 4 veces del genoma como se ve en muchas respuestas. – ZF007

Respuesta

45

Si confía en este tipo de cosas, esto es lo que Wikipedia afirma (de http://en.wikipedia.org/wiki/Human_genome#Information_content):

los 2,9 mil millones de pares de bases del genoma humano haploide corresponden a un máximo de alrededor de 725 megabytes de datos, ya que cada el par de bases puede ser codificado por 2 bits. Dado que los genomas individuales varían en menos del 1% de entre sí, se pueden comprimir sin pérdida a aproximadamente 4 megabytes.

+6

Solo para agregar algunos comentarios biológicos, "haploide" aquí significa solo una copia de cada cromosoma. El conjunto de referencia humano es haploide (y un mosaico de múltiples personas). Un genoma individual real será diploide (2 copias de cada cromosoma, excepto X e Y) pero nuevamente solo variante entre las dos copias en un pequeño subconjunto de sitios. –

+1

Me pregunto si se puede comprimir ... – Costa

+5

Pensé en ello por un día y me di cuenta de esto: si almacenabas una base de ADN humano, cualquier ADN humano posterior solo tendría que almacenarse como la diferencia entre él y la base caso. Para ejemplos del mismo sexo, el ADN es 99.9% el mismo. Y a través de los sexos es como 98.5%. – Costa

3

El genoma humano contiene 2.9 mil millones de pares de bases. Entonces, si representara cada par de bases como un byte, tomaría 2.9 billones de bytes o 2.9 GB. Probablemente podría llegar a una forma más creativa de almacenar pares de bases ya que cada par de bases solo requiere 2 bits. Así que probablemente puedas almacenar 4 pares de bases por byte, reduciendo el total de menos de un GB.

+0

bits ~ = bytes. 2.9 mil millones de bits es alrededor de 350 MB – SDGuero

+1

@SDGuero, los pares de bases son base 4 y no base 2, por lo que necesita al menos 2 bits para representar un par de bases. – slayton

+0

BS en la jerga de bits ... cada base de nucleótidos tiene 1 carácter y, por lo tanto, 1 byte, independientemente de la tabla de conversión de caracteres (AscII, UTF-8, etc.) utilizada; sin incluir la codificación asiática de 2 bytes. – ZF007

21

no almacena todo el ADN en una corriente ... la mayoría del tiempo que es la tienda por el cromosoma

Una gran cromosoma tomar alrededor de 300 MB una pequeña cerca de 50 MB


Editar:

Creo que la primera razón por la que no se guarda en 2 bits por par de bases es que podría causar un obstáculo para trabajar con los datos. La mayoría de las personas no sabría cómo convertirlo. E incluso cuando se ofrezca un programa para la conversión, muchas personas en grandes empresas o institutos de investigación no pueden/deben preguntar o no saben cómo instalar programas ...

1GB El almacenamiento no cuesta nada. incluso la descarga de 3 GB lleva solo 4 minutos con 100 MBit y la mayoría de las empresas tienen una conexión más rápida.

Otro punto es que los datos no son tan simples como siempre te dicen.

p. Ej. El método de secuenciación inventado por Craig_Venter fue un gran avance, pero también tiene sus sitios descendentes. No pudo separar las cadenas largas del mismo par de bases, por lo que no siempre es 100% claro si hay 8 A o 9 A. Cosas de las que tuvo que ocuparse más adelante ...

Otro ejemplo es el DNA methylation. Tal información no se puede almacenar en una representación de 2 bits.

+3

THX para el voto negativo ... en lugar del conocimiento de wikipedia/google de los otros chicos con los que he trabajado ... – rauschen

+2

+1 de mi parte. Sin embargo, no tengo idea de qué significa el cromosoma "grande" o "pequeño". –

+1

Estos números no concuerdan con lo que dice Wikipedia (ver la tabla en http://en.wikipedia.org/wiki/Human_genome#Information_content); No digo que estés equivocado, pero ¿puedes explicar la discrepancia? –

10

Básicamente, cada par de bases toma 2 bits (puede usar 00, 01, 10, 11 para T, G, C y A). Dado que hay aproximadamente 2.900 millones de pares de bases en el genoma humano, (2 * 2.9 mil millones) bits ~ = 691 megabytes.

No soy un experto, sin embargo, la página Human Genome en la Wikipedia dice lo siguiente:

MB prima:

  • masculino (XY): 770MB
  • femenino (XX): 756 MB

No estoy seguro de dónde proviene su varianza, pero estoy seguro de que puede resolverlo.

+5

Realísticamente, más Se requieren más de 2 bits, ya que hay otras bases almacenadas en la información de secuencia ('N', por ejemplo, donde los datos no se pueden mapear y, por lo tanto, se desconocen). Los códigos de nucleótidos IUPAC incluyen más que los cuatro estándares, y esto puede aumentar la sobrecarga de almacenamiento. http://www.ebi.ac.uk/2can/tutorials/aa.html –

+0

@AlexReynolds enlace roto:/ –

+1

@AlexReynolds @ o0 'http://www.bioinformatics.org/sms2/iupac.html es una mejor enlace para esos códigos IUPAC. AIUI, un "escaneo" de genoma particular necesita más de 2 bits debido a la imprecisión, por lo tanto 'R' para A o G, 'N' para cualquier base,' .' para un espacio, etc. Si pudiéramos leer un genoma perfectamente , sería solo 2 bits por base. – skierpage

2

Hay 4 bases de nucleótidos que forman nuestro ADN, estas son A, C, G, T, por lo tanto, para cada base en el ADN se necesitan 2bits. Hay alrededor de 2.9 billones de bases, eso es alrededor de 700 megabytes. ¡Lo extraño es que llenaría un cd de datos normal! ¿¡¿coincidencia?!?

6

Sí, la RAM mínima necesaria para ADN humano completo es de aproximadamente 770 MB. Sin embargo, la representación de 2 bits es práctica. Es difícil buscar o hacer algunos cálculos en él. Por lo tanto, algunos matemáticos diseñaron una forma más efectiva de almacenar esas secuencias de bases ... y las usaron en algoritmos de búsqueda y comparación, como por ejemplo GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html). Esta aplicación se ejecuta en mi PC en este momento, por lo que puedo decirle ... que prácticamente tiene el ADN almacenado en aproximadamente: 1 563 MB.

2

simplemente lo hizo también. la secuencia cruda es ~ 700 MB. si uno usa una secuencia de almacenamiento fija o un algoritmo de almacenamiento de secuencia fijo, y el hecho de que los cambios son 1% i calcule ~ 120 MB con un almacenamiento perchromosome-sequenceoffset-statedelta. eso es todo para el almacenamiento.

-1

Hay solo 2 tipos de pares de bases, la citosina solo se puede unir a Guanine, y la adenina solo se puede unir a la timina, por lo que cada par de bases se puede considerar como un solo bit. Esto significa que una hebra completa de ADN humano ~ 3 mil millones de "Bits" estaría justo alrededor de ~ 350 megabytes.

+0

Tiene 2 tipos de pares, y pueden ser en dos direcciones, por lo que necesita dos bits para cada par. Esta es la razón por la cual la mayoría de las publicaciones anteriores escriben ~ 700MB, y no 350MB. – Trondster

2

La mayoría de las respuestas, excepto los usuarios slayton, rauchen, Paul Amstrong están completamente equivocados si se trata de almacenamiento puro de uno a uno sin técnicas de compresión.

El genoma humano con 3Gb de nucleótidos se corresponde con 3Gb de bytes y no ~ 750MB. El genoma "hpaloide" construido de acuerdo con NCBI es actualmente 3436687kb o 3.436687 Gb de tamaño. Compruebe here por usted mismo.

Haploid = copia única de un cromosoma. Diploid = dos versiones de haploid. Los seres humanos tienen 22 cromosomas únicos x 2 = 44. El cromosoma 23 masculino es X, Y y compone 46 en total. Hembras 23er crom. es X, X y por lo tanto hace 46 en total.

Para los hombres sería 23 + 1 cromosoma en el almacenamiento de datos en una HDD y para las mujeres 23 cromosomas, explicando las pequeñas diferencias mencionadas de vez en cuando en las respuestas. El X crom. de los hombres es igual a X crom. de las hembras

Por lo tanto, la carga del genoma (23 + 1) en la memoria se realiza en partes a través de BLAST usando bases de datos construidas desde fasta-files. Independientemente de las versiones comprimidas o no, los nucleótidos apenas se pueden comprimir. En los primeros días, uno de los trucos utilizados era reemplazar las repeticiones en tándem (GACGACGAC con codificación más corta, por ejemplo, "3GAC"; de 9 a 4 bytes). El motivo fue ahorrar espacio en el disco duro (área de los discos HDDD de 500bm-2GB con 7.200 rpm y conectores SCSI).Para la búsqueda de secuencias, esto también se hizo con la consulta.

Si "nucleótido codificado" de almacenamiento sería de 2 bits por cada letra continuación, que se obtiene por un byte:

A = 00
C = 01
G = 10
T = 11

Solo de esta manera se beneficiará completamente de las posiciones 1,2,3,4,5,6,7 y 8 para 1 byte de codificación. Por ejemplo, la combinación 00.01.10.11 correspondiente con "ACTG". Solo esto es ressonible para la reducción de 4 veces en el tamaño del archivo como vemos en otras respuestas. Por lo tanto 3.4Gb se reducirá a 0.85917175 Gb ... ~ 860MB incluyendo un programa de conversión requerido (23kb-4mb).

Pero ... en biología, quiere poder leer algo, por lo tanto, la compresión gzip es más que suficiente. Descomprimido todavía puede leerlo. Si se utilizó este relleno de bytes, se vuelve más difícil leer los datos. Es por eso que los archivos fasta son archivos de texto sin formato en realidad.

Cuestiones relacionadas