Estructuras de datos para bioinformática

¿Cuáles son algunas estructuras de datos que debería conocer alguien involucrado en bioinformática? Supongo que se supone que cualquiera debe saber sobre listas, hashes, árboles equilibrados, etc., pero espero que haya estructuras de datos específicas de dominio. ¿Hay algún libro dedicado a este tema?Estructuras de datos para bioinformática

Fuente

2010-11-30 lmsasu

La estructura de datos más fundamental utilizada en bioinformática es la cadena. También hay toda una gama de estructuras de datos diferentes que representan cadenas. Y los algoritmos como la coincidencia de cadenas se basan en estructuras de representación/datos eficientes.

Un trabajo exhaustivo sobre este tema es de Dan Gusfield Algorithms on Strings, Trees and Sequences

Fuente

2010-11-30 07:44:11

De acuerdo. El libro de Gusfield es muy completo. – awesomo

Una gran cantidad de libros de introducción en la bioinformática cubrirá algunas de las estructuras básicas que tendría que utilizar. No estoy seguro de cuál es el libro de texto estándar, pero estoy seguro de que puedes encontrarlo. Podría ser útil examinar algunos de los libros específicos de idioma:

Elegí los dos como ejemplos porque están publicados por O'Reilly, que, en mi experiencia, publica libros de buena calidad.

Ocurre que tengo el libro de Python en mi disco duro, y una gran parte habla sobre el procesamiento de cadenas para bioinformática usando Python. No parece que la bioinformática utilice estructuras de datos especiales sofisticadas, solo las existentes.

Fuente

2010-11-30 07:46:55

Muchos proyectos en bioinformática implican la combinación de información de diferentes fuentes semiestructuradas. RDF y ontologías son esenciales para mucho de esto. Ver, por ejemplo, el proyecto bio2RDF. http://bio2rdf.org/. Una buena comprensión de los identificadores es valiosa.

Gran parte de la bioinformática es exploratoria y, a menudo, se utilizan herramientas livianas y rápidas. Consulte las herramientas de flujo de trabajo, como Taverna, donde el recurso principal suele ser un conjunto de servicios web, por lo que HTTP/REST son comunes.

Fuente

2010-11-30 07:52:01

Las estructuras de datos hash espacial (kd-tree), por ejemplo, se utilizan a menudo para consultas vecinas más cercanas de vectores de características arbitrarias, así como análisis de estructura de proteínas 3d.

El mejor libro para su $$ es Understanding Bioinformatics by Zvelebil porque cubre todo, desde el análisis de secuencias hasta la comparación de estructuras.

Fuente

2010-11-30 07:55:28 awesomo

Además de conocimientos básicos de las estructuras que usted ha mencionado, suffix trees (y sufijo arrays), de Bruijn graphs y interval graphs se utilizan ampliamente. The Handbook of Computational Molecular Biology está muy bien escrito. Nunca lo he leído todo, pero lo he usado como referencia.

Fuente

2012-02-03 17:58:48

También recomiendo altamente este libro, http://www.comp.nus.edu.sg/~ksung/algo_in_bioinfo/

Y más recientemente, pitón se utiliza con mucha más frecuencia en bioinformática que Perl. Así que realmente sugiero que comiences con Python, es ampliamente utilizado en mis proyectos.

Fuente

2015-07-08 19:18:56 zhouhufeng

Cualquiera que sea su experiencia matemática o computacional, es probable que encuentre una aplicación en biología computacional.Si no, haga esta otra pregunta de stackoverflow y se lo ayudará: o)

Como se menciona en las otras respuestas, las comparaciones de cadenas y el descubrimiento de patrones en datos unidimensionales son algo intemporales, ya que las secuencias son muy fáciles de obtener. Con un renovado interés en la informática médica, aunque también tiene un análisis de imagen bidimensional o tridimensional que ejecuta, p. contra datos genómicos. Con la bioquímica molecular también tiene búsquedas de patrones en superficies 3D y simulaciones moleculares. Para estudiar los efectos de los medicamentos, trabajará con redes de genes y comparará los tejidos. Se aplican desafíos típicos para big data e integración de información. Y luego, necesita descripciones estadísticas de la probabilidad de un patrón o la asociación clínica de cualquier característica identificada para ser encontrada por casualidad.

Fuente

2017-05-28 17:39:58 smoe

Estructuras de datos para bioinformática

Respuesta

Cuestiones relacionadas