2010-11-30 20 views
10

¿Cuáles son algunas estructuras de datos que debería conocer alguien involucrado en bioinformática? Supongo que se supone que cualquiera debe saber sobre listas, hashes, árboles equilibrados, etc., pero espero que haya estructuras de datos específicas de dominio. ¿Hay algún libro dedicado a este tema?Estructuras de datos para bioinformática

Respuesta

6

La estructura de datos más fundamental utilizada en bioinformática es la cadena. También hay toda una gama de estructuras de datos diferentes que representan cadenas. Y los algoritmos como la coincidencia de cadenas se basan en estructuras de representación/datos eficientes.

Un trabajo exhaustivo sobre este tema es de Dan Gusfield Algorithms on Strings, Trees and Sequences

+0

De acuerdo. El libro de Gusfield es muy completo. – awesomo

4

Una gran cantidad de libros de introducción en la bioinformática cubrirá algunas de las estructuras básicas que tendría que utilizar. No estoy seguro de cuál es el libro de texto estándar, pero estoy seguro de que puedes encontrarlo. Podría ser útil examinar algunos de los libros específicos de idioma:

Elegí los dos como ejemplos porque están publicados por O'Reilly, que, en mi experiencia, publica libros de buena calidad.

Ocurre que tengo el libro de Python en mi disco duro, y una gran parte habla sobre el procesamiento de cadenas para bioinformática usando Python. No parece que la bioinformática utilice estructuras de datos especiales sofisticadas, solo las existentes.

2

Muchos proyectos en bioinformática implican la combinación de información de diferentes fuentes semiestructuradas. RDF y ontologías son esenciales para mucho de esto. Ver, por ejemplo, el proyecto bio2RDF. http://bio2rdf.org/. Una buena comprensión de los identificadores es valiosa.

Gran parte de la bioinformática es exploratoria y, a menudo, se utilizan herramientas livianas y rápidas. Consulte las herramientas de flujo de trabajo, como Taverna, donde el recurso principal suele ser un conjunto de servicios web, por lo que HTTP/REST son comunes.

3

Las estructuras de datos hash espacial (kd-tree), por ejemplo, se utilizan a menudo para consultas vecinas más cercanas de vectores de características arbitrarias, así como análisis de estructura de proteínas 3d.

El mejor libro para su $$ es Understanding Bioinformatics by Zvelebil porque cubre todo, desde el análisis de secuencias hasta la comparación de estructuras.

1

Cualquiera que sea su experiencia matemática o computacional, es probable que encuentre una aplicación en biología computacional.Si no, haga esta otra pregunta de stackoverflow y se lo ayudará: o)

Como se menciona en las otras respuestas, las comparaciones de cadenas y el descubrimiento de patrones en datos unidimensionales son algo intemporales, ya que las secuencias son muy fáciles de obtener. Con un renovado interés en la informática médica, aunque también tiene un análisis de imagen bidimensional o tridimensional que ejecuta, p. contra datos genómicos. Con la bioquímica molecular también tiene búsquedas de patrones en superficies 3D y simulaciones moleculares. Para estudiar los efectos de los medicamentos, trabajará con redes de genes y comparará los tejidos. Se aplican desafíos típicos para big data e integración de información. Y luego, necesita descripciones estadísticas de la probabilidad de un patrón o la asociación clínica de cualquier característica identificada para ser encontrada por casualidad.

Cuestiones relacionadas