2009-10-02 5 views
5

Tarea:
a agruparse una gran piscina de fragmentos cortos de ADN en las clases que comparten sub-secuencia de patrones comunes y encontrar el secuencia de consenso de cada clase.racimo corto, cadenas homogéneas (ADN) de acuerdo con sub-patrones comunes y extraer consenso de las clases

  • Piscina: ca. 300 secuencia de fragmentos
  • 8 - 20 letras por fragmento
  • 4 posibles letras: A, G, T, C
  • cada fragmento está estructurado en tres regiones:
    1. 5 cartas genéricas
    2. 8 o más posiciones de g de y
    3. 5 cartas genéricas de c
      (Como expresión regular que sería [gcta]{5}[gc]{8,}[gcta]{5})

plan:
para llevar a cabo una alineación múltiple (es decir, withClustalW2) para encontrar clases que compartan secuencias comunes en la región 2 y sus secuencias de consenso.

Preguntas:

  1. son mis fragmentos demasiado corto, y habría que ayudará a aumentar su tamaño?
  2. ¿La región 2 es demasiado homogénea, con solo dos tipos de letra permitidos, para mostrar los patrones en su secuencia?
  3. ¿Qué métodos o herramientas alternativas puede sugerir para esta tarea?

Saludos,

Simon

+0

Esta es una visión muy interesante sobre el tipo de cosas que * bioinformática * hace con las secuencias de ADN. Yo lo hubiera votado, pero la flecha dice "esta pregunta es útil y clara", no "esta es una pregunta interesante". – pavium

+0

¿De dónde vienen los fragmentos de ADN y qué intentas representar? Es difícil saber qué tan corto es "demasiado corto" sin más información. Además, ¿qué intentas representar y qué quieres decir con "mostrar patrones en la secuencia"? –

+0

Quiero saber si existe un consenso dentro de las regiones GC entre los fragmentos. De modo que puedo decir: los fragmentos no solo contienen una repetición GC, sino que la repetición GC también muestra un patrón común (si es que realmente lo hace). Los fragmentos son simplemente repeticiones GC elegidas al azar (más un marco de sus 10 bases vecinas más cercanas, esto puede ser, por supuesto, cambiado o eliminado) del genoma humano. – SimonSalman

Respuesta

1

su región dos, con las letras 2, pueden terminar un poco demasiado similar, el aumento de la longitud o la variabilidad (por ejemplo, más letras) podrían ayudar.

2

Sí, 300 es MUY POCOSO teniendo en cuenta que este es el genoma humano y que básicamente solo buscas un 8-mer en particular. Hay 65,536 posibles 8-mers y 3,000,000,000 bases únicas en el genoma (suponiendo que estás mirando el genoma completo y no solo las regiones génicas o de codificación). Encontrarás G/C que contienen secuencias 3,000,000,000/65,536 * 2^8 = ~ 12,000,000 veces (y probablemente mucho más ya que el genoma está lleno de islas CpG en comparación con otras cosas). ¿Por qué solo elegir 300?

No desea utilizar expresiones regulares para esta tarea. Simplemente comience en el cromosoma 1, busque el primer CG o GC y extiéndalo hasta obtener su primer no G o C. Luego tome esa secuencia, su contexto y guárdela (en un DB). Enjuague y repita.

Para este proyecto, Clustal puede ser exagerado, pero no conozco sus objetivos, así que no estoy seguro. Si usted está interesado sólo en la región de GC, entonces usted puede hacer algunas agrupaciones sencilla de este modo:

  1. Crear una entrada de base de datos para cada una/C8-mer G (2^8 = 256 en total).
  2. Tome cada región GC y camine para ver qué 8-meros contiene.
  3. Etiquete cada región GC con las secuencias que contiene.

Ahora, para cada 8-mer, tiene miles de secuencias que lo contienen. Dejaré el análisis de los datos según tus propios objetivos.

+0

que suena como un enfoque que debería intentar :) – SimonSalman

+0

¿Qué estás tratando de descubrir exactamente? –

Cuestiones relacionadas