¿Cómo puedo obtener la secuencia genómica de manera eficiente usando Python? Por ejemplo, de un archivo .fa u otro formato de fácil obtención. Básicamente quiero una interfaz fetch_seq (chrom, strand, start, end) que devolverá la secuencia [start, end] en el cromosoma dado en el capítulo especificado.¿Obtención de secuencia genómica de manera eficiente en Python?
De manera análoga, ¿existe una interfaz de python programática para obtener los puntajes de phastCons?
gracias.
Estoy de acuerdo en que este enfoque es realmente elegante porque tiene una biblioteca estándar para usar, pero creo que es muy lenta. Si supone un archivo fasta sin líneas nuevas, simplemente puede "buscar" las coordenadas en el archivo que creo que es mucho más rápido, y no requiere que cargue todos los archivos fasta de cada cromosoma en la memoria. ¿Hay alguna manera de lograr el mismo tipo de eficiencia con una biblioteca estándar como biopython? Gracias. – user248237dfsf
No está exactamente claro lo que está buscando, pero acepto que una solución personalizada adaptada a sus archivos específicos será más rápida que una solución más general. En la práctica, la mayoría de los archivos FASTA tienen saltos de línea y lo que no, por lo que prefiero ser general, pero su experiencia puede variar. –
Sé que este es un hilo viejo, pero espero que alguien más lo notará y mostrará noticias más recientes. Samtools (samtools.sourceforge.net) tiene una función llamada faidx que le permite hacer exactamente esto en la línea de comando. Pysam (https://github.com/pysam-developers/pysam) contiene muchos de los métodos de samtools, pero parece que no puedo hacer funcionar la función faidx.: P En el peor de los casos, puedo ajustar la herramienta de línea de comandos, pero me gustaría algo "nativo" si es posible. –