En primer lugar, este puede ser el foro incorrecto para esta pregunta, ya que es bastante maldito R + Bioconductor específico. Aquí es lo que tengo:R + Bioconductor: combina probesets en un ExpressionSet
library('GEOquery')
GDS = getGEO('GDS785')
cd4T = GDS2eSet(GDS)
cd4T <- cd4T[!fData(cd4T)$symbol == "",]
Ahora CD4T es un objeto ExpressionSet que envuelve una matriz grande con 19794 filas (sondas) y 15 columnas (muestras). La línea final se deshace de todos los probesets que no tienen los símbolos de genes correspondientes. Ahora el problema es que la mayoría de los genes en este conjunto están asignados a más de un conjunto de pruebas. Esto se puede ver haciendo
gene_symbols = factor(fData(cd4T)$Gene.symbol)
length(gene_symbols)-length(levels(gene_symbols))
[1] 6897
lo tanto, sólo de mis 6897 19794 sondas tienen probeset única -> asignaciones de genes. Me gustaría de alguna manera combinar los niveles de expresión de cada conjunto de pruebas asociado con cada gen. No me importa mucho el ID de la sonda real para cada sonda. Me gustaría mucho terminar con un ExpressionSet que contenga la información fusionada, ya que todos mis análisis posteriores están diseñados para trabajar con esta clase.
Creo que puedo escribir algún código que lo haga a mano y crear una nueva expresión desde cero. Sin embargo, asumo que esto no puede ser un problema nuevo y que existe un código para hacerlo, usando un método estadísticamente sólido para combinar los niveles de expresión génica. Supongo que también hay un nombre propio para esto, pero mis Google no muestran mucho uso. ¿Alguien puede ayudar?
Debe probar biostar.stackexchange.com; es un sitio de tipo StackOverflow exclusivo para preguntas bioinformáticas. –
(aunque creo que esta es una pregunta apropiada aquí, también). –
genial, también lo he puesto en Biostar. –