Tengo un enorme conjunto de datos con información genotípica de diferentes poblaciones. Me gustaría ordenar los datos por población, pero no sé cómo.Subconjunto de datos/extracción de datos basados en las primeras 7 letras
Me gustaría ordenar por "pedigree_dhl". Estaba usando el siguiente código, pero seguí recibiendo mensajes de error.
newdata <- project[pedigree_dhl == CCB133$*1, ]
Mi problema es también que 'pedigrí-DHL' contiene todos los nombres de los genotipos individuales. Solo las primeras 7 letras en la columna 'pedigree-dhl' son el nombre de la población. En este ejemplo: CCB133. ¿Cómo puedo decirle a R que quiero extraer los datos de todas las columnas que contienen CCB133?
Allele1 Allele2 SNP_name gs_entry pedigree_dhl
1 T T ZM011407_0151 656 CCB133$*1
2 T T ZM009374_0354 656 CCB133$*1
3 C C ZM003499_0591 656 CCB133$*1
4 A A ZM003898_0594 656 CCB133$*1
5 C C ZM004887_0313 656 CCB133$*1
6 G G ZM000583_1096 656 CCB133$*1
'substr' le permite extraer subcadenas de un vector de caracteres. Deberá asegurarse de que su columna sea de hecho un vector de caracteres y no un factor antes de usar 'substr' o puede obtener algunos resultados inesperados. Para subconjuntos, busque SO para el subconjunto 'R 'y encontrará muchas respuestas. La función 'subconjunto()' en sí es bastante útil para la sesión interactiva, mientras que el uso del operador '[' es preferido en ciertas situaciones. – Chase