2012-10-11 16 views
11

Tengo el siguiente marco de datos del cual me gustaría extraer las filas en función de las cadenas coincidentes.Cómo subconjunto de datos con la coincidencia de cadena avanzada

> GEMA_EO5 
gene_symbol fold_EO p_value       RefSeq_ID  BH_p_value 
     KNG1 3.433049 8.56e-28    NM_000893,NM_001102416 1.234245e-24 
     REXO4 3.245317 1.78e-27       NM_020385 2.281367e-24 
     VPS29 3.827665 2.22e-25     NM_057180,NM_016226 2.560770e-22 
    CYP51A1 3.363149 5.95e-25    NM_000786,NM_001146152 6.239386e-22 
     TNPO2 4.707600 1.60e-23 NM_001136195,NM_001136196,NM_013433 1.538000e-20 
     NSDHL 2.703922 6.74e-23    NM_001129765,NM_015922 5.980454e-20 
    DPYSL2 5.097382 1.29e-22       NM_001386 1.062868e-19 

Así que me gustaría extraer, p. Ej. dos filas basándose en la coincidencia de cadenas en $ RefSeq_ID, que funciona muy bien con lo siguiente:

> list<-c("NM_001386", "NM_020385") 
> GEMA_EO6<-subset(GEMA_EO5, GEMA_EO5$RefSeq_ID %in% list, drop = TRUE) 

> GEMA_EO6 

gene_symbol fold_EO p_value RefSeq_ID BH_p_value 
     REXO4 3.245317 1.78e-27 NM_020385 2.281367e-24 
    DPYSL2 5.097382 1.29e-22 NM_001386 1.062868e-19 

Pero algunas de las filas tienen varias RefSeq_IDs separados por comas, por lo que estoy buscando una manera general, de saber si $ RefSeq_ID contiene un cierto patrón de cuerda y luego subconjunto esa fila.

Respuesta

15

Para hacer una coincidencia parcial necesitarás usar expresiones regulares (ver ?grepl). Aquí hay una solución a su problema particular:

##Notice that the first element appears in 
##a row containing commas 
l = c("NM_013433", "NM_001386", "NM_020385") 

Para probar una secuencia a la vez, que acabamos de seleccionar un ID SEC en particular:

R> subset(GEMA_EO5, grepl(l[1], GEMA_EO5$RefSeq_ID)) 
    gene_symbol fold_EO p_value       RefSeq_ID BH_p_value 
5  TNPO2 4.708 1.6e-23 NM_001136195,NM_001136196,NM_013433 1.538e-20 

para la prueba de múltiples genes, utilizamos el operador |:

R> paste(l, collapse="|") 
[1] "NM_013433|NM_001386|NM_020385" 
R> grepl(paste(l, collapse="|"),GEMA_EO5$RefSeq_ID) 
[1] FALSE TRUE FALSE FALSE TRUE FALSE TRUE 

Así

subset(GEMA_EO5, grepl(paste(l, collapse="|"),GEMA_EO5$RefSeq_ID)) 

debería darle lo que desea.

+0

Gracias! hace el trabajo a la perfección ... Lo había intentado con grepl, pero como solo toma el primer elemento de un vector, no pude hacerlo funcionar. Usted omite esto por pegar (l, colapso = "|") Entonces, ¿estas son cadenas separadas por o? Creo que debería buscar más expresiones regulares :-) –

+0

Sí, las cadenas están separadas por "OR" – csgillespie

1

Un enfoque diferente es reconocer las entradas duplicadas en RefSeq_ID como un intento de representar dos tablas de base de datos en un solo marco de datos. Así que si la tabla original es csv, a continuación, normalizar los datos en dos tablas

Anno <- cbind(key = seq_len(nrow(csv)), csv[,names(csv) != "RefSeq_ID"]) 
key0 <- strsplit(csv$RefSeq_ID, ",") 
RefSeq <- data.frame(key = rep(seq_along(key0), sapply(key0, length)), 
        ID = unlist(key0)) 

y reconocer que la consulta es una subset (seleccionar) en la mesa RefSeq, seguido de un merge (unirse) con Anno

l <- c("NM_013433", "NM_001386", "NM_020385") 
merge(Anno, subset(RefSeq, ID %in% l))[, -1] 

conduce a

> merge(Anno, subset(RefSeq, ID %in% l))[, -1] 
    gene_symbol fold_EO p_value BH_p_value  ID 
1  REXO4 3.245317 1.78e-27 2.281367e-24 NM_020385 
2  TNPO2 4.707600 1.60e-23 1.538000e-20 NM_013433 
3  DPYSL2 5.097382 1.29e-22 1.062868e-19 NM_001386 

Tal vez el objetivo es fusionar con una tabla `Maestro', entonces

Master <- cbind(key = seq_len(nrow(csv)), csv) 
merge(Master, subset(RefSeq, ID %in% l))[,-1] 

o similar.

Cuestiones relacionadas