Cómo subconjunto de datos con la coincidencia de cadena avanzada

Tengo el siguiente marco de datos del cual me gustaría extraer las filas en función de las cadenas coincidentes.Cómo subconjunto de datos con la coincidencia de cadena avanzada

> GEMA_EO5 
gene_symbol fold_EO p_value       RefSeq_ID  BH_p_value 
     KNG1 3.433049 8.56e-28    NM_000893,NM_001102416 1.234245e-24 
     REXO4 3.245317 1.78e-27       NM_020385 2.281367e-24 
     VPS29 3.827665 2.22e-25     NM_057180,NM_016226 2.560770e-22 
    CYP51A1 3.363149 5.95e-25    NM_000786,NM_001146152 6.239386e-22 
     TNPO2 4.707600 1.60e-23 NM_001136195,NM_001136196,NM_013433 1.538000e-20 
     NSDHL 2.703922 6.74e-23    NM_001129765,NM_015922 5.980454e-20 
    DPYSL2 5.097382 1.29e-22       NM_001386 1.062868e-19

Así que me gustaría extraer, p. Ej. dos filas basándose en la coincidencia de cadenas en $ RefSeq_ID, que funciona muy bien con lo siguiente:

> list<-c("NM_001386", "NM_020385") 
> GEMA_EO6<-subset(GEMA_EO5, GEMA_EO5$RefSeq_ID %in% list, drop = TRUE) 

> GEMA_EO6 

gene_symbol fold_EO p_value RefSeq_ID BH_p_value 
     REXO4 3.245317 1.78e-27 NM_020385 2.281367e-24 
    DPYSL2 5.097382 1.29e-22 NM_001386 1.062868e-19

Pero algunas de las filas tienen varias RefSeq_IDs separados por comas, por lo que estoy buscando una manera general, de saber si $ RefSeq_ID contiene un cierto patrón de cuerda y luego subconjunto esa fila.

Fuente

2012-10-11 Toke Duce Krogager

Para hacer una coincidencia parcial necesitarás usar expresiones regulares (ver ?grepl). Aquí hay una solución a su problema particular:

##Notice that the first element appears in 
##a row containing commas 
l = c("NM_013433", "NM_001386", "NM_020385")

Para probar una secuencia a la vez, que acabamos de seleccionar un ID SEC en particular:

R> subset(GEMA_EO5, grepl(l[1], GEMA_EO5$RefSeq_ID)) 
    gene_symbol fold_EO p_value       RefSeq_ID BH_p_value 
5  TNPO2 4.708 1.6e-23 NM_001136195,NM_001136196,NM_013433 1.538e-20

para la prueba de múltiples genes, utilizamos el operador |:

R> paste(l, collapse="|") 
[1] "NM_013433|NM_001386|NM_020385" 
R> grepl(paste(l, collapse="|"),GEMA_EO5$RefSeq_ID) 
[1] FALSE TRUE FALSE FALSE TRUE FALSE TRUE

Así

subset(GEMA_EO5, grepl(paste(l, collapse="|"),GEMA_EO5$RefSeq_ID))

debería darle lo que desea.

Fuente

2012-10-11 10:43:45 csgillespie

Gracias! hace el trabajo a la perfección ... Lo había intentado con grepl, pero como solo toma el primer elemento de un vector, no pude hacerlo funcionar. Usted omite esto por pegar (l, colapso = "|") Entonces, ¿estas son cadenas separadas por o? Creo que debería buscar más expresiones regulares :-) –

Sí, las cadenas están separadas por "OR" – csgillespie

Un enfoque diferente es reconocer las entradas duplicadas en RefSeq_ID como un intento de representar dos tablas de base de datos en un solo marco de datos. Así que si la tabla original es csv, a continuación, normalizar los datos en dos tablas

Anno <- cbind(key = seq_len(nrow(csv)), csv[,names(csv) != "RefSeq_ID"]) 
key0 <- strsplit(csv$RefSeq_ID, ",") 
RefSeq <- data.frame(key = rep(seq_along(key0), sapply(key0, length)), 
        ID = unlist(key0))

y reconocer que la consulta es una subset (seleccionar) en la mesa RefSeq, seguido de un merge (unirse) con Anno

l <- c("NM_013433", "NM_001386", "NM_020385") 
merge(Anno, subset(RefSeq, ID %in% l))[, -1]

conduce a

> merge(Anno, subset(RefSeq, ID %in% l))[, -1] 
    gene_symbol fold_EO p_value BH_p_value  ID 
1  REXO4 3.245317 1.78e-27 2.281367e-24 NM_020385 
2  TNPO2 4.707600 1.60e-23 1.538000e-20 NM_013433 
3  DPYSL2 5.097382 1.29e-22 1.062868e-19 NM_001386

Tal vez el objetivo es fusionar con una tabla `Maestro', entonces

Master <- cbind(key = seq_len(nrow(csv)), csv) 
merge(Master, subset(RefSeq, ID %in% l))[,-1]

o similar.

Fuente

2012-10-11 15:38:16

Cómo subconjunto de datos con la coincidencia de cadena avanzada

Respuesta

Cuestiones relacionadas