que tengo un archivo de texto que se parece a esto:Perl (o R, o SQL): Contar con qué frecuencia aparece cadena través de las columnas
gene1 gene2 gene3
a d c
b e d
c f g
d g
h
i
(Cada columna es un gen humano, y cada una contiene un número variable de proteínas (cadenas, que se muestran como letras aquí) que pueden unirse a esos genes).
Lo que quiero hacer es contar el número de columnas cada cadena está representado en, salida de ese número y todos los encabezados de columna, como este:
a 1 gene1
b 1 gene1
c 2 gene1 gene3
d 3 gene1 gene2 gene3
e 1 gene2
f 1 gene2
g 2 gene2 gene3
h 1 gene2
i 1 gene2
He estado tratando de encontrar la manera de hacer esto en Perl y R, pero sin éxito hasta el momento. Gracias por cualquier ayuda.
¿Están las columnas delimitadas por tabuladores o tienen formato de espacio? Eso dictará cómo tratarlos. –