Parece que debería ser una pregunta obvia, pero los tutoriales y la documentación en las listas no están disponibles. Muchos de estos problemas provienen del tamaño de mis archivos de texto (cientos de MB) y mis intentos de reducirlos a algo manejable por mi sistema. Como resultado, estoy haciendo mi trabajo en segmentos y ahora estoy tratando de combinar los resultados.Combinación de listas de datos de frecuencia de palabra
Tengo varias listas de frecuencia de palabras (~ 40 de ellas). Las listas se pueden tomar a través de Importar [] o como variables generadas en Mathematica. Cada lista aparece de la siguiente y se ha generado utilizando el Tally [] y clasificar [] comandos:
{{ "el", 42216}, { "de", 24903}, { "y", 18624 }, {"n", 16850}, {"in",
16164}, {"de", 14930}, {"a", 14660}, {"to", 14175}, {"la", 7347 }, {"was", 6030}, {"l", 5981}, {"le", 5735}, < < 51293 >>, {"matadero", 1}, {"abattement", 1}, {"abattagen", 1}, {"abattage", 1}, {"abated", 1}, {"abandonn", 1}, {"abaiss", 1}, {"aback", 1}, {"aase", 1}, {"aaijaut", 1}, {"aaaah", 1}, {"aaa", 1}}
Aquí se muestra un ejemplo del segundo archivo:
{{ "el", 30419}, { "n", 20414}, { "de", 19956}, { "de", 16262} , {"y",
14488}, {"a", 12726}, {"a", 12635}, {"en", 11141}, {"la", 10739}, {"et", 9016 }, {"les", 8675}, {"le", 7748}, < < 101032 >>, {"abattement", 1}, {"abattagen", 1}, {"abattage", 1}, { "abated", 1}, {"abandonn", 1}, {"abaiss", 1}, {"aback", 1}, {"aase", 1}, {"aaijaut", 1}, { "aaaah", 1}, {"aaa", 1}}
Quiero combinarlos para que los datos de frecuencia se agreguen: es decir, si el segundo archivo tiene 30,419 apariciones de 'the' y se une al primer archivo, debe devolver que hay 72,635 ocurrencias (y así sucesivamente a medida que muevo a través de toda la colección).
Una pregunta estrechamente relacionada: http://stackoverflow.com/questions/5143575/aggregating-tally-counters –
También algo relacionado: http://stackoverflow.com/questions/7749633/time-efficient-partial-inverted -index-building/ –