Estoy usando algunos scripts de Python para hacer estadísticas. contenido Un tipo de registros son como esto lo llamo Una registros: cada Unos registros tiene el formato de:manejo de muchos archivos de registro enormes con Python
[2012-09-12 12:23:33] SOME_UNIQ_ID filesize
otros registros que llamo registra B tiene el formato de:
[2012-09-12 12:24:00] SOME_UNIQ_ID
Necesito contar cuántos registros en los registros A también están en los registros B, y obtener el intervalo de tiempo de los dos registros con el mismo id. De registro. Mi implementación fue cargar todo el tiempo e ID de registros B en un mapa, luego iterar los registros A para verificar si su ID existía en el mapa. El problema es que arroja demasiada memoria porque tengo casi 100 millones de registros en los registros B. Cualquier sugerencia para mejorar el rendimiento y el uso de la memoria? Gracias.
¿Cuántos registros en el mapa A? ¿También 100 millones? – nneonneo
Registrar en el registro A no se cargará en el mapa, solo cargue los registros en B. La A y la B tienen casi el mismo tamaño. – cheneydeng
Vea también http://stackoverflow.com/questions/7331700/how-can-i-find-intersection-of-two-large-file-efficientlyusing-python – nneonneo