En realidad, los motores de búsqueda hacen fusionan estas listas de documentos. Obtienen un buen rendimiento utilizando otras técnicas, la más importante de las cuales es la poda: por ejemplo, para cada palabra, los documentos se almacenan en orden de reducción del pagerank, y para obtener resultados que tienen la posibilidad de entrar en los primeros 10 (que se le mostrará al usuario) puede atravesar una porción bastante pequeña de las listas de perros y murciélagos, por ejemplo, los primeros mil. (Y, por supuesto, no hay almacenamiento en caché, pero que no está relacionado con el algoritmo de ejecución de la consulta muy)
Además, después de todo, no hay que muchos documentos sobre perros y sobre los murciélagos: incluso si se trata de millones, resulta en fracciones de segundo con una buena implementación.
P.S. Sin embargo, trabajé en el motor de búsqueda líder de nuestro país, no en el motor mismo de nuestro producto de búsqueda principal, pero hablé con sus desarrolladores y me sorprendió saber que los algoritmos de ejecución de consultas son bastante tontos: resulta que uno puede aplastar un enorme cantidad de cómputo en límites de tiempo aceptables. Está todo muy optimizado, por supuesto, pero no hay magia ni milagros.
¿Qué vas a hacer, si hay varios factores a tener en cuenta en lugar de ocurrencia, como la posición de las palabras a estar relativamente cerca, el título más preferencial, etc .. cree usted que la fusión de todas estas cosas aún podría realizarse en un período de tiempo razonable. – Boolean
Aproximadamente, obtienen documentos que contienen todas las palabras de consulta en orden decreciente de pagerank y aplican la fórmula de relevancia (una combinación compleja de varios cientos o miles de factores dependientes de documento y consulta) directamente a cada uno de ellos mientras emplean varias heurísticas de poda . Resulta que esto se puede realizar en un tiempo razonable. Las computadoras son poderosas hoy en día. – jkff
Tal vez un problema mayor es cómo obtener esas listas en la memoria del disco de manera eficiente, pero eso es algo más ... – ren