2009-02-17 8 views
10

Busque un término en amazon.com, por ejemplo "desbordamiento de pila", y los resultados de búsqueda vuelven rápidamente.¿Cómo es la búsqueda de Amazon Faceted tan rápido?

En el lado izquierdo de la ventana, hay una búsqueda facetada que muestra en ciertas categorías, el recuento de los productos que coinciden con ese término.

A continuación, puede profundizar en esos términos. Por ejemplo, hay 1094 libros que coinciden con el término, que se divide en Computadoras & Internet (1003), Ciencia, etc.

Dado que la búsqueda de libros cubre el contenido de algunos de esos libros, me parece que esta es una hazaña muy impresionante.

¿Cómo hace Amazon? Paralelización masiva? por ejemplo, cada nodo sabe acerca de algunos productos?

Por cierto, vi que "desbordamiento de pila" aparece en el texto de "alma de una nueva máquina", un libro que recuerdo de 1981

Respuesta

17

La respuesta corta es mucha indexación. La respuesta más larga es mucha indexación, mucha redundancia, mucho almacenamiento en caché y particiones inteligentes.

La verdadera respuesta es - leer este libro: http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

(Es gratis, y es muy bueno).

+0

Gracias por la referencia del libro. –

+0

Lo mismo aquí, gracias por la referencia – webclimber

+0

Gracias por el enlace, no lo sabía, pero parece que vale la pena leerlo. – Jay

0

Bueno, hay paralelización, pero una de las cosas que todo el mundo hace en el back-end de este tipo de cosas se ejecutan procesos lentos (como el análisis semántico del contenido del libro) y se realiza una búsqueda rápida en la parte superior. Literalmente almacenan en caché los resultados de búsqueda en algunas bases de datos grandes, de modo que todo lo que tienen que hacer es realizar búsquedas en bases de datos en los resultados de búsqueda. Tal vez entendí mal la pregunta, pero es similar a lo que hace Google. No crees que sus arañas recorran la web de tus sitios cuando ingresas a un término de búsqueda, ¿verdad?

Cuestiones relacionadas