2010-07-21 7 views
5

Me llama la atención qué se usan los términos de programación o la metodología cuando Google te muestra el enlace "¿has querido decir?" Para una palabra compuesta de varias palabras.¿Cómo sabe Google si escribo en redflower.jpg Me refiero a Red Flower?

Por ejemplo, si escribo "redflower.jpg" Sabe cómo dividirlo en Red Flower ¿Existe un paradigma común para realizar este tipo de operaciones? ¿Una búsqueda de Lucene te daría eso?

gracias!

Respuesta

4

Si Google no ve muchos resultados coincidentes para reflowers.jpg, podría intentar cortar las palabras en varias palabras hasta que encuentre muchos resultados coincidentes.

También podría reconocer la extensión (.jpg), reconocer la extensión de la imagen y luego tratar de buscar imágenes con el mismo nombre.

Si tuviera que hacer un algoritmo como este, usaría una enorme base de datos EXISTENTE (ya sea un diccionario o un motor de búsqueda) y luego probaría lo que dije al principio de mi publicación.

+2

Ahh las ventajas de ser una empresa increíblemente rica con un sistema de back-end masivamente escalable y masivamente utilizado ... – notJim

+0

¡Sí! Específicamente, probablemente usa un diccionario para reconocer el hecho de que Rojo y Flor son palabras, y luego usa la probabilidad de que ciertas frases ocurran en el idioma que cree que está utilizando para descubrir qué frase es más probable. Por ejemplo, propone "Flor roja" en comparación con "Redfl Ower" o "Red FL ower" o "Red Flow Er" porque "Red Flower" es mucho más probable. – nearlymonolith

+0

pero ¿cómo sabrían cómo cortar las palabras en los puntos correctos? – James

1

¿Quizás podrían ver lo que otras personas hacen cuando han buscado redflowers.jpg? Tal vez varias personas buscaron "redflowers.jpg", no hicieron clic en ningún enlace, y luego buscaron "Red Flower" y encontraron algunos resultados en los que valía la pena hacer clic.

Por supuesto, tendrían que tener en cuenta que las consultas son similares (contienen cadenas coincidentes), de lo contrario, podrían aparecer algunos resultados extraños.

Cuestiones relacionadas