2009-07-29 24 views
8

¿Qué tipo de trabajo se ha realizado para determinar si una cadena específica pertenece a una ubicación geográfica? Por ejemplo:Identificación de ubicaciones geográficas en el texto

'troy, ny' 
'austin, texas' 
'hotels in las vegas, nv' 

supongo que lo que estoy esperando es una especie de un enfoque estadístico que da un grado de confianza en que los dos primeros son ubicaciones. El último probablemente requiera una heurística que capture "% s,% s" y luego use la misma técnica. Estoy buscando específicamente enfoques que no se basen demasiado en la proposición 'en', ya que no es un indicador de ubicación completamente inequívoco o consistentemente disponible.

¿Alguien me puede indicar enfoques, documentos o utilidades existentes? ¡Gracias!

Respuesta

7

El problema que usted describe a menudo se llama análisis de consultas geográficas o, más en general, recuperación de información geográfica.

Hubo una tarea reciente al hacer esto en CLEF 2007 (http://www.uni-hildesheim.de/geoclef/2007/Query-Parsing.htm). El equipo ganador usó una gramática basada en reglas, que es similar a lo que probablemente no quieras. Otro documento en www2009 habla sobre GeoParser: http://www2009.eprints.org/239/.

Hay también algunos trabajos sobre Recuperación de Información Geográfica en CIKM 2007: http://www.geo.unizh.ch/~rsp/gir07/accepted.html

No sé de ningún software de código abierto que hace esto, pero puede estar incluido en un motor de búsqueda como Lemur.

4

Hay un enfoque muy interesante adoptado por Everyblock.com que se centra en cómo se expresan las ubicaciones en inglés: básicamente utilizan algunas expresiones regulares sofisticadas y extensas que ahora son de código abierto. Su aplicación está diseñada para escanear artículos de noticias, reseñas y diversos feeds de datos públicos y relacionarlos con ubicaciones específicas, y funciona bien. Expresiones como "Un incendio en el edificio en la esquina noreste de la calle 20 y la calle Valencia en San Francisco" están geocodificadas con mucha precisión. Puede estudiar la fuente here. La parte en particular que probablemente desee es ebpub/ebpub/geocoder/base.py, ubicada en la descarga ebpub, y todo lo que le rodea, por ejemplo, comenzando con la clase SmartGeocoder y trabajando hacia atrás.

0

Estoy construyendo una GeoParser gratuita en geocode.xyz

(actualmente soporta cerca de 50 países europeos, para luego ofrecer una cobertura global)

Una aplicación de ejemplo de geoanálisis sintáctico se puede encontrar en OpenWikiMap

Cuestiones relacionadas