2012-06-29 13 views
20

Deseo utilizar Google 2 gramos para mi proyecto; pero el tamaño de los datos hace que la búsqueda sea costosa tanto en términos de velocidad como de almacenamiento.
¿Existe una API web disponible para este fin (en cualquier idioma)? El sitio web http://books.google.com/ngrams/graph muestra una imagen, ¿puedo obtener valores de datos?Google N-Gram Web API

Respuesta

13

Bueno, tengo una ronda sobre la forma de hacerlo, usando Google BigQuery
En eso, los trigramas están disponibles en el dominio público. Usar Command line access hizo el trabajo por mí.

+0

¿Cómo se llegó a los datos del ngrama? ¡No pude verlo en Sample Datasets! – metdos

+12

abra https://bigquery.cloud.google.com/?pli=1, (y acepte los términos y condiciones, y todo eso si aún no lo ha hecho y abra nuevamente el enlace), luego, en el panel lateral izquierdo, seleccione "trigramas". "under" publicdata: samples " – Five

+1

Otra alternativa es un servicio web llamado [PhraseFinder] (http://phrasefinder.io) –

8

me encontré con una gran alternativa: Microsoft Web N-Gram

Se puede consultar en diferentes formas, incluyendo una llamada GET directo conducir a través de la REST interface. Por ejemplo, llamar a la URL:

http://weblm.research.microsoft.com/weblm/rest.svc/bing-body/apr10/1/jp?u={YOUR_TOKEN}&p=red+panda 

vuelve

-9.005 

que es el logaritmo de verosimilitud de la frase red panda.

Además, es más manejable que Google N-Grams, ya que para una frase dada no solo genera su frecuencia absoluta, sino que puede generar su probabilidad conjunta, probabilidad condicional e incluso las palabras más probables que siguen.

Descargo de responsabilidad: No soy un empleado de Microsoft, simplemente creo que acabo de encontrar un servicio increíble.

+0

Acabo de solicitar una clave API de MS. El único mecanismo que se ofrece para registrarse es enviar un correo electrónico. Me parece que no hay un registro automático para el servicio de Microsoft. – knb

+0

Eso es verdad. También encontré una elección extraña. – Alphaaa

+0

Hmmm. web-ngram.research.microsoft.com tomó demasiado tiempo para responder. –