¿Cómo funciona algo así como frases estadísticamente improbables?¿Cómo funcionan las frases estadísticamente improbables de Amazon?
según Amazon:
de Amazon.com estadísticamente improbable frases, o "SIP", son los más distintivos frases en el texto de libros en la búsqueda interior ™ programa!. Para identificar SIP, nuestras computadoras escanean el texto de todos los libros en la búsqueda ¡Dentro! programa. Si encuentran una frase que ocurre una gran cantidad de veces en un libro particular relativo a todos ¡Buscar dentro! libros, esa frase es un SIP en ese libro.
SIP no son necesariamente improbable dentro de un libro en particular, pero son improbables relativa a todos los libros en búsqueda interior !. Por ejemplo, la mayoría de los SIP para un libro sobre impuestos están relacionados con impuestos. Pero debido a que mostramos SIP en orden de su puntuación de improbabilidad, los primeros SIP estarán en temas de impuestos que este libro menciona con más frecuencia que otros libros de impuestos. Para las obras de ficción, SIP tienden a ser palabra distintiva combinaciones que a menudo hacen alusión a elementos de la trama importantes.
Por ejemplo, para el primer libro de Joel, los SIP son: abstracciones con fugas, texto suavizado, comida propio perro, número de bugs, construcciones diarias, la base de datos de errores, los horarios de software
Una complicación interesante es que estos son frases de 2 o 3 palabras. Esto hace las cosas un poco más interesantes porque estas frases se pueden superponer o contener entre sí.
es un poco más complicado que eso, porque las frases pueden tener 2 o 3 palabras de longitud, lo que podría superponerse o contenerse entre sí. tf-idf generalmente se describe con términos únicos solamente. –
No estoy seguro de que importe tanto, especialmente si está restringido a frases de longitud 3 o inferior. Para una secuencia de texto de N tokens, tiene N-1 bigrams y N-1 trigrams.Por supuesto, un bigram solo va a ser igual a otro bigram, y también para un trigrama, así que puedes calcular las medidas de IDF de bigrams y trigrams tan rápido como podrías hacerlo por palabras. – danben
@ ʞɔıu: generalmente se describe en términos simples, pero no es necesario aplicarlo de esa manera. Es por eso que mencioné 'una variación en' en mi respuesta. la explicación de danben lo cubre. –