2011-06-03 10 views
7

pudiera por favor cualquiera que logró hacer que explican cómo hacer eso :-)Adición de perfil lingüístico a Apache Tika

¿Es necesario para obtener los archivos de n-gramas para el idioma tengo que añadir?

¿Se trata de crear tika.language.override.properties, agregar algunos otros códigos lang y agregar el archivo lang-code.ngp n-gram en classPath? En ese caso, ¿dónde lo obtengo y por qué Tika no admite más idiomas, si solo se trata de esto?

Siguiente Actualmente idiomas soportados para detección de idioma

da,de,et,el,en,es,fi,fr,hu,is,it,lt,nl,no,pl,pt,ru,sv,th 

y utiliza tika tradicional de n-gram notación

er_ 132232 
_de 103517 
en_ 82666 
et_ 80661 
for 65286 
_fo 57945 
de_ 51382 
der 44049 
at_ 41915 
det 41381 
_og 40344 
_at 39482 
ing 38707 
den 36795 
og_ 36577 
_me 34924 
nde 34528 

Este lang detection application actualmente soporta idiomas, pero tiene un poco diferentes archivos de n-gram

af bg cs de en fa fr he hr id ja ko ml ne no pl ro sk sq sw te tl uk vi  zh-tw ar bn da el es fi gu hi hu it kn mk mr nl pa pt ru so sv ta th tr ur zh-cn 

en JSON nota ción

{"freq":{"D":9246,"E":2445,"F":2510,"G":3299,"A":6930,"B":3706,"C":2451,"L":2519,"M":3951,"N":3334,"O":2514,"H" .... 

Respuesta

1

Parece que a partir del TIKA-490, debería ser posible añadir nuevos perfiles lingüísticos. TIKA-546 parece indicar que aún no es tan fácil como podría ser, y en el tiempo medio que necesita para empezar con la herramienta de NGramProfile Nutch y ajustar la salida.

me gustaría sugerir intenta utilizar la herramienta Nutch para generar los archivos, y luego mirar los comentarios sobre la TIKA-490 para obtener detalles sobre cómo utilizarlos.

+0

El identigier idioma en tika es bastante extraño. Se tarda sólo Ngram archivos de 3 caracteres largas cadenas ... los archivos que ya están en Tika tiene como N-gramas 'cuna', 'be_', tres caracteres de largo N-gramas o dos caracteres de largo con N-gramas "_" prefijo/sufijo ... extraño, ¿no? Debería haber uso de la herramienta NGramProfile – lisak

+0

En realidad, yo no podía, porque no hay NGramProfile en Nuch o Tika ... Desapareció de la base de la fuente ... – lisak

Cuestiones relacionadas