Esencialmente, los textos que formato para el proceso de formación debe tener una ficha en cada línea, seguida de una ficha, seguido de un identificador. El identificador puede ser algo así como "LOC" para ubicación, "COR" para corporación, o "0" para tokens no entidad. P.ej.
I 0
left 0
my 0
heart 0
in 0
Kansas LOC
City LOC
. 0
Cuando nuestro equipo entrenado una serie de clasificadores, que alimenta cada archivo con formato de una formación de este tipo con aproximadamente 180.000 fichas, y vimos una mejora neta de la precisión, pero una disminución neta en el recuerdo. (Vale la pena señalar que el aumento en la precisión no fue estadísticamente significativo.) En caso de que pueda ser útil para otros, describí el proceso que utilizamos para entrenar el clasificador, así como los valores p, r y f1 de ambos, entrenados y por defecto clasificadores here.
¿Qué componente: Stanford PoS tagger, Stanford NER o Stanford Parser? –
Estimado goh, tengo la misma pregunta ¿podría resolver su problema? ¿cómo? – Paniz