2012-05-07 9 views
7

Estoy buscando las especificaciones del formato TREC. He estado buscando en Google mucho pero no encontré una pista.¿Qué es el formato TREC?

¿Alguien sabe dónde encontrar información al respecto?

Respuesta

3

yo sepa TREC es una abreviatura de texto del NIST Conferencia recuperación. Para que el indexador sepa dónde están los límites del documento dentro de los archivos, cada documento debe tener el documento de inicio y las etiquetas del documento final. Estas etiquetas son similares a las etiquetas HTML o XML y en realidad son el formato de los documentos TREC.

TrecParser: Este analizador reconoce el texto en los campos TEXTO, HL, CABEZA, TITULAR, TTL y LP.

Fuente: TREC Wikipedia

Fuente: Lemur Guide

0

También es el formato de archivo utilizado por IBM Watson para la ingestión de conocimiento

Cuestiones relacionadas