2010-02-25 8 views
5

Estoy buscando una API de uso general/servicio web/herramienta/etc ... que permita convertir una página HTML dada a un gráfico RDF tan específico como sea posible (lo más probable es que use una ontología de backbone y/o mapeador).Conversión de HTML a RDF

+1

¿Tiene algún control sobre el contenido del documento HTML? ¿O tiene que ser un documento aleatorio? – Scott

+0

Puede ser cualquier documento HTML. Necesito extraer la estructura del documento HTML en un gráfico RDF. Si la conversión utiliza un mapeador/ontología de la red troncal, es aún mejor. – jaxvy

+0

Parece que XSPARQL puede lograr esto con una consulta personalizada escrita de acuerdo con una ontología ... – jaxvy

Respuesta

2

Utilicé XQuery para extraer los datos de un conjunto determinado de páginas web. Tuve que escribir consultas personalizadas para las páginas web. Creo que este es el enfoque más directo para un conjunto específico de archivos HTML. Sin embargo, obviamente no es bueno para el caso general. Para un conjunto diferente de páginas web, otras consultas personalizadas deben escribirse.

2

¿Ha demostrado GRDDL?

GRDDL es una técnica de obtención de RDF datos de documentos XML y en páginas XHTML particulares.

0

Utilicé JSoup para raspar datos de HTML. Utiliza el estilo jQuery de consultar HTML DOM, que ya conocía, por lo que fue una herramienta realmente simple de usar para mí. También lo financié de forma bastante robusta, pero lo necesitaba solo para obtener 3 fuentes de datos, por lo que aún no tengo una gran experiencia con esta herramienta. jsoup