He descargado un volcado de Wikipedia y quiero convertir el formato wiki en mi formato de objeto. ¿Hay un analizador wiki disponible que convierta el objeto en XML?Analizador para Wikipedia
Respuesta
Consulte java-wikipedia-parser. Nunca he utilizado, pero de acuerdo a los documentos:
El analizador viene con un generador de HTML. Sin embargo, puede controlar la salida que está siendo generada por pasando su propia implementación de la interfaz
be.devijver.wikipedia.Visitor
.
Esto podría ayudar: a page with converters from mediawiki to other formats, including docbook. Docbook es un formato estándar basado en xml que puede ajustarse a sus necesidades (representación xml del contenido de mediawiki)
No sé exactamente cómo se ve el formato xml del volcado de Wikipedia. Pero, si una parte del texto está en el marcado de Wikipedia, sugiero investigar http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html. Esta es una de las clases de un paquete de Wikipedia para apache lucene. No lo usé, pero apache lucene es un proyecto bastante maduro, por lo que vale la pena probar su paquete, en este caso experimental.
Puede utilizar una amplia gama de herramientas para analizar sus contenidos. Todos los lenguajes de script tienen módulos. Por ejemplo, el lenguaje Perl tiene Text::Markup::Trac que es el analizador de sintaxis Trac wiki para Text :: Markup. Genera un archivo HTML.
u podría intentar wikiprep es un analizador Perl Wikipedia check it's page
da salida a muchos archivos de algunos de ellos están
1- Wikipedia analiza en XML archivo 2- gato hier, que contiene categorías wikipedia jerarquía
lo he probado y es muy útil es solo un problema que necesita memoria alta disponible para el procesamiento más probable es más de 4 gb de RAM también puede descargar una versión XML preparada de antemano desde here que está disponible también en la página
El analizador JWPL analiza la estructura de un texto con MediaWiki marcado y lo representa como un objeto Java. Esto permite un acceso estructurado a los contenidos de, p. Wikipedia o Wiktionary No hay una versión independiente del analizador, ya que es parte de la versión de la API de JWPL de Wikipedia. Sin embargo, puede usarse perfectamente sin acceder a Wikipedia con JWPL.
Wiki Parser convierte Wikipedia volcados en XML analizado. Puede ser exactamente lo que necesitas.
- 1. Analizador/Analizador para Erlang?
- 2. ¿Hay un analizador/vía disponible para analizar archivos de volcado de Wikipedia usando Python?
- 3. API de Wikipedia para geolocalizaciones
- 4. ¿Qué usa la wikipedia para escalar?
- 5. ¿Cómo funciona el "enlace de Wikipedia" de Wikipedia?
- 6. Wikipedia: biblioteca de Java para eliminar la eliminación de texto de wikipedia
- 7. RSS Analizador para .NET
- 8. Analizador para C#
- 9. Analizador HTML para GAE
- 10. Analizador JSON para J2ME
- 11. cierres Scala en Wikipedia
- 12. Descarga de texto de Wikipedia
- 13. analizador
- 14. ¿Puedo usar contenido de Wikipedia?
- 15. expresiones regulares para analizador url
- 16. ¿El mejor analizador para C#?
- 17. ¿Qué analizador XML para Haskell?
- 18. Analizador PHP para archivos cachegrind?
- 19. ¿Algún analizador para documentos RFC?
- 20. Analizador personalizado para JQuery Tablesorter
- 21. Analizador Haskell Parsec para encontrar [...]
- 22. Analizador de Haskell para AST
- 23. Mejor Analizador XML para PHP
- 24. Resumiendo un artículo de Wikipedia
- 25. ¿Cómo rastrear toda la Wikipedia?
- 26. analizador SAX vs XMLPull analizador
- 27. WebRequest para conectarse a la API de Wikipedia
- 28. ¿Cómo obtener el contenido de Wikipedia usando la API de Wikipedia?
- 29. Supervisión del progreso del analizador Java SAX
- 30. ¿Cómo acceder a Wikipedia desde R?
+1 para la pregunta ya que estaba considerando rodar la mía. –