¿Es posible extraer texto de las URL con Tika? Cualquier enlace será apreciado. ¿O TIKA solo se puede usar para PDF, Word y cualquier otro documento multimedia?Extraiga el texto de las URL con TIKA
Respuesta
Esto es de lucid:
InputStream input = new FileInputStream(new File(resourceLocation));
ContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
PDFParser parser = new PDFParser();
parser.parse(input, textHandler, metadata);
input.close();
out.println("Title: " + metadata.get("title"));
out.println("Author: " + metadata.get("Author"));
out.println("content: " + textHandler.toString());
lugar de crear una PDFParser
se puede utilizar de Tika AutoDetectParser
para procesar automáticamente los tipos de diff de archivos:
Parser parser = new AutoDetectParser();
Compruebe documentation - sí se puede.
Ejemplo
java -jar tika-app-0.9.jar -t http://stackoverflow.com/questions/6656849/extract-the-text-from-url-using-tika
le mostrará el texto en esta página.
para extraer el contenido de URL no de archivos local utilice este código:
byte[] raw = content.getContent();
ContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(new ByteArrayInputStream(raw), handler, metadata, new ParseContext());
LOG.info("content: " + handler.toString());
También puede usar TikaInputStream.get (byte []) para compilar InputStream – Gagravarr
Gracias ,, No sé por qué me está dando cadena vacía en handler.toString() !!! –
Sí, puedes hacer eso. Aquí está el código. Este código utiliza Apache http client
HttpGet httpget = new HttpGet("http://url.here");
HttpEntity entity = null;
HttpClient client = new DefaultHttpClient();
HttpResponse response = client.execute(httpget);
entity = response.getEntity();
if (entity != null) {
InputStream instream = entity.getContent();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(instream, handler, metadata, new ParseContext());
String plainText = handler.toString();
FileWriter writer = new FileWriter("/scratch/cache/output.txt");
writer.write(plainText);
writer.close();
System.out.println("done");
}
- 1. android: Extraiga el texto de la imagen
- 2. tika
- 3. Extraiga el texto por página con Python PDFMiner?
- 4. Extraiga el nombre de dominio de la URL en C#
- 5. C# Alternativas a Tika
- 6. Extraiga 1 archivo de tar.gz con bash
- 7. Extraiga lang value con JavaScript
- 8. Cómo usar Tika en el modo de servidor
- 9. Extraiga las estadísticas de google play
- 10. Selenio: Extraiga el texto de un div con cssSelector en Java
- 11. Extraiga las tablas en PDF mediante programación
- 12. Extraiga texto e imágenes de PDF utilizando iText5
- 13. C/C++ alternativa a Apache Tika
- 14. Convirtiendo las URL de LibreOffice Calc al texto
- 15. Detectar URL en texto con JavaScript
- 16. Extraiga la tabla de DOCX
- 17. Adición de perfil lingüístico a Apache Tika
- 18. URISyntaxException - Cómo tratar con las URL con%
- 19. Extraiga el nombre del subdirectorio de la URL en ASP.NET C#
- 20. Apache Tika y metadatos del documento
- 21. Extraiga archivos del archivo ZIP con VBScript
- 22. Cómo configurar Apache Tika con Apache Solr 1.4.1
- 23. Extraiga un rango de NSArray
- 24. Python Extraiga el conjunto del conjunto
- 25. Extraiga las primeras palabras X (no solo caracteres) de mySQL
- 26. GUNZIP/Extraiga el archivo "parte por parte"
- 27. ¿Cómo puedo usar el analizador HTML con Apache Tika en Java para extraer todas las etiquetas HTML?
- 28. Retire las líneas de archivo de texto con el pitón
- 29. extraiga y reemplace el archivo que existe
- 30. ¿Cómo uso FileDescriptor con las URL HTTP
Y si tengo que usar esto en un código Java y guardar el texto de la dirección URL en un archivo de texto .. Entonces también es posible .. ?? Y no estoy usando maven. Quiero usar esto en código Java. – ferhan
la descripción de cómo usar tika con hormiga está justo debajo de la descripción de cómo usarlo con Maven, y justo encima de las instrucciones para la herramienta de línea de comando. Si necesita algo de inspiración sobre cómo incrustarlo, estoy seguro de que hay información en el sitio web, y siempre existe la fuente de la herramienta de línea de comandos también. – fvu
esto sería un buen ejemplo en la documentación ... – topchef