Tengo un archivo que consiste en documentos XML válidos concatenados. Me gustaría separar documentos XML individuales de manera eficiente.Cómo analizar eficientemente documentos XML concatenados desde un archivo
El contenido del archivo concatenado se verá así, por lo que el archivo concatenado no es en sí mismo un documento XML válido.
<?xml version="1.0" encoding="UTF-8"?>
<someData>...</someData>
<?xml version="1.0" encoding="UTF-8"?>
<someData>...</someData>
<?xml version="1.0" encoding="UTF-8"?>
<someData>...</someData>
Cada documento XML individual alrededor de 1-4 KB, pero hay potencialmente unos cientos de ellos. Todos los documentos XML corresponden al mismo Esquema XML.
¿Alguna sugerencia o herramienta? Estoy trabajando en el entorno de Java.
Editar: No estoy seguro de si la declaración xml estará presente en los documentos o no.
Editar: Supongamos que la codificación para todos los documentos xml es UTF-8.
¿Suponemos que la codificación de caracteres sigue siendo la misma para cada uno? De lo contrario, esto se vuelve mucho más difícil :-) –
Todos los archivos usan la misma codificación que el documento en sí. No importa si dicen que son UTF-8. Si el documento concatenado tiene el formato UTF-16, todos son UTF-16. –