Estoy buscando un método para clasificar las páginas escaneadas que consisten principalmente en texto.Clasificación de imágenes en python
Aquí están los detalles de mi problema. Tengo una gran colección de documentos escaneados y necesito detectar la presencia de ciertos tipos de páginas dentro de estos documentos. Planeo "estallar" los documentos en sus páginas componentes (cada una de las cuales es una imagen individual) y clasificar cada una de estas imágenes como "A" o "B". Pero no puedo encontrar la mejor manera de hacer esto.
Más detalles:
- que tienen numerosos ejemplos de "A" y "B" imágenes (páginas), por lo que pueden hacer el aprendizaje supervisado.
- No me queda claro cómo extraer mejor las características de estas imágenes para el entrenamiento. P.ej. ¿Cuáles son esas características?
- Las páginas se rotan ocasionalmente ligeramente, por lo que sería genial si la clasificación fuera algo insensible a la rotación y (en menor medida) al escalado.
- Me gustaría una solución multiplataforma, idealmente en Python puro o usando bibliotecas comunes.
- He pensado en usar OpenCV, pero esto parece ser una solución de "gran peso".
EDIT:
- La "A" y "B" páginas se diferencian en que las páginas "B" tienen formas en ellos con la misma estructura general, incluyendo la presencia de un código de barras. Las páginas "A" son texto libre.
¿Cómo difieren? ¿Fuente? ¿Tamaño? ¿Podrías simplemente OCR alguna parte de él (un título o autor en un encabezado?) –
Nick, agregué una edición para aclarar sobre eso. En realidad, mi objetivo es tirar todo * después de * las páginas B porque no tengo que OCR. Entonces, realmente necesito detectarlos antes de hacer cualquier OCR. – Kyle
Este es un problema bastante difícil: a menos que su colección sea realmente tremenda, ¿no sería más fácil categorizar manualmente las páginas como 'A' o' B'? Podrías escribir una pequeña aplicación GUI para mostrarlas a su vez, de modo que solo puedas presionar una tecla por página. – katrielalex