Soy nuevo en AI. Estoy trabajando en una aplicación que clasifica textos a través de aprendizaje automático. La aplicación necesita clasificar diferentes partes de un documento HTML. Por ejemplo, la mayoría de las páginas web tienen cabecera, menú, barra lateral, pie de página, contenido principal, etc. Quiero utilizar un clasificador de texto para clasificar estas partes de un documento HTML e identificar diferentes tipos de formularios en la página.Inteligencia artificial, clasificador de texto
- Sería muy útil si alguien pudiera proporcionar una guía detallada sobre este tema.
- Ejemplos de aplicaciones similares, también serían muy útiles.
Estoy buscando más sugerencias técnicas, relacionadas con el código & implementación.
puedo asignar etiquetas a html atributos de etiqueta, como clase o ID
<div class="menu-1">
<div id="entry">
<div id="content">
<div id="footer">
<div id="comment-12">
<div id="comment-title">
como para el primer artículo:
TrainClassifier (etiqueta: "Menú", valor: "menú-1" , atributo: "clase", posición-en-cadena: "21%", etiqueta: "div");
Entradas:
- "menú-1" (valor de atributo)
- elemento de la lista
- "clase" (nombre de atributo)
- (posición de la etiqueta "21" en la cadena de)
- "div" (nombre de la etiqueta)
salida
- "Menú" (clasificado como etiqueta)
¿Qué biblioteca de red neural, puede tomar las entradas anteriores, y clasificarlos en a las etiquetas (es decir, Menú).
Todos los usuarios no pueden crear regex o xpath, necesitan un enfoque más fácil, por lo que es importante que el software pueda resaltar la parte del documento html que necesita, utilizando el control del webbrowser, y capacitar al software. software hasta que pueda funcionar por sí mismo.
pero no sé cómo hacer que el tren de software utilizando AI,
la IA que busco es, como tiene que ser capaz de aceptar varias entradas, y clasificar sobre la base de que, como lo he hecho Ya dije algo nuevo para AI, no sé mucho al respecto.
Sería útil para mí si recibo una respuesta a la pregunta que he hecho, como qué biblioteca debo usar y cómo implementar, las respuestas que sugieren Xpath o Regex u otros métodos no responden, a menudo sucede que obtienes todas las sugerencias excepto la que necesitas.
Creo que la unidad de datos en este problema de clasificación no está bien definida. Dijiste que es parte de un html, pero ¿cómo vas a decidir a qué parte pertenece cada texto del html? –
Creo que tienes que hacer eso primero. De lo contrario, incluso con un método de clasificación como, ¿cómo los entrenarás? –
No estoy obteniendo, lo que está tratando de decir, puede elaborar ... –