Estoy trabajando en un problema de clasificación de texto, estoy tratando de clasificar una colección de palabras en categoría, sí, hay muchas bibliotecas disponibles para clasificación, así que por favor no responda si está sugiriendo usarlas.Clasificación de texto en categorías
Déjenme explicar lo que quiero implementar. (Pensemos por ejemplo)
lista de palabras:
- java
- programación
- lenguaje
- do sostenido
lista de categorías.
- java
- do sostenido
aquí vamos a entrenar al conjunto, como:
- mapas de Java a la categoría 1. java
- programación mapas a la categoría 1. java
- programación de mapas a la categoría 2.c-sharp
- mapas idiomas para la categoría 1.java
- mapas idiomas para la categoría 2.c sostenido
- mapas do sostenido a la categoría 2.c sostenido
Ahora tenemos una frase "La mejor de programación java libro " de la frase dada siguientes palabras son un partido a nuestra "lista de palabras":.
- java
- programación
"programación" tiene dos categorías asignadas "java" & "c-sharp", por lo que es una palabra común.
"java" está asignado a la categoría "java" solamente.
Así que nuestra categoría de coincidencia para la frase es "java"
Esto es lo que vino a la mente, es esta solución bien, se puede implementar, ¿cuáles son sus sugerencias, cualquier cosa que estoy perdiendo, defectos , etc.
nada, esa es la pregunta, ¿esto va a funcionar, debería dedicar tiempo tratando de implementar esto? –