Binarización es el acto de transformar las coloridas características de una entidad en vectores de números, la mayoría de las veces vectores binarios, para hacer buenos ejemplos de algoritmos clasificadores.Binarización en procesamiento de lenguaje natural
Si queremos binarizar la oración "El gato se comió al perro", podríamos comenzar asignando a cada palabra una identificación (por ejemplo cat-1, ate-2, the-3, dog-4) y luego simplemente reemplace la palabra por su ID dando el vector < 3,1,2,3,4>.
Dados estos ID también podríamos crear un vector binario dando a cada palabra cuatro ranuras posibles, y establecer la ranura correspondiente a una palabra específica con una, dando el vector < 0,0,1,0,1,0 , 0,0,0,1,0,0,0,0,0,1>. El último método es, por lo que yo sé, se conoce comúnmente como el método de la bolsa de palabras.
Ahora mi pregunta, ¿cuál es el método de binarización mejor cuando se trata de describir las características para el procesamiento del lenguaje natural en general, y la transición de la dependencia de análisis basado (con el algoritmo Nivres) en particular?
En este contexto, no queremos codificar la frase completa, sino el estado actual del análisis, por ejemplo, la palabra más alta en la pila y la primera palabra en la cola de entrada. Como el orden es muy relevante, esto excluye el método de la bolsa de palabras.
Con mejor, me refiero al método que hace que los datos sean más inteligibles para el clasificador, sin utilizar memoria innecesaria. Por ejemplo, no quiero una palabra bigram para usar 400 millones de características para 20000 palabras únicas, si solo el 2% de los bigrams realmente existen.
Dado que la respuesta también depende del clasificador en particular, estoy interesado principalmente en los modelos de entropía máxima (liblinear), máquinas de vectores de soporte (libsvm) y perceptrones, pero también se aceptan respuestas que se aplican a otros modelos.
No sé qué es la binarización, y estoy seguro de que muchas otras personas están en el mismo barco, por lo que sería bueno si pudiera dar una explicación de lo que significa para aquellos de nosotros que no estamos familiarizados con la PNL (si no es para ayudarnos a responder, al menos para ayudar a comprender el tema). –
Lo mismo aquí: ¿puedes definir la binarización por favor? –
Quizás pueda definir lo que quiere decir con "mejor", es decir, con la mayor eficiencia de espacio, la mayor eficiencia de procesamiento, la más descriptiva. – scotta