2010-01-14 9 views
7

¿Hay un trabajo/libro de investigación que pueda leer y que pueda decirme cuál es el problema en cuestión sobre qué tipo de algoritmo de selección de funciones funcionaría mejor?¿Cómo elegir un algoritmo de selección de funciones? - consejo

Estoy intentando simplemente identificar los mensajes de Twitter como pos/neg (para empezar). Comencé con la selección de funciones basadas en frecuencia (comencé con el libro NLTK) pero pronto me di cuenta de que para un problema similar, varias personas han elegido diferentes algoritmos

Aunque puedo probar la información basada en frecuencia, información mutua, ganancia de información y otros algoritmos la lista parece interminable ... y me preguntaba si existe una forma eficiente de probar y error.

ningún consejo

Respuesta

4

hice un curso de PNL último término, y que venía bastante claro que el análisis de opiniones es algo que nadie sabe realmente cómo hacerlo así (todavía). Hacer esto con el aprendizaje no supervisado es, por supuesto, aún más difícil.

Se están llevando a cabo muchas investigaciones al respecto, algunas de ellas comerciales y, por lo tanto, no están abiertas al público. No puedo indicarle ninguna investigación, pero el libro que usamos para el curso fue this (google books preview). Dicho esto, el libro cubre una gran cantidad de material y podría no ser la forma más rápida de encontrar una solución a este problema en particular.

La única otra cosa que puedo indicarle es intentar buscar en Google, tal vez en scholar.google.com para "análisis de opinión" o "opinión de minería de datos".

Eche un vistazo al corpus NLTK movie_reviews. Las revisiones ya están clasificadas como pos/neg y pueden ayudarte a entrenar a tu clasificador. Aunque el lenguaje que encuentras en Twitter es probablemente muy diferente de esos.

Como última nota, por favor publique los éxitos (o fallas). Este problema aparecerá más tarde con seguridad en algún momento.

+0

¿El libro tiene algún código de acompañamiento o es una teoría pesada? –

+0

Tiene bastante teoría y se centra principalmente en los antecedentes matemáticos de los métodos, no en su implementación. Lo encontré en los libros de Google y puedes echar un vistazo allí. Añadiré el enlace a mi publicación original. –

1

Lamentablemente, no hay ninguna solución para nada cuando se trata de aprendizaje automático. Por lo general se conoce como el teorema "No Free Lunch". Básicamente, varios algoritmos funcionan para un problema, y ​​algunos funcionan mejor en algunos problemas y otros en otros. Sobre todo, todos realizan más o menos lo mismo. El mismo conjunto de características puede causar que un algoritmo tenga un mejor rendimiento y que otro funcione peor para un conjunto de datos dado. Para un conjunto de datos diferente, la situación podría revertirse por completo.

Por lo general, lo que hago es elegir algunos algoritmos de selección de funciones que hayan funcionado para otros en tareas similares y luego comenzar con esos. Si el rendimiento que obtengo usando mis clasificadores favoritos es aceptable, andar en busca de otro medio punto porcentual probablemente no valga la pena. Pero si no es aceptable, entonces es hora de volver a evaluar mi enfoque, o buscar más métodos de selección de características.

6

¿Has probado el libro que recomendé en tu última pregunta? Está disponible de forma gratuita en línea y completamente sobre la tarea que está tratando: Sentiment Analysis and Opinion Mining por Pang y Lee. ¡El Capítulo 4 ("Extracción y Clasificación") es justo lo que necesitas!

+1

No me di cuenta de que está disponible de forma gratuita. Acabo de ver la pregunta y encontré el pdf, creo que podría ser interesante. Me disuadieron un poco cuando vi el precio de $ 99 en Amazon, gracias por su ayuda.Lo estoy leyendo ahora ... –

+1

. De nada. Por cierto, ahora que tienes más de 15 puntos de reputación, puedes hacer upvotes, también, jeje ... ;-) – ferdystschenko

Cuestiones relacionadas