Me encuentro teniendo que aprender cosas nuevas todo el tiempo. He estado tratando de pensar en maneras de acelerar el proceso de aprendizaje de nuevos temas. Pensé que sería estupendo si pudiera escribir un programa para analizar un artículo de Wikipedia y eliminar todo menos la información más valiosa.Resumiendo un artículo de Wikipedia
Empecé tomando el artículo de Wikipedia en PDFs y extrayendo las primeras 100 oraciones. Le di a cada oración una puntuación basada en lo valioso que pensé que era. Terminé la creación de un archivo con el siguiente formato:
<sentence>
<value>
<sentence>
<value>
etc.
entonces Analizada este archivo y trató de encontrar diversas funciones que se correlacionen de cada frase con el valor lo había dado. Acabo de empezar a aprender sobre el aprendizaje automático y las estadísticas y todo eso, así que estoy buscando mucho por aquí. Este es mi último intento: https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py.
Probé un montón de cosas que no parecían producir mucha correlación en absoluto - longitud de palabra promedio, posición en el artículo, etc. Casi lo único que produjo cualquier tipo de relación útil fue la longitud de la cadena (más específicamente, contar el número de letras minúsculas parecía funcionar mejor). Pero parece una especie de cojera, porque parece obvio que las oraciones más largas tendrían más probabilidades de contener información útil.
En un momento dado pensé que había encontrado algunas funciones interesantes, pero luego cuando traté de eliminar valores atípicos (contando solamente los cuartiles internos), resultaron producir peores resultados que simplemente devolver 0 por cada oración. Esto me hizo preguntarme sobre cuántas otras cosas podría estar haciendo mal ... También me pregunto si esta es incluso una buena manera de acercarse a este problema.
¿Crees que estoy en el camino correcto? ¿O es solo un mandado tonto? ¿Hay algunas deficiencias flagrantes en el código vinculado? ¿Alguien sabe de una mejor manera de abordar el problema de resumir un artículo de Wikipedia? Prefiero tener una solución rápida y sucia que algo perfecto que lleve mucho tiempo armar. Cualquier consejo general también sería bienvenido.
A continuación, querrá que usemos newspeak para hacer el artículo escaneado aún más corto;) – tylerthemiler
Usted es claramente demasiado viejo. Deje este tipo de cosas a los 16 años de edad http://www.wired.com/gadgetlab/2011/12/summly-app-summarization/ – ColinE
:) Summly se ve bien. No puedo ejecutarlo en mi ipod, pero puedo leer las críticas. Estaban bastante mezclados. Tengo la impresión de que no funciona tan bien. –