2011-03-29 15 views
26

¿Hay alguna biblioteca, preferiblemente en python pero al menos de código abierto, que pueda resumir y/o simplificar el texto en lenguaje natural?resume el texto o simplifica el texto

+0

Hay otra biblioteca que se basa en el algoritmo 'TextRank' que puede encontrar aquí. https://github.com/RaRe-Technologies/gensim – prashanth

+0

Casi no hay ningún programa que pueda hacer esto. – Olaf

Respuesta

15

no estoy seguro de si hay actualmente ninguna bibliotecas que hacen esto, como el resumen de texto, o al menos comprensible resumen texto no es algo que se logra fácilmente mediante una simple biblioteca de juego enchufe &.

Éstos son algunos enlaces que pude encontrar sobre los proyectos/recursos que están relacionados con el resumen de texto para empezar:

Espero que ayude :)

+1

Algunos enlaces muertos en la respuesta, reemplazados por páginas en caché de https://archive.org/web/ –

2

No pitón pero MEAD va a hacer el resumen de texto (está en Perl). Por lo general, lo que sale es comprensible, si no siempre, con un sonido particularmente fluido. Consulte también summarization.com para obtener mucha información útil sobre la tarea de resumen de texto.

+0

, el enlace de summarization.com está muerto. Sustituirlo amablemente – GadaaDhaariGeek

2

Pruebe Open Text Summarizer que se publica bajo la licencia de código abierto GPL. Funciona razonablemente bien, pero no ha habido ningún trabajo de desarrollo en él desde 2007.

El código original está escrito en C (una biblioteca y una utilidad de línea de comandos) pero hay envoltorios para él en varios idiomas:

+1

C# http://ots.codeplex.com/ –

4

Necesitaba también lo mismo, pero no pude encontrar nada en Python que me ayudó a tener un completo Resultado.

Así que encontré este servicio web realmente útil, y tienen un API gratuito que da un resultado JSON, y quería compartirlo con usted.

Échale un vistazo aquí: http://smmry.com

22

Tal vez usted puede intentar sumy. Es una biblioteca bastante pequeña que escribí en Python. Se implementan los enfoques de Luhn y Edmundson, el método LSA, los algoritmos SumBasic, KL-Sum, LexRank y TextRank. Tiene licencia de Apache2 y es compatible con los idiomas checo, eslovaco, inglés, francés, japonés, chino, portugués, español y alemán.

No dude en abrir un problema o enviar una solicitud de extracción si hay algo que falta.

+1

Me encanta Sumy. Es muy fácil de usar. ¿Cuál es tu método preferido? ¿No es 'LSA' la metodología de lenguaje natural más reciente y teóricamente la mejor en comparación con las otras opciones? – Houman

+3

Hola, gracias. Como con casi todo, no hay una bala de plata, pero LSA es el método más avanzado en suma. –

0

Hace un tiempo, escribí una biblioteca de resumen para Python usando NLTK, usando un algoritmo de la biblioteca Classifier4J. Es bastante simple, pero puede adaptarse a las necesidades de cualquier persona que necesite resumen: https://github.com/thavelick/summarize

1

Tome un vistazo a este article que hace un estudio detallado de estos métodos y paquetes:

  1. Lex_rank (sumy)
  2. LSA (sumy)
  3. Luhn (sumy)
  4. PyTeaser
  5. Gensim TextRank
  6. PyTextRank
  7. Google TextSum

El final del artículo hace un 'summary'.

El autor de sumy @miso.belica ha dado una descripción en la respuesta anterior.

Varias otras técnicas de ML han aumentado, como Facebook/NAMAS y Google/TextSum, pero todavía se necesita una amplia capacitación en Gigaword Dataset y unas 7000 GPU horas. El conjunto de datos en sí es bastante costoso.

En conclusión, diría que sumy es la mejor opción en el mercado ahora mismo si no tiene acceso a máquinas de alta gama. Muchas gracias @ miso.belica por este maravilloso paquete.

Cuestiones relacionadas