2008-08-24 13 views

Respuesta

0

Su entrada en el dominio del tipo de AI muy lejano. He realizado un trabajo extenso en la transformación de texto en conocimiento de máquina principalmente usando Attempto Controlled English (ver: http://attempto.ifi.uzh.ch/site/), es un lenguaje natural (inglés) que es completamente procesable por computadora en varias ontologías diferentes, como OWLDL.

parece que eso haría que forma una exageración, aunque ...

¿Hay una razón para no limitarse a tomar las primeras frases de la entrada del blog y luego añadiendo una elipse para su resumen?

0

Gracias por esos enlaces. Parece que GROK está muerto, pero puede funcionar aún para mis propósitos.

2 más enlaces:

El Inglés Attempto controlada es un concepto interesante: ya que es una forma completamente inversa de mirar el problema. No es realmente práctico para lo que estoy tratando de hacer.

@mmattax En cuanto a la sugerencia de tomar algunas frases - No estoy tratando de presentar un resumen: de lo contrario, sería una buena solución judo. Estoy buscando realmente resumir el contenido para utilizarlo con otros fines de evaluación.

0

posible que desee probar el portón o de código cerrado, exclusivo y costoso API TextAnalyst COM

5

Creo que quiere para generar entradas de blog parafraseando automáticamente todo lo que fuera que los blogs de este sistema está supervisando.

Esto sería muy interesante si pudiera combinar de 2 a 10 publicaciones de blog que son similares, pero de diferentes fuentes y luego haga un resumen "real" parafraseado automáticamente (el tamaño de 1 publicación de blog).

También podría ser genial para Homeworks. Desafortunadamente no es tan fácil de hacer.

La única manera que pude ver es poder descomponer cada oración en "significado", y luego cambiar aleatoriamente la estructura de la oración y algunas palabras conservando el significado.

Estas frases significan lo mismo:

  • me gusta este tipo, es tan tonto.
  • Este tipo es estúpido, lo odio.
  • Desprecio a este tonto.
  • Es tonto, lo odio.

No sería trivial escribir un programa para transformar una de estas oraciones a las otras, y estas son oraciones simples, las oraciones reales de los blogs son mucho más complicadas.

9

Hubo un debate sobre Grok. Esto ahora se admite como OpenCCG, y se volverá a implementar en OpenNLP también.

Puede encontrar OpenCCG en http://openccg.sourceforge.net/. También sugeriría el analizador Curran y Clark CCG disponible aquí: http://svn.ask.it.usyd.edu.au/trac/candc/wiki

Básicamente, para parafrasear, lo que vas a tener que hacer es escribir algo que primero analiza oraciones de publicaciones de blogs, extrae el significado semántico de estos Publicaciones, y luego busca a través del espacio de palabras de vocabulario que composicionalmente crearán el mismo significado semántico, y luego escoge uno que no concuerde con la oración actual. Esto llevará mucho tiempo y puede que no tenga mucho sentido. No olvides que para hacer esto, necesitarás una resolución de anáfora casi perfecta y la capacidad de deducir inferencias a nivel de discurso.

Si solo busca hacer publicaciones de blog que no tengan contenido duplicado identificable por la máquina, siempre puede usar transformaciones de tema y enfoque y sinónimos de WordNet. Definitivamente, ha habido sitios que han hecho dinero con AdWords que lo han hecho antes.

Cuestiones relacionadas