2011-08-17 42 views
5

Así que aquí está mi problema. Tengo dos párrafos de texto y necesito ver si son similares. No en el sentido de métricas de cuerdas sino en significado. Los dos párrafos siguientes están relacionados, pero debo averiguar si cubren el "mismo" tema. Cualquier ayuda o dirección para resolver este problema sería muy apreciada.Comparando dos cadenas en inglés para similitudes

Los combustibles fósiles son combustibles formados por procesos naturales como la descomposición anaeróbica de organismos muertos enterrados. La edad de los organismos y sus combustibles fósiles resultantes es típicamente de millones de años, y a veces supera los 650 millones de años. Los combustibles fósiles, que contienen altos porcentajes de carbono, incluyen carbón, petróleo y gas natural. Los combustibles fósiles van desde materiales volátiles con bajo contenido de carbono: hidrógeno relaciones como el metano, a petróleo líquido a materiales no volátiles compuesto de carbono casi puro, como el carbón de antracita. El metano puede ser que se encuentra en los campos de hidrocarburos, solo, asociado con el petróleo, o en la forma de los clatratos de metano. En general se acepta que formaron a partir de los restos fosilizados de plantas muertas por exposición al calor y de presión en la corteza terrestre durante millones de años. Esta teoría biogénica fue presentada por primera vez por Georg Agricola en 1556 y más tarde por Mikhail Lomonosov en el siglo XVIII.

Segundo: reformar

combustible fósil es un método de producción de hidrógeno u otros productos útiles a partir de combustibles fósiles tales como el gas natural. Esto es logrado en un dispositivo de procesamiento llamado reformador que reacciona a vapor a alta temperatura con el combustible fósil. El reformador de metano de vapor es ampliamente utilizado en la industria para fabricar hidrógeno. También hay interés en el desarrollo de unidades mucho más pequeñas basadas en tecnología similar a produce hidrógeno como materia prima para las células de combustible. Las unidades reformadoras de vapor a pequeña escala para el suministro de celdas de combustible son actualmente objeto de investigación y desarrollo , que generalmente implican la reforma del metanol o gas natural, pero también se consideran otros como propano, gasolina, autogás, combustible diesel, y etanol.

Respuesta

3

En general, creo que esto sigue siendo un problema abierto. El procesamiento del lenguaje natural sigue siendo un campo naciente y aunque podemos hacer algunas cosas realmente bien, todavía es extremadamente difícil hacer este tipo de clasificación y categorización.

No soy un experto en PNL, pero es posible que desee consultar these lecture slides que analizan el análisis del sentimiento y la detección de autoría. Las técnicas que puede utilizar para hacer el tipo de comparación de texto que ha sugerido están relacionadas con las técnicas que utilizaría para los análisis mencionados anteriormente, y es posible que este sea un buen punto de partida.

Espero que esto ayude!

5

Eso es una tarea difícil. Si yo fuera tú, comenzaría a leer sobre el procesamiento del lenguaje natural. NLP es un campo bastante amplio; recomendaría mirar específicamente las cosas mencionadas en el artículo de Wikipedia Text Analytics "Processes" section.

Creo que si utiliza information retrieval, y sentiment analysis, debe estar en buen camino.

2

También puede consultar el modelo de asignación latente de Dirichlet (LDA) en aprendizaje automático. La idea es encontrar una representación de baja dimensión de cada documento (o párrafo), simplemente como una distribución sobre algunos 'temas'. El modelo está entrenado de manera no supervisada mediante una colección de documentos/párrafos.

Si ejecuta LDA en su colección de párrafos, al observar la similitud del vector de temas ocultos, puede encontrar si dos párrafos están relacionados o no.

Por supuesto, la línea de base es no usar el LDA, y en su lugar usar el término frecuencias (aumentado con tf/idf) para medir similitudes (modelo de espacio vectorial).