Me preguntaba si es posible extraer sustantivos, verbos por separado en el paquete R openNLP? Utilizo la función tagPOS que etiqueta la oración, pero qué hacer en caso de que quiera extraer verbos, nombres por separado.Extracción de sustantivos y verbos del texto
6
A
Respuesta
9
Utilizando un ejemplo: (esto es extraer palabras en la categoría/VBx, donde x es cualquier carácter individual)
library("openNLP")
acq <- "Gulf Applied Technologies Inc said it sold its subsidiaries engaged in pipeline and terminal operations for 12.2 mln dlrs. The company said the sale is subject to certain post closing adjustments, which it did not explain. Reuter."
acqTag <- tagPOS(acq)
sapply(strsplit(acqTag,"[[:punct:]]*/VB.?"),function(x) sub("(^.*\\s)(\\w+$)", "\\2", x))
[,1]
[1,] "said"
[2,] "sold"
[3,] "engaged"
[4,] "said"
[5,] "is"
[6,] "did"
[7,] " not/RB explain./NN Reuter./."
Ok, mi expresión regular necesita algunas mejoras con el fin de deshacerse de la última línea en el resultado.
EDITAR
Una alternativa podría ser hacer caso omiso de filas que contiene un carácter space
sapply(strsplit(acqTag,"[[:punct:]]*/VB.?"),function(x) {res = sub("(^.*\\s)(\\w+$)", "\\2", x); res[!grepl("\\s",res)]})
Cuestiones relacionadas
- 1. Contar verbos, sustantivos y otras partes del discurso con python's NLTK
- 2. Listas de palabras separadas para sustantivos, verbos, adjetivos, etc.
- 3. Convenciones de nomenclatura: pautas para verbos/sustantivos y uso de la gramática inglesa
- 4. Extracción de características semánticas/estilísticas del texto
- 5. extracción de texto Itextsharp
- 6. Jsoup - la extracción de texto
- 7. Java - PDFBox - Extracción de texto
- 8. NLTK piensa que los imperativos son sustantivos
- 9. MVC3 REST Rutas y verbos Http
- 10. Extracción de texto de HTML Java
- 11. Servicios web RESTful y verbos HTTP
- 12. RegEx juego etiquetas HTML y la extracción de texto
- 13. extracción Plazo: Generatings etiquetas fuera de texto
- 14. Parse out verbos compuestos
- 15. Extracción simple de texto PDF en Android?
- 16. ASP.NET Manejar verbos PUT/DELETE
- 17. Powershell Recibir vs Obtener verbos
- 18. verbos REST: convención es "correcta"
- 19. ¿Hay una base de datos, API o texto analizable para obtener conjugaciones de verbos?
- 20. Git: extracción automática del repositorio?
- 21. Extracción del elemento del mapa por valor
- 22. Método de extracción de texto PDF mediante OCR
- 23. ¿Cómo puedo manejar el texto arbitrario como "sustantivos" en Inform 7?
- 24. Extracción de datos del cuadro de texto de varios archivos de Microsoft Word
- 25. Limitación de verbos HTTP en cada acción
- 26. Windsor: extracción de objetos transitorios del contenedor
- 27. Establecer texto y obtener texto del portapapeles
- 28. Extracción de texto corporal de sitios web, p. extraer solo el encabezado del artículo y el texto no todo el texto en el sitio
- 29. Extracción de efectos aleatorios del resumen nlme
- 30. Extracción de la url de texto usando java
Gracias! gd047 :) funciona ... Estuve a punto de utilizar sapply para extraer pero no pude encontrar la forma de hacerlo. Gracias. –