¿Es posible leer un archivo MSWord 2010 en R? Tengo Windows 7 y una PC Dell.lea un archivo MSWord en R
estoy usando la línea:
my.data <- readLines('c:/users/mark w miller/simple R programs/test_for_r.docx')
a tratar de leer un archivo de MS Word que contiene el siguiente texto:
A 20 1000 AA
B 30 1001 BB
C 10 1500 CC
me sale un mensaje de aviso que dice: Mensaje de
Advertencia : En readLines ("c:/users/mark w milller/simple R programs/test_for_r.docx"): línea final incompleta que se encuentra en 'c:/users/mark wm Iller programas de I/simples/test_for_r.docx'
y my.data
parece ser un galimatías:
# [1] "PK\003\004\024" "¤l" "ÈFÃË‹Átí"
Sé que con este ejemplo simple podría fácilmente convertir el archivo MS Word a un formato diferente. Sin embargo, mis archivos de datos actuales consisten en tablas complejas que se escribieron hace décadas y luego se escanearon en documentos PDF más adelante. La antigüedad del documento en papel original y tal vez las imperfecciones en el documento original, el proceso de mecanografía y/o escaneo han resultado en que algunas letras y números no sean muy claros. Hasta ahora, convertir los archivos pdf a MSWord parece ser el más exitoso para traducir correctamente las tablas. Convertir los archivos de MSWord a Excel o texto enriquecido, etc., no ha sido muy exitoso. Incluso después de la conversión a MSWord, los archivos resultantes son muy complejos y contienen numerosos errores. Pensé que si podía leer los archivos de MSWord en R podría ser la manera más eficiente de editarlos y corregirlos.
Conozco el 'paquete tm' que supongo que puede leer archivos MSWord en R, pero estoy un poco preocupado por su uso porque parece requerir la instalación de un software de terceros.
Gracias por cualquier sugerencia.
Por lo que sé, la lectura de archivos de MS Word va a requerir la instalación de algún paquete de CRAN. ¿Por qué te preocupa instalar software de terceros? –
El paquete tm proporciona la función readDOC(). Esto requiere la instalación de una herramienta externa (no R) llamada antiword. Sin embargo, creo que el paquete/herramienta solo lee archivos de Word hasta la versión 2003 y no maneja archivos .docx. readLines() tampoco es la solución correcta; requiere texto ASCII simple como entrada. – neilfws
¿Qué sucede si guarda la palabra documento como 'html' y luego usa un paquete de raspado web (por ejemplo' XML' o 'RCurl') para extraer el texto? – mnel