Actualmente estoy explorando la posibilidad de extraer nombre del país de Afiliaciones de los autores (PubMed Artículos) mis datos de la muestra se ve así:Extracción Nombre País de Afiliaciones de los autores
Mechanical and Production Engineering Department, National University of Singapore.
Cancer Research Campaign Mammalian Cell DNA Repair Group, Department of Zoology, Cambridge, U.K.
Cancer Research Campaign Mammalian Cell DNA Repair Group, Department of Zoology, Cambridge, UK.
Lilly Research Laboratories, Eli Lilly and Company, Indianapolis, IN 46285.
Inicialmente traté de eliminar las puntuaciones y dividir el vector en palabras y luego lo comparé con una lista de nombres de países de Wikipedia, pero no tengo éxito en esto.
¿Alguien me puede sugerir por favor una mejor manera de hacerlo? Preferiría la solución en R
ya que tengo que hacer más análisis y generar gráficos en R
.
Puede que sea mejor si preprocesa el archivo fuera de R, lo guarda como CSV y luego usa R para el resto. Google Refine es una gran herramienta para este tipo de trabajo. – edmz
'Google Refine' también funciona bien! ¡Gracias por la sugerencia! –