¿Hay algún paquete para R que permita consultar Wikipedia (probablemente utilizando Mediawiki API) para obtener una lista de artículos disponibles relevantes para dicha consulta, así como para importar artículos seleccionados para minería de texto?¿Cómo acceder a Wikipedia desde R?
Respuesta
Utilice el paquete RCurl
para recuperar información, y los paquetes XML
o RJSONIO
para analizar la respuesta.
Si está detrás de un proxy, establezca sus opciones.
opts <- list(
proxy = "136.233.91.120",
proxyusername = "mydomain\\myusername",
proxypassword = 'whatever',
proxyport = 8080
)
utilizar la función getForm
acceder a the API.
search_example <- getForm(
"http://en.wikipedia.org/w/api.php",
action = "opensearch",
search = "Te",
format = "json",
.opts = opts
)
Analizar los resultados.
fromJSON(rawToChar(search_example))
Tengo problemas con el uso de esto para algunos términos de búsqueda, pero sospecho que es un problema con la red en la que estoy. Necesito voluntarios para verificar el código de muestra con diferentes cadenas en el parámetro 'search'. –
Hay WikipediR
, 'Una envoltura API MediaWiki en I'
library(devtools)
install_github("Ironholds/WikipediR")
library(WikipediR)
Incluye las siguientes funciones:
ls("package:WikipediR")
[1] "wiki_catpages" "wiki_con" "wiki_diff" "wiki_page"
[5] "wiki_pagecats" "wiki_recentchanges" "wiki_revision" "wiki_timestamp"
[9] "wiki_usercontribs" "wiki_userinfo"
aquí está en uso, consiguiendo los detalles de contribución y de usuario detalles para un grupo de usuarios:
library(RCurl)
library(XML)
# scrape page to get usernames of users with highest numbers of edits
top_editors_page <- "http://en.wikipedia.org/wiki/Wikipedia:List_of_Wikipedians_by_number_of_edits"
top_editors_table <- readHTMLTable(top_editors_page)
very_top_editors <- as.character(top_editors_table[[3]][1:5,]$User)
# setup connection to wikimedia project
con <- wiki_con("en", project = c("wikipedia"))
# connect to API and get last 50 edits per user
user_data <- lapply(very_top_editors, function(i) wiki_usercontribs(con, i))
# and get information about the users (registration date, gender, editcount, etc)
user_info <- lapply(very_top_editors, function(i) wiki_userinfo(con, i))
- 1. ¿Cómo acceder a FileTables desde Entity Framework?
- 2. Cómo acceder a ApplicationContext desde un controlador
- 3. Cómo acceder a Seconds_Behind_Master desde SQL
- 4. Cómo acceder a una variable de entorno fiesta desde dentro de R en emacs-ess
- 5. accediendo a R desde SAS
- 6. Acceder a Gmail desde Java
- 7. ¿Cómo funciona el "enlace de Wikipedia" de Wikipedia?
- 8. ¿Existe una buena API R para acceder a Google Docs?
- 9. ¿Hay alguna API en Java para acceder a los datos de wikipedia?
- 10. ¿Puedo acceder a una cookie desde Socket.io?
- 11. ¿Cómo rastrear toda la Wikipedia?
- 12. ¿Cómo obtengo un enlace a una imagen en la wikipedia desde el cuadro de información?
- 13. Cómo acceder a los servicios SOAP desde el iPhone
- 14. ¿Cómo acceder a la cámara web desde HTML5?
- 15. ¿Cómo acceder a los valores de usercontrol desde la página?
- 16. ¿Cómo acceder a la versión de una gema desde Ruby?
- 17. ¿Cómo acceder a un Resource.resx desde la página ASP.NET?
- 18. Cómo acceder a una variable desde la clase interna
- 19. ¿Cómo acceder a Subversion desde Oracle PL/SQL?
- 20. ¿Cómo acceder a un cuadro de texto HTML desde javascript?
- 21. ¿Cómo acceder a una variable global de Python desde C?
- 22. ¿Cómo acceder a una función de matlab desde código java?
- 23. ¿Cómo acceder a las variables de Oracle Apex desde Javascript?
- 24. cómo acceder a scriptData desde uploadify en asp.net Controlador MVC
- 25. ¿Cómo acceder a javax.faces.PROJECT_STAGE desde el código de vista/interior?
- 26. Cómo acceder a las cookies desde ApplicationController (Rails)
- 27. ¿Cómo acceder a un servicio web PHP desde ASP.Net?
- 28. ¿Cómo acceder a current_user desde una notificación de Rails?
- 29. Cómo acceder a archivos HTML desde ASP.NET MVC VIEWS Carpeta
- 30. Cómo acceder a MySQL desde múltiples hilos simultáneamente
Puede encontrar lo siguiente útil: http://www.ragtag.info/2011/feb/10/processing-every-wikipedia-article/ – James