estoy usando la biblioteca feedparser en Python para recuperar las noticias de un periódico local (mi intención es hacer el Procesamiento del Lenguaje Natural sobre este corpus) y le gustaría ser capaz de recuperar muchas pasado entradas de la fuente RSS.feedparser - recuperar los mensajes antiguos de Google Reader
No estoy muy familiarizado con los problemas técnicos de RSS, pero creo que esto debería ser posible (puedo ver que, por ejemplo, Google Reader y Feedly pueden hacer esto 'a pedido' mientras muevo la barra de desplazamiento)
Cuando hago lo siguiente:
import feedparser
url = 'http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml'
feed = feedparser.parse(url)
for post in feed.entries:
title = post.title
consigo sólo una docena de entradas o menos. Estaba pensando en cientos. Tal vez todas las entradas en el último mes, si es posible. ¿Es posible hacer esto solo con feedparser?
tengo la intención de obtener de la fuente RSS sólo el enlace a la noticia y analizar la página completa con BeautifulSoup para obtener el texto que quiero. Una solución alternativa sería un rastreador que siga todos los enlaces locales en la página para obtener muchas noticias, pero quiero evitar eso por el momento.
-
Una solución que apareció es el uso de la caché de Google Reader RSS:
Sin embargo, para acceder a este que debe estar conectado a Google Reader. ¿Alguien sabe cómo lo hago desde Python? (Realmente no sé nada de web, generalmente solo me meto con el cálculo numérico).
Gracias de nuevo Bartek. Creo que lo entiendo mejor ahora. ¿Entonces el RSS es simplemente un archivo xml almacenado en el servidor? Tenía la imagen equivocada al respecto ... pensé que era una especie de "protocolo" para obtener un mensaje de texto. Gracias de nuevo. –