2009-06-17 11 views
5

API de finanzas de Google es incompleta - muchas de las figuras en una página como:La obtención de los datos financieros de Google Finanzas que está fuera del alcance de la API

http://www.google.com/finance?fstype=ii&q=NYSE:GE

no están disponibles a través de la API.

Necesito estos datos para clasificar las empresas en las bolsas de valores de Canadá de acuerdo con la fórmula de Greenblatt, disponible a través de la búsqueda en google de "escaneos de índice greenblatt".

Mi pregunta: ¿cuál es la forma más inteligente/limpia/eficiente de acceder y procesar los datos en estas páginas web. ¿Es el enfoque tedioso realmente necesario en este caso, y si es así, cuál es la mejor manera de hacerlo? Actualmente estoy aprendiendo Python para proyectos relacionados con este.

Respuesta

4

Puede intentar pedirle a Google que proporcione las API faltantes. De lo contrario, está atrapado con screen scraping, que nunca es divertido, propenso a romperse sin previo aviso, y probablemente en violación de los términos de servicio de Google.

Pero, si aún desea escribir un raspador de pantalla, es difícil superar una combinación de mechanize y BeautifulSoup. BeautifulSoup es un analizador HTML y mechanize es un navegador web basado en Python que te permitirá iniciar sesión, almacenar cookies y, en general, navegar como cualquier otro navegador web.

0

Raspar las páginas web siempre chupa, pero yo recomendaría la conversión a XML (vía ordenada o algún otro HTML -> programa de XML). Y luego usando XPath para caminar por los nodos que están interesados ​​en

3

BeautifulSoup sería ser el método preferido de análisis HTML con Python

¿Ha buscado opciones además de Google (por ejemplo, la API de Yahoo Finance)?

+0

Gracias, veré BeautifulSoup. Tiene razón en que Yahoo Finance API es más completo; desafortunadamente, Yahoo no cuenta con los datos necesarios en lo que respecta a las acciones canadienses. – Marco

Cuestiones relacionadas