Por lo tanto, el sitio web cambia constantemente los datos que muestra, y quiero obtener esos datos cada varios segundos y registrarlos en una hoja de cálculo. El problema es que para acceder a la página, tengo que tener una cookie que obtengo cuando inicio sesión. Desafortunadamente, solo sé cómo programar en MATLAB. MATLAB tiene una función para esto, urlread, pero no se ocupa de las cookies. ¿Qué puedo hacer para llegar a esa página? Puede alguien ayudarme con esto? Apúntame en una dirección donde un novato de programación como yo puede tener éxito, por favor.Obtener datos del sitio web
Respuesta
Puede usar wget
para descargar contenido y utilizarlas cookies HTTP. Utilizaré StackOverflow.com como objetivo de ejemplo. Estos son los pasos a seguir:
1) Obtenga la herramienta de comando wget
. Para Mac o Linux, creo que ya está disponible. En Windows, puede obtenerlo desde GnuWin32 project o desde uno de los muchos otros puertos (Cygwin, MinGW/MSYS, etc.).
2) A continuación tenemos que obtener una cookie autenticada iniciando sesión en el sitio web en cuestión. Puede usar su navegador preferido para esto.
En Internet Explorer, puede producirlo usando "Menú Archivo> Importar y exportar> Exportar cookies". En Firefox, utilicé la extensión Cookie Exporter para exportar cookies al archivo de texto. Para Chrome, debe haber similar extensions
Obviamente, solo necesita hacer este paso una vez, ¡siempre y cuando las cookies no hayan expirado!
3) Una vez que encuentre el archivo de cookie exportado, podemos usar wget para buscar la página web y provide it con esta cookie. Por supuesto, esto se puede realizar desde el interior de MATLAB usando la función SYSTEM:
%# fetch page and save it to disk
url = 'http://stackoverflow.com/';
cmd = ['wget --cookies=on --load-cookies=./cookies.txt ' url];
system(cmd, '-echo');
%# process page: I am simply viewing it using embedded browser
web(['file:///' strrep(fullfile(pwd,'index.html'),'\','/')])
de análisis de la página web es un tema totalmente distinto que no voy a entrar. Una vez que obtenga los datos que busca, puede interactuar con hojas de cálculo de Excel utilizando las funciones XLSREAD y XLSWRITE.
4) Finalmente, puede escribir esto en una función, y hacer que se ejecutan en regular intervals usando la función TIMER
Trate de usar el java.net. * Clases.
Usted debe ser capaz de utilizarlas directamente en el espacio de trabajo de MATLAB, tal como se describe aquí: http://www.mathworks.co.uk/help/techdoc/matlab_external/f4863.html
Matlab se ha incorporado en funciones para la descarga web. Para los sitios http, hay webread.m y websave.m. Para los FTP, hay mget.m
- 1. Obtener datos del sitio web en Adobe InDesign
- 2. obtener valor de la etiqueta del cuerpo del sitio web
- 3. ¿Manera "inteligente" de analizar y usar datos del sitio web?
- 4. ¿Obtener la URL del sitio web desde Application_Start?
- 5. Cómo obtener el título del sitio web de C#
- 6. Obtener el favicon del sitio web con JS
- 7. Obtener la raíz del sitio web de NSString o NSUrl
- 8. obtener el sitio web ip usando php
- 9. Ingresar al sitio web con la extensión de Chrome y obtener datos del mismo
- 10. Selección del idioma del sitio web
- 11. Sistema de insignia del sitio web
- 12. Mapa del sitio en un sitio web altamente dinámico
- 13. Ralentización de spidering del sitio web
- 14. ¿Podemos medir la complejidad del sitio web?
- 15. Ticketing escalable/sitio web del festival
- 16. Despliegue del sitio web en Amazon AWS
- 17. ¿Vista previa del sitio web de Javascript?
- 18. Optimización del sitio web de PHP
- 19. Carpeta diferente como subcarpeta del sitio web
- 20. , anulando funciones del sitio web de Greasemonkey
- 21. Imprimir automáticamente la imagen del sitio web
- 22. Revisión del sitio web Aplicación/Interfaz
- 23. Seguridad del sitio web: ¿cómo aprender?
- 24. ¿Cómo leer el contenido del sitio web en C#?
- 25. ¿Cómo obtener toda la información del cliente de los visitantes del sitio web?
- 26. Obtener los contenidos del portapapeles del cliente como este sitio web
- 27. Cómo obtener la URL base de un sitio web externo
- 28. Proyectos del sitio web vs Aplicación web: ¿cuál es mejor?
- 29. Solución de análisis web para el creador del sitio web
- 30. obtener miniaturas de un sitio web desde sus direcciones URL
+1 o Apache Commons HTTPClient, que puede ser más conveniente para trabajar con cookies. Una versión anterior se redistribuye con Matlab, y puede obtener versiones más recientes con 'javaclasspath' con la suficiente facilidad. Hemos utilizado este enfoque en Matlab para el acceso web que necesita sesiones o certificados. –