He buscado muchos temas pero no parece encontrar la respuesta para mi pregunta específica. He creado una araña de rastreo para un sitio web y funciona perfectamente. Luego hice uno similar para rastrear un sitio web similar, pero esta vez tengo un pequeño problema. Debajo de la empresa:Cómo incluir la url de inicio en la regla "permitir" en SgmlLinkExtractor utilizando una araña scrapy crawl
mi url de inicio tiene el siguiente aspecto: www.example.com. La página contiene los enlaces que quieren aplicar mi araña parezca:
- www.example.com/locationA
- www.example.com/locationB
- www.example.com/locationC
...
ahora tengo un problema: Cada vez que entro en la URL de inicio, se redirige a www.example.com/locationA automáticamente y todos los enlaces que consiguió incluir mi trabajo araña
- www.example.com/locationB
- www.example.com/locationC ...
Así que mi problema es cómo puedo incluir la www.example.com/locationA en la URLs.I vuelto incluso consiguió la información de registro como:
-2011-11-28 21: 25: 33 + 1300 [example.com] DEBUG: Redirigir (302) a partir de http: //www.example. com />
-2011-11-28 21:25: 34 + 1300 [example.com] DEBUG: Redirección (302) a (árbitro: Ninguno)
- 2011-11-28 21: 25: 37 + 1300 [example.com] DEBUG: Redirigir (302) a (árbitro: www.example.com/locationB)
de impresión hacia fuera de parse_item: www.example.com/locationB
....
creo que el problema podría estar relacionado con que (referer: ninguno) de alguna manera. ¿Podría alguien por favor arrojar algo de luz sobre esto?
He reducido este problema cambiando la URL de inicio a www.example.com/locationB. Puesto que todas las páginas contienen las listas de todos los lugares, esta vez me dieron mi araña trabaja en:
-www.example.com/locationA
-www.example.com/locationC ...
En una cáscara de nuez, estoy buscando la manera de incluir la URL que es igual a (o ser redirigido desde) la url de inicio en la lista que la devolución de llamada parse_item funcionará.
¿Podría incluir un breve ejemplo de su raspador para ayudarnos a entender su problema con más detalle? – jsalonen