Construir un motor de comparación de compras y necesito construir un motor de rastreo para realizar el proceso de recopilación de datos diarios.Cualquier buen marco de rastreo de Web de código abierto en C#
He decidido construir el rastreador en C#. Tengo mucha mala experiencia con HttpWebRequest/HttpWebResponse Classes y se sabe que son muy problemáticos e inestables para rastreos grandes. Así que he decidido NO construir sobre ellos. Incluso en el marco 4.0 tienen problemas.
Hablo según mi propia experiencia personal.
Me gustaría recibir las opiniones de los expertos que han estado codificando rastreadores, si conocen algún buen framework de código abierto, como java tiene nutch y apache commons que son bibliotecas muy estables y altamente robustas.
Si hay algunos frameworks de rastreo ya existentes en C#, procederé y construiré mi aplicación encima de ellos.
Si no, planeo extender esta solución desde el proyecto de código y extenderla.
http://www.codeproject.com/KB/IP/Crawler.aspx
Si alguno me puede sugerir un mejor camino, estaré muy agradecido.
EDITAR: Algunos sitios que tengo que rastrear renderizan la página usando scripts Java muy complejos, ahora esto agrega más complejidad a mis rastreadores web ya que necesito poder rastrear las páginas renderizadas por JavaScript. Si alguien ha usado cualquier biblioteca en C# que pueda rastrear javascript renderizado, por favor, comparta. He usado watin que no prefiero y también sé sobre selenio. Si conoce algo más que estos, por favor, comparta conmigo y la comunidad.
¿Cómo funciona HttpWebRequest buggy? – SLaks
'SELECCIONAR' no está roto. – neo2862
http://htmlagilitypack.codeplex.com/ –