He leído que HTMLAgility 1.4 es una gran solución para el raspado de una página web. Siendo un programador nuevo, espero poder obtener algo de información sobre este proyecto. Lo estoy haciendo como un formulario de solicitud C#. La página con la que estoy trabajando es bastante sencilla. La información que necesito está atrapada entre solo 2 etiquetas y . Mi objetivo es extraer los datos de Número de pieza, Manu-Número, Descripción, Manu-País, Última modificación, Última modificación Fuera de la página y enviar los datos a una tabla sql. Un giro es que también hay una pequeña foto de PNG que también debe ser tomada desde el código de SSR = "/ código de pieza/númeroRaspar una página web con C# y HTMLAgility
No tengo ningún código completado que funcione. Pensé que este código me diría si yo estoy dirigiendo en la dirección correcta. Incluso entrar en la depuración no puedo ver que se hace algo. Podría alguien posiblemente me punto en la dirección correcta en esto. Cuanto más detallada sea la mejor, ya que es evidente que tengo mucho que Gracias a aprender que realmente lo apreciaría
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using HtmlAgilityPack;
using System.Xml;
namespace Stats
{
class PartParser
{
static void Main(string[] args)
{
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml("http://localhost");//my understanding this reads the entire page in?
var tables = doc.DocumentNode.SelectNodes("//table");// I assume that this sets up the search for words containing table
}
catch (Exception ex)
{
Console.WriteLine(ex.Message);
Console.WriteLine(ex.StackTrace);
Console.ReadKey();
}
}
}
}
El código web es:..
<!DOCTYPE html
PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
<head>
<meta http-equiv="Content-Type" content="text/html;charset=UTF-8" />
<title>Part Number Database: Item Record</title>
<table class="data">
<tr><td>Part-Num</td><td width="50"></td><td><img src="/partcode/number/072140" alt="072140"/></td></tr>
<tr><td>Manu-Number</td><td width="50"></td><td><img src="/partcode/manu/00721408" alt="00721408" /></td></tr>
<tr><td>Description</td><td></td><td>Widget 3.5</td></tr>
<tr><td>Manu-Country</td><td></td><td>United States</td></tr>
<tr><td>Last Modified</td><td></td><td>26 Jan 2009, 8:08 PM</td></tr>
<tr><td>Last Modified By</td><td></td><td>Manu</td></tr>
</table>
<p>
</body>
</html>
Consulte mi respuesta si desea un código que funcione utilizando el código HTML que ha proporcionado. –