Se me ha asignado la tarea de rozar la pantalla de una de nuestras aplicaciones web heredadas para extraer ciertos datos del código. Los datos están formateados y "debería" mostrarse exactamente igual cada vez. Simplemente no estoy seguro de cómo hacerlo. Es un archivo html completo con navegaciones de encabezado y pie de página, pero en el medio de todo esto están los datos que necesito.Screen Scraping HTML with C#
necesito para extraer el valor Nombre de la empresa, nombre de contacto, teléfono, dirección de correo electrónico, etc.
Aquí hay un ejemplo de lo que el código es el siguiente:
...html above here
<br /><br />
<table cellpadding="0" cellspacing="12" border="0">
<tr>
<td valign="top" align="center">
<!-- Company Info -->
<table cellpadding="0" cellspacing="0" border="0">
<tr>
<td class="black">
<table cellspacing="1" cellpadding="0" border="0" width="370">
<tr>
<th>ABC INDUSTRIES</th>
</tr>
<tr>
<td class="search">
<table cellpadding="5" cellspacing="0" border="0" width="100%">
<tr>
<td>
<table cellpadding="1" cellspacing="0" border="0" width="100%">
<tr>
<td align="center" colspan="2"><hr></td>
</tr>
<tr>
<td align="right" nowrap><b><font color="FF0000">Contact Person <img src="/images/icon_contact.gif" align="absmiddle"> :</font></b></td>
<td align="left" width="100%"> Joe Smith</td>
</tr>
<tr>
<td align="right" nowrap><b><font color="FF0000">Phone Number <img src="/images/icon_phone.gif" align="absmiddle"> :</font></b></td>
<td align="left" width="100%"> 555-555-5555</td>
</tr>
<tr>
<td align="right" nowrap><b><font color="FF0000">E-mail Address <img src="/images/icon_email.gif" align="absmiddle"> :</font></b></td>
<td align="left" width="100%"> <a HREF="mailto:[email protected]">[email protected]</a></td>
</tr>
more...
Hay más código en la pantalla en una estructura de tabla diferente que también necesito extraer.
Si el HTML está bien formateado en XML, debería ser muy fácil colocar el texto en un documento XML y obtener las piezas que necesita con XPath o XSL. – Juliet