Estoy tratando de recuperar los contenidos de la tabla desde una página web. Yo necesito el contenido pero no las etiquetas <tr></tr>
. Ni siquiera necesito "tr" o "td" solo el contenido. por ejemplo:Eliminar etiquetas html en sed o similar
<td> I want only this </td>
<tr> and also this </tr>
<TABLE> only texts/numbers in between tags and not the tags. </TABLE>
También me gustaría poner la primera salida de la columna como este en un nuevo archivo csv column1, info1, info2, info3 coumn2, info1, info2, info3
He intentado SED para borrar los patrones <tr>
<td>
pero cuando busco la tabla también hay otras etiquetas como <color>
<span>
etc. por lo que quiero eliminar todas las etiquetas; en resumen, todo con < y>.
¿Qué tan regular es el contenido? Es posible que pueda usar ['lynx'] (http://lynx.browser.org/) para tomar la página y convertirla en texto y luego analizar el texto sin formato. Difícil de decir sin más detalles, raspado de pantalla tiende a ser una elección entre varios hacks feos. –
bien esto resolvió el primer problema ** sed-e 's/<.*> // g' entrada **. y al comentario anterior, borré las páginas y solo raspé la parte de la mesa. por lo que el archivo contiene solo etiquetas y datos de tabla limpios. algo así como una rutina de tabla de tiempo de examen. – user913492