Necesito tomar algo de contenido de una página HTML (XHTML válida). Agarro la página usando curl y la guardo en la memoria.Parse html usando C
Jugué con la idea de usar regex con la biblioteca PCRE, pero simplemente no encontré ningún ejemplo para usarlo con C. Luego pasé a analizar analizadores HTML y nuevamente no hay una buena selección. Todo lo que pude encontrar fue un módulo escaso documentado para libxml llamado HTMLparser.
¿Hay alguna alternativa? Si no, ¿hay ejemplos de lo que ya encontré?
enlace obligatorio a la advertencia contra el análisis de HTML con expresiones regulares: http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454 # 1732454 – moopet
Consulte el siguiente enlace Anoté toda la solución utilizando la biblioteca libxml2 C para la plataforma de Windows. http://stackoverflow.com/questions/5465965/how-can-libxml2-be-used-to-parse-data-from-xml/38826052#38826052 –