¿Cómo se analizan inteligentemente los datos devueltos por los resultados de búsqueda en una página?¿Manera "inteligente" de analizar y usar datos del sitio web?
Por ejemplo, digamos que me gustaría crear un servicio web que busque libros en línea mediante el análisis de los resultados de búsqueda de muchos sitios web de proveedores de libros. Pude obtener los datos HTML sin formato de la página y hacer algunas expresiones regulares para que los datos funcionen para mi servicio web, pero si alguno de los sitios web cambia el formato de las páginas, mi código se rompe.
RSS es de hecho una opción maravillosa, pero muchos sitios no tienen una búsqueda basada en XML/JSON.
¿Hay kits que ayuden a diseminar información en páginas automáticamente? Una idea loca sería tener un módulo de IA difusa reconocer patrones en una página de resultados de búsqueda, y analizar los resultados en consecuencia ...
con respecto al idioma, estoy avanzado en php, pero estoy dispuesto a utilizar asp.net si es necesario. ¡Gracias por todas las respuestas! – bluebit
Una buena expresión regular puede ser sorprendentemente flexible y tolerante en uso. Una buena técnica es hacer coincidir un área * antes de * un elemento de datos, luego colocar los datos en un grupo de captura con un cuantificador perezoso, luego unir un área * después * de los datos. Si define las coincidencias antes/después de una manera flexible, puede manejar los cambios en el formato muy bien. www.regular-expressions.info ofrece algunas buenas explicaciones sobre esta y otras técnicas. – BobMcGee