Estoy tratando de obtener la información de contacto en las páginas de contenido de un conjunto de sitios web (miles de ellos). Quería preguntarles a expertos como ustedes antes de rascarme la cabeza. Todo lo que necesito es la dirección, las identificaciones de correo electrónico, los números de teléfono y la información de la persona de contacto, si está disponible.Algoritmos de cadena de búsqueda
Creo que ya comprende el problema. Sí, es el formato ... ya que no existe un formato estándar que los sitios web sigan, es realmente difícil precisar la información exacta que necesito. Algunos sitios web están diseñados con páginas de contacto rápido y otros sitios web diseñaron la información de contacto como tipos de imágenes con fuentes personalizadas.
y sugerencias/ideas/sugerencias son en su mayoría de bienvenida ...
Gracias ....
¿Te importaría compartir lo que vas a hacer con esta información? Es más probable que las personas te ayuden si no creen que están ayudando a un spammer. –
No soy spammer :-) Admiro tu preocupación ... Tengo la intención de desarrollar un sitio web como una wiki empresarial con muchas opciones de filtrado que ayuden tanto a empresas como a clientes. – Krishna
quieres hacer IR, toma una mira a Lucene, es realmente poderoso. – JohnJohnGa