Searcharoo.NET contiene una araña que rastrea e indexa el contenido, y un motor de búsqueda para usarlo. Debería poder orientarse en el código Searcharoo.Indexer.EXE para atrapar el contenido tal como se descarga y agregar su propio código personalizado desde allí ...
Es muy básico (se incluye todo el código fuente, y se explica en seis artículos de CodeProject, el más reciente de los cuales está aquí Searcharoo v6): la araña sigue enlaces, imágenes, imágenes, obedece a las directivas ROBOTS, analiza algunos tipos de archivos que no son HTML. Está destinado a sitios web únicos (no a toda la web).
Nutch/Lucene es casi seguro una solución más robusta/de grado comercial, pero no he revisado su código. No estoy seguro de lo que quiere lograr, pero ¿también ha visto Microsoft Search Server Express?
Descargo de responsabilidad: soy el autor de Searcharoo; solo ofreciéndolo aquí como una opción.
Puede usar crawler4j si está de acuerdo con el uso de java. Aquí hay una guía paso a paso para configurar crawler4j junto con el fragmento de código para extraer imágenes, enlaces y correos electrónicos usando eso: http://www.buggybread.com/2013/01/create-your-own-email-and- image.html –