2010-11-24 15 views
40

Tengo varios sitios web, y no recuerdo dónde escribí algunas líneas de código. Como mis páginas están indexadas por Google, me gustaría saber si Google ofrece una función para buscar dentro del código fuente HTML/mark-up, en lugar de solo permitiendo la búsqueda dentro de la parte visual, renderizada, de una página?¿Buscar en fuente html con GOOGLE?

Gracias

+0

¿El código está en el lado del cliente o en el servidor? – mjimcua

+0

muy fácil con http://nerdydata.com –

Respuesta

-7

Algunos línea de código en su página web (si la escritura no en el cliente final) no es visible para Google cuando se rastrea su sitio web. ¿Cómo encontrará google algo en su código php cuando acceda a los resultados de trabajo del código del sitio?

http://google.com/codesearch buscará fuentes disponibles públicamente, por lo que si almacena sus fuentes en github por ejemplo, lo encontrará.

+0

Pensé en la parte html, generada por un script php o estático, esto es a lo que google tiene acceso como todos los humanos ... – Entretoize

29

Hay un nuevo motor de búsqueda llamado NerdyData que le permite buscar en HTML/CSS/JS código fuente

Ellos índice de más de 160 millones de dominios públicos y he encontrado los datos útiles.

+1

En mi caso, el motor del sitio está goteando URL privadas de un dominio particular * (estoy seguro de que no proviene de los usuarios) *. ¿Cómo puedo buscar en el origen de un único dominio? * (para averiguar de dónde proviene la fuga) * – user2284570

+4

Dado que OP solicitó una función de sintaxis de Google para buscar en HTML, supongo que estaban buscando una gratis. NerdyData ya no es o no es. –

+2

@jj_, gracias por señalar eso. Era un servicio gratuito cuando publiqué el enlace en 2013. –

3

Google no puede buscar en su código del sitio. Yoy puede usar http://nerdydata.com/ ¡Es el mejor motor de búsqueda de códigos que he usado! Creo que obtendrá su código exacto de este sitio.

-2

También puedes probar meanpath para buscar dentro del código fuente HTML. Aunque es una herramienta comercial, te permite evaluar su servicio. A noviembre de 2014, afirma tener páginas indexadas en 141,670,458 dominios en vivo.

19

me he encontrado con los siguientes recursos en mis viajes (algunos ya mencionados anteriormente):

motores de búsqueda se centraron-Mark-up HTML

También me gustaría agregar lo siguiente:

enormes, el sitio web de rastreo de archivos de datos

El '115m' Meanpath website URL crawl article Destacados usos de Common Crawl's URL Index (junto a otra URL datos).

¿Cómo podemos analizar estos datos de rastreo?

Para tener una idea de cómo comenzar a analizar algunos de estos datos masivos, échele un vistazo a Big Data/Map-reduce-type frameworks(s).

Google lists some ideas on using Apache's Spark project para analizar Common Crawl's dump(s).Para entender the file format(s) used by Common Crawl, se refieren a lo siguiente:

El artículo, Accessing-Common-Crawl-Dataset-on-S3, esquemas acceso Common Crawl's 250TB+ dump(s) de una manera de bajo coste sin la transferencia que carga datos fuera de La red AWS/S3 de Amazon. Por supuesto, eso supone que es va a utilizar alguna combinación AWS/EC2/S3 etc. para analizar los datos de rastreo.

Finalmente, Patrick Durusau mantiene some interesting Common-Crawl-usage-related blog pages.

Personalmente, encuentro este tema intrigante, sugiero que obtenga esta información mientras está ¡CALIENTE! ;-)

+0

En mi caso, el motor del sitio está filtrando direcciones privadas de un dominio particular * (estoy seguro de que no proviene de los usuarios) *. ¿Cómo puedo buscar en el origen de un único dominio?* (para saber de dónde viene la fuga) * – user2284570

+0

Suponiendo que tiene acceso a una consola Bash tipo Unix (pruebe 'Git Bash', unxutils o cygwin en Windows), podría usar una serie de soluciones basadas en varias combinaciones de wget/curl/xidel/grep/awk por ejemplo. [Esta publicación de SO] (http://stackoverflow.com/questions/2804467/spider-a-website-and-return-urls-only) contiene varias soluciones, [esta es la búsqueda de Google que utilicé] (https: // www.google.com/search?q=extract+urls+(curl+OR+wget)). –

+0

Básicamente, querrá recorrer las URL importantes dentro de su dominio para encontrar/almacenar qué páginas están "filtrando". –

5

Puede intentar PublicWWW para buscar en fuente/marcado. Permite encontrar HTML, JavaScript, CSS y texto sin formato en el código fuente de la página web en más de 167 millones de sitios web.

Con PublicWWW puede:

  • encontrar sitios web relacionados a través de los códigos HTML únicos que comparten, es decir widgets de & identificadores de medios.

  • Identificar sitios utilizando ciertas imágenes o distintivos.

  • Descubre quién más usa tu tema.
  • Identifica los sitios que te mencionan.
  • Encuentra los afiliados de tu competidor.
  • Identifique los sitios donde sus competidores colaboran o interactúan personalmente.
  • Referencias para usar una biblioteca o una plataforma.
  • Encuentra ejemplos de código en la red.
  • Descubre quién está utilizando qué widgets JS en sus sitios.
  • ...

Por supuesto se puede encontrar no sólo sus sitios web que utilizan un código/fragmento margen de ganancia.

+0

Vale la pena señalar que solo los sitios web en el primer millón se revelan de forma gratuita. Los resultados de los 3 millones principales se revelan después de registrarse. El resto es pagado. Además, los resultados revelados solo muestran el dominio y no la URL completa. – glebm

Cuestiones relacionadas