2010-02-08 10 views
20

Me gustaría robar un sitio web para recopilar mediante programación cualquier enlace externo dentro de cualquier elemento flash en la página. También me gustaría recopilar cualquier otro texto, si es posible, pero los enlaces son la parte importante. es posible? Sería preferible una biblioteca/servicio freeware para realizar esta tarea, pero si no es así, ¿cómo puedo realizar la tarea por mí mismo? ¿Es posible obtener el código fuente y extraer de eso?¿Puedo raspar el flash?

Respuesta

10

Descompilar la fuente de Flash le permitiría ver la parte de ActionScript del archivo Flash, que he encontrado que a menudo contiene información como enlaces.

Un decompilador gratuito es Flare. Es solo línea de comando y funciona bien. No descifrará parte de la información en formatos de Flash más nuevos (creo que CS3). Vacia todo el AS en un archivo.

Sothink SWF Decompiler es un programa comercial más sofisticado. Funcionará bien con cualquier archivo Flash que haya probado y los resultados serán bastante completos y bien organizados. está basado en GUI y no sé si se automatiza fácilmente.

Con Flare, ya que es una herramienta de línea de comandos, uno podría escribir fácilmente una secuencia de comandos para obtener el archivo SWF, descompilarlo, grep para 'http: //', y registrar los resultados.

+3

Flare ya no funciona para Mac. –

3

Tirando "enlaces externos" fuera de un flash puede ser tan simple como, por ejemplo:

curl -s http://hostname/path/to/file.swf | strings | grep http 

Por supuesto, esto va a fallar si el autor ha tomado cualquier intento para ocultar la URL

YMMV mucho. ¡Buena suerte!

+0

La salida de curl se ve como un montón de caracteres aleatorios, nada tan co-heredero como http. Utilicé curl www.michaelgraves.com/mga.swf -o test.txt. ¿Las cadenas hacen algo para convertir a texto legible? –

+1

el programa 'cadenas' quita lo que pueden ser cadenas legibles por humanos fuera de una secuencia de datos binarios. El 'grep' está sacando cualquier cadena que contenga la palabra' http'. También puede intentar modificar las opciones del comando de cadenas para darle un resultado más útil ('cadenas -10': solo cadenas de salida de al menos 10 caracteres) – MikeyB

+0

Entonces, si el archivo no contiene una cadena" http ", las cadenas no son voy a dármelo, ¿verdad? –

Cuestiones relacionadas