2008-10-06 13 views
11

Estoy raspando un sitio html estático y moviendo el contenido a un CMS respaldado por una base de datos. Me gustaría usar Textile en el CMS.¿Cómo puedo convertir HTML a Textil?

¿Existe alguna herramienta que convierta HTML en Textil, para que pueda raspar el sitio existente, convertir el HTML a Textil e insertar esos datos en la base de datos?

Respuesta

-2

Este es un reemplazo de marcado simple, nada que una buena expresión regular no pueda reparar.

recomiendo Perl, LWP :: Simple y algunas expresiones regulares que hacer todo el asunto (spidering, diseño y menús de desbroce, se convierten al textil, y luego enviar a la base de datos.)

1

Sé que esta es una vieja pregunta, pero me encontré tratando de hacer esto el otro día y no encontrar nada útil, hasta que encontré Pandoc. También puede convertir montones de otros formatos de marcado: es bastante brillante.

+0

Pero perderá estilos y otras cosas. Entonces también podrías convertir a Markdown. – Bruno

-1

probar este código de Java sencilla espero que funcione para usted

import java.net.*; 
import java.io.*; 

class Crawle 
{ 

public static void main(String ar[])throws Exception 
{ 


URL url = new URL("https://www.google.co.in/#q=i+am+happy"); 
InputStream io = url.openStream(); 
BufferedReader br = new BufferedReader(new InputStreamReader(io)); 
FileOutputStream fio = new FileOutputStream("crawler/file.txt"); 
PrintWriter pr = new PrintWriter(fio,true); 
String data = ""; 
while((data=br.readLine())!=null) 
{ 
pr.println(data); 
System.out.println(data); 
} 

} 
} 
} 
+0

No tiene nada que ver con Textil – cmroanirgo

+0

Según la pregunta que quiere rastrear cualquier página web y luego debe guardar en cualquier archivo de texto, entonces lo que publiqué en mi respuesta está relacionado solo con eso. Y en mi respuesta, he compartido el ejemplo simple de la consulta anterior. Todavía no obtengo ninguna razón de voto negativo. – Simmant

+0

textil <> archivo de texto. ver http://redcloth.org/textile – cmroanirgo