2009-08-20 8 views
6

Acabo de poner mis manos en un Stackoverflow data dump, y me decepciona ver que el campo del cuerpo de las publicaciones está en HTML en lugar de Markdown. Sospecho que hay Markdown en la base de datos original porque eso es lo que veo si trato de editar una respuesta.¿Cuál es la forma más fácil de convertir un volcado de datos SO de HTML a Markdown?

Quiero recuperar el marcado de un gran conjunto de respuestas. Procesaré cientos de entradas en modo por lotes, utilizando herramientas de línea de comandos o algún tipo de biblioteca Lua o C, por lo que una herramienta interactiva como wmd Markdown editor no es adecuada. ¿Pueden las personas decir qué herramientas están disponibles para ayudarme a recuperar Markdown de un volcado de datos Stackoverflow?


(pregunta relacionada, no un duplicado:. Convert HTML back to Markdown within wmd)

Respuesta

5

Markdownify convierte a HTML Markdown.

Ver también: MetaSO/Can Markdown be recovered from the SO data dump?

+0

Norman debe saber, él hizo esa pregunta también! :) –

+0

Cuando se trata de usar PHP en la línea de comandos, soy un troglodita. Parece que no puedo deducir del manual si hay una función de biblioteca para leer todo el contenido de un archivo. ¿Está dio_read (STDIN) en el camino correcto? –

+0

Si desea leer el contenido de un archivo, hay muchas maneras: una función simple que lo hace es 'file_get_contents();' – Sampson

Cuestiones relacionadas