2009-05-06 15 views
14

Tengo algunos archivos .tex de los cuales quiero recibir el texto plano sin etiquetas de latex como \ section {...} o \ newpage.
¿Alguien tiene alguna idea sobre cómo lograr esto? También tengo el archivo .pdf, pero cuando simplemente copio el código de allí, algunas palabras se concatenan, lo que es realmente malo.
¿Hay alguna herramienta que conozca?extraer texto de tex, eliminar etiquetas de latex

Respuesta

19

detex(1):

Por favor ver la OpenDetex GitHub page para la versión más reciente de OpenDetex. Es una versión derivada más moderna de mi DeTeX original.

Mi legado DeTeX home page está disponible here.

Si solo desea la fuente heredada detex-2.8.tar, puede obtenerla here.

+0

No hay de qué! –

+4

Solo funciona en archivos de texto ASCII. Si está utilizando xelatex y archivos de texto codificados en UTF-8 con caracteres no ASCII, detex genera basura para los caracteres no ASCII. – Lucas

+1

Es de código abierto, siempre podría ser reparado. –

6

opendetex está disponible tanto para Windows y Linux

descarga el programa opendetex de aquí
http://opendetex.googlecode.com/files/opendetex-2.8.1.tar.bz2
http://code.google.com/p/opendetex/downloads/list

Uso: http://code.google.com/p/opendetex/wiki/Usage

extraerlo en cualquier directorio de su elección . Digamos que lo extrae al directorio de descargas.

haga otro directorio de cualquier nombre en eso (opcional, pero es bueno si usted crea). diga que el nombre del directorio es "my_paper". Coloque su papel en el directorio "my_paper". diga su nombre de papel es project.tex

Navegar por el camino

cd ~/Downloads/opendetex 

Ejecutar el comando

detex -n my_paper/project.tex > out.txt 

forma genérica

detex -n full_path_to_tex_file.tex > output_text_file.txt 
Cuestiones relacionadas