2009-06-28 17 views
7

Tengo un documento bastante grande en formato html generado a partir de Microsoft Word. Es tan sucio y lleno de cosas hinchadas (como etiqueta desconocida, espacio de nombres desconocido, etc. y otras cosas hinchadas)cómo limpiar microsoft html doc?

¿hay alguna forma de convertirlo en sintaxis html simple?

Respuesta

6

Pruebe HTML Tidy. Escuché que funciona bastante bien en HTML generado por MS Word (definitivamente al menos hasta Word 2000, pero probablemente también en versiones más recientes).

2

Esto no es realmente una pregunta de programación, pero (al menos las versiones más recientes de) Word se puede guardar en "Página web, filtrado", que elimina las etiquetas y propiedades específicas de Office y solo deja las etiquetas necesarias para el documento renderizarse en un navegador web. Entonces, si tiene Word, podría intentar usarlo para abrir el documento HTML y guardarlo en ese formato.

2

Probablemente esté buscando HTML Tidy, que tiene adaptadores en casi todos los idiomas. Tiene opciones para limpiar el resultado HTML de Microsoft Word (y muchas otras características).

Cuestiones relacionadas