He estado utilizando HTML Parser para eliminar datos de sitios web y eliminar la codificación html mientras lo hago. Conozco varios módulos, como Beautiful Soup, pero decidí seguir el camino de no dep
He intentado varios métodos para quitar la licencia de los textos de Project Gutenberg, para usar como corpus para un proyecto de aprendizaje de idiomas, pero parece que no se me ocurre un enfoque con
¿Hay alguna forma eficiente (tal vez abusando del preprocesador gcc?) Para obtener un conjunto de fuentes del kernel despojado donde todo el código no necesario de acuerdo con .config se omite?