Una aplicación en mi computadora necesita leer en un archivo de texto. Tengo varios y uno no funciona; el programa no lo lee y me dice que hay un mal personaje en algún lado. Mi primera suposición es que hay un personaje no ascii en algún lado, pero no tengo idea de cómo encontrarlo. Perl o cualquier regex genérica sería agradable. ¿Algunas ideas?documento de búsqueda para no-ascii
Respuesta
Puede usar [^\x20-\x7E]
para que coincida con un carácter que no sea ASCII.
p. Ej. grep -P '[^\x20-\x7E]' suspicious_file
Tuve un problema al usar esto, ya que también identificaría todos los caracteres de final de línea en mi archivo. La combinación de tu respuesta con la de Ruakh funcionó a las mil maravillas: [^ \ t \ n \ r \ x20- \ x7E] – JMM
En mi caso, la [respuesta de la otra pregunta] (http://stackoverflow.com/a/ 882437/873282) fue mejor: '[\ xE0- \ xFF]' – koppor
perl -wne 'printf "byte %02X in line $.\n", ord $& while s/[^\t\n\x20-\x7E]//;'
encontrarán cada carácter que no es un archivo ASCII glífico carácter, pestaña, espacio o salto de línea.
Si informa 0D
s (devolución de carro) en archivos que son O.K., entonces cambie \t\n
a \t\n\r
.
Si solo informa 0D
s en archivos que son incorrectos, entonces probablemente pueda reparar esos archivos ejecutando dos2unix
en ellos.
Solo un apéndice, uno debe ejecutar la entrada como el argumento final no incluido en la lista. –
Así, ¡gracias! Tuve que cambiarlo ligeramente para una consola DOS: 'perl -wne" printf qq (byte% 02X en la línea $. \ N), ord $ y while s/[^ \ t \ n \ x20- \ x7E]//;
Si utiliza tabuladores en el código fuente, así, tratar este patrón:
[^\x08-\x7E]
Works también en Notepad ++
- 1. Búsqueda de caracteres griegos dentro de un documento PDF
- 2. Lucene.Net Resultado de búsqueda para resaltar palabras clave de búsqueda
- 3. Obtención de términos coincidentes en un documento en la búsqueda utilizando una búsqueda comodín
- 4. ¿Cómo almacenar el punto de geolocalización lat-lon en un documento para la búsqueda de GAE?
- 5. XSLT 2.0 Búsqueda externa usando la tecla() y el documento()
- 6. Paquete de motor de búsqueda instalable para búsqueda de archivos
- 7. Tiempos de búsqueda para el árbol de búsqueda binaria
- 8. neo4j vs mongodb para búsqueda espacial
- 9. $ (documento) vs. $ ("documento")
- 10. Motor de búsqueda para .net
- 11. Filtro de búsqueda para opencart
- 12. Búsqueda de ruta para juegos
- 13. Búsqueda de comodín para LINQ
- 14. TF * IDF para consultas de búsqueda
- 15. buscando en qué página se encuentra una cadena de búsqueda en un documento pdf usando python
- 16. En una búsqueda de Lucene/Lucene.net, ¿cómo cuento el número de visitas por documento?
- 17. REST Generación de documento API
- 18. Solr: campoNorma diferente por documento, sin aumento de documento
- 19. ¿Los elementos HTML5 significan algo para los motores de búsqueda?
- 20. RavenDB búsqueda de texto completo
- 21. Documento de búsqueda en MongoDB por _id usando la extensión Flask-pymongo
- 22. Búsqueda filtrada de Elasticsearch para campos de subobjeto
- 23. ¿Se puede usar W3C DOM para crear nodos de documento/tipo de documento?
- 24. Búsqueda de resultados de búsqueda de Lucene
- 25. Búsqueda de Google con Python
- 26. NSPredicate para la búsqueda regular
- 27. Usando XPath para analizar un documento XML
- 28. Alternativa para la función "$ (documento) .ready"
- 29. XML: para adjuntar documento xml en el nodo de otro documento
- 30. Polaco para la búsqueda de Sphinx?
¿Qué te tratan tan lejos? – nmagerko
Creo que puede encontrar una respuesta [aquí] (http://stackoverflow.com/questions/881931/how-can-i-find-extended-ascii-characters-in-a-file-using-perl)? – Neilos
Acepté el café matemático porque funcionaba excesivamente en Notepad ++ –