Tengo algunos documentos que pasaron por la conversión de OCR de PDF a HTML. Debido a eso, terminaron teniendo muchos signos de puntuación unicode aleatorios donde el convertidor se equivocó (es decir, elipses, etc.). También tienen correctamente un grupo de caracteres no ingleses, pero aún alfabéticos, como é, y caracteres rusos, etc. ...¿Hay alguna forma de combinar con cualquier carácter Unicode no alfabético?
¿Hay alguna forma de hacer una Regex que coincida con cualquier carácter alfabético Unicode (de alfabetos de cualquier idioma)? ¿O uno que solo coincida con caracteres no alfabéticos? Cualquiera de los dos sería realmente útil e increíble. Estoy usando Perl, si eso cambia algo. ¡Gracias!
De la misma manera, puede usar '\ P' para hacer coincidir el carácter * no * que tiene una propiedad en particular (por lo que' \ P {L} 'coincide con cualquier carácter que no sea de letras). –
¿Puedo usar un código de carácter omitiendo algunos puntos de código? Como \ p {P} omitiendo puntos y comas? La negación de eso sería perfecto para mí. – Eli