'Bien escrito' y 'bueno para PNL' pueden ir juntos pero no es necesario. Para que un texto sea "bueno para PNL", quizás debería contener oraciones completas con un verbo y un punto al final, y quizás debería transmitir algún significado. Para que un texto esté bien escrito, también debe estar bien estructurado, cohesionado, coherente, sustituir correctamente los pronombres por pronombres, etc. Lo que necesita depende de su aplicación.
Las posibilidades de que una frase procese correctamente una frase a través de una herramienta PNL a menudo se pueden estimar mediante algunas heurísticas simples: ¿es demasiado larga (> 20 o 30 palabras, según el idioma)? ¿Demasiado corto? ¿Contiene muchos personajes extraños? ¿Contiene urls o direcciones de correo electrónico? ¿Tiene un verbo principal? ¿Es solo una lista de algo? Que yo sepa, no hay un nombre general para esto, ni ningún algoritmo particular para este tipo de filtrado: se llama 'preprocesamiento'.
En cuanto a una frase que está bien escrita: se han realizado algunos trabajos sobre la evaluación automática de legibilidad, cohesión y coherencia, p. los artículos de Miltsakaki (Evaluation of text coherence for electronic essay scoring systems y Real-time web text classification and analysis of reading difficulty) o Higgins (Evaluating multiple aspects of coherence in student essays). Todos estos enfoques se basan en una u otra teoría de la estructura del discurso, como Centrar la teoría. Los artículos son bastante pesados en teoría y suponen el conocimiento tanto de la teoría de centrado como del aprendizaje automático.Sin embargo, algunas de estas técnicas han sido aplicadas con éxito por ETS para calificar automáticamente los ensayos de los estudiantes y creo que esto es bastante similar a lo que estás tratando de hacer, o al menos, puedes adaptar algunas ideas.
Dicho todo esto, creo que en los próximos años, NLP tendrá que desarrollar técnicas para procesar el lenguaje que es no bien formado con respecto a las normas actuales. Existe una gran cantidad de datos extremadamente valiosos disponibles en la web, que consisten exactamente en los tipos de texto que mencionaste: comentarios de youtube, mensajes de chat, mensajes de estado de Twitter y Facebook, etc. Todos ellos potencialmente contienen información muy interesante. Entonces, ¿quién debería adaptarse, las personas que escriben de esa manera o la PNL?