Debe ser mucho más específico sobre cuáles son estas "características generales".
En NLP "características generales" de una oración puede significar un millón de cosas diferentes - análisis del sentimiento (es decir, la actitud del hablante), parte básica del etiquetado del habla, uso de pronombre personal, ¿contiene la oración activa o pasiva? verbos, cuál es el tiempo y la voz de los verbos ...
No me importa si usted es vago acerca de describirlo, pero si no sabemos lo que está preguntando, es muy poco probable que podamos ser específicos en ayudarte
Mi sugerencia general, especialmente para NLP, es que debe obtener la herramienta mejor diseñada para el trabajo en lugar de limitarse a un idioma específico. Limitarse a un idioma específico está bien para algunas tareas donde las herramientas generales se implementan en todas partes, pero NLP no es una de ellas.
El otro problema al trabajar con Twitter es que muchas de las oraciones estarán medio cocidas o comprimidas de maneras extrañas y maravillosas, que la mayoría de las herramientas de PNL no están capacitadas. Para ayudar allí, el NUS SMS Corpus consiste en "alrededor de 10.000 mensajes SMS recopilados por los estudiantes". Debido a las restricciones y el uso similares, el análisis puede ser útil en sus exploraciones con Twitter.
Si es más específico, intentaré enumerar algunas herramientas que ayudarán.
¿Por qué no probar con ingenio? Es un servicio externo gratuito. Escribí una joya que envuelve su funcionalidad: [wit_bot] (// bensites.com/wit_bot) –