Estoy buscando nltk para python, pero se divide (tokenize) won't
como ['wo',"n't"]
. ¿Hay bibliotecas que hacen esto de forma más robusta?¿Hay una biblioteca para dividir la oración en una lista de palabras?
Sé que puedo construir una expresión regular de algún tipo para resolver este problema, pero estoy buscando una biblioteca/herramienta porque sería un enfoque más directo. Por ejemplo, después de una expresión regular básica con puntos y comas, me di cuenta de palabras como 'Sr. 'romperá el sistema.
(@artsiom)
Si la sentencia era "usted no?", Split() me dará [ "usted", "no lo hará?"]. Entonces hay un extra '?' con lo que tengo que lidiar Estoy buscando un método probado que elimine las fallas como el mencionado anteriormente y también muchas excepciones que estoy seguro existen. Por supuesto, recurriré a una división (regex) si no encuentro ninguna.
Lo siento si te extraño somenthing pero por qué no text.split()? –
¿qué resultado espera? – Simon