Tenía un código que funcionaba bien eliminando la puntuación/números usando expresiones regulares en python, tuve que cambiar el código un poco para que funcionara una lista de detención, no particularmente importante. De todos modos, ahora la puntuación no se elimina y francamente estoy perplejo en cuanto a por qué.Eliminando la puntuación/números del problema de texto
import re
import nltk
# Quran subset
filename = raw_input('Enter name of file to convert to ARFF with extension, eg. name.txt: ')
# create list of lower case words
word_list = re.split('\s+', file(filename).read().lower())
print 'Words in text:', len(word_list)
# punctuation and numbers to be removed
punctuation = re.compile(r'[-.?!,":;()|0-9]')
for word in word_list:
word = punctuation.sub("", word)
print word_list
Cualquier indicador de por qué no está funcionando sería grande, no soy un experto en Python, así que es probable que haya algo ridículamente estúpida. Gracias.