que quieren analizar subtítulos SRT:subtítulos SRT al analizar
1
00:00:12,815 --> 00:00:14,509
Chlapi, jak to jde s
těma pracovníma světlama?.
2
00:00:14,815 --> 00:00:16,498
Trochu je zesilujeme.
3
00:00:16,934 --> 00:00:17,814
Jo, sleduj.
Cada artículo en la estructura. Con esta regexs:
A:
RE_ITEM = re.compile(r'(?P<index>\d+).'
r'(?P<start>\d{2}:\d{2}:\d{2},\d{3}) --> '
r'(?P<end>\d{2}:\d{2}:\d{2},\d{3}).'
r'(?P<text>.*?)', re.DOTALL)
B:
RE_ITEM = re.compile(r'(?P<index>\d+).'
r'(?P<start>\d{2}:\d{2}:\d{2},\d{3}) --> '
r'(?P<end>\d{2}:\d{2}:\d{2},\d{3}).'
r'(?P<text>.*)', re.DOTALL)
Y este código:
for i in Subtitles.RE_ITEM.finditer(text):
result.append((i.group('index'), i.group('start'),
i.group('end'), i.group('text')))
con código de BI tener sólo un elemento de array (debido codiciosos . *) y con el código AI tienen 'texto' vacío debido a no-codicioso. *?
Cómo solucionar esto?
Gracias
Cuando leí esto, me di cuenta de que había hecho esto antes, pero no podía recordar cómo. Resulta que lo hice procesalmente, en lugar de usar una expresión regular. La expresión regular es bastante elegante. En caso de que esté interesado, la clase de Python que solía trabajar con subtítulos SRT se puede encontrar en https://svn.jaraco.com/jaraco/python/jaraco.media/jaraco/media/srt.py (tenga en cuenta que ' mero "que importa de jaraco.util es solo 'mero' de la documentación de itertools. –