Actualmente estoy desarrollando una aplicación web para buscar la transmisión de Twitter y tratando de crear un procesamiento de lenguaje natural por mi cuenta.División de cadena que contiene letras y números no separados por ningún delimitador particular en PHP
Dado que mis datos son de Twitter (limitado por 140 caracteres) hay muchas palabras abreviadas, o en este caso, espacio omitido.
Por ejemplo:
"Hi, my name is Bob. I m 19yo and 170cm tall"
caso de que se tokens a:
- hi
- my
- name
- bob
- i
- 19
- yo
- 170
- cm
- tall
en cuenta que 19
y yo
en 19yo
tienen hay espacio entre ellos. Lo uso principalmente para extraer números con sus unidades.
Simplemente, lo que necesito es una forma de 'explotar' cada token que tiene un número en él por un trozo de números o letras sin delimitador.
'123abc'
habrá ['123', 'abc']
'abc123'
habrá ['abc', '123']
'abc123xyz'
habrá ['abc', '123', 'xyz']
y así sucesivamente.
¿Cuál es la mejor manera de lograrlo en PHP?
Encontré algo parecido, pero es C# y específicamente para dividir día/mes. How do I split a string in C# based on letters and numbers
# simplemente curioso, ¿por qué necesita una extracción como esa? – hjpotter92
Pude ver hacer esto para la creación dinámica de babosas, pero también podría hacerse con solo delimitación de espacio/puntuación. – Dutchie432
@ persiguiendo a la muerte porque la fuente de datos (corriente de Twitter) tiene escritura inconsistente – akhyar