Estoy tratando de analizar un archivo de archivo GitHub con yajl-py. Creo que el formato básico del archivo es una secuencia de objetos JSON, por lo que el archivo en sí no es JSON válido, pero contiene objetos que sí lo son.Yajl análisis error con githubarchive.org secuencia JSON en Python
Para probar esto, he instalado yajl-py
y luego se usa el ejemplo de analizador (de https://github.com/pykler/yajl-py/blob/master/examples/yajl_py_example.py) para tratar de analizar un archivo:
python yajl_py_example.py < 2012-03-12-0.json
donde 2012-03-12-0.json
es uno de los ficheros de archivo de GitHub que se ha descomprimido.
Parece que este tipo de cosas debería funcionar desde su implementación de referencia en Ruby. ¿Los paquetes de Python no manejan las transmisiones JSON?
Por cierto, aquí está el error que consigo:
yajl.yajl_common.YajlError: parse error: trailing garbage
9478bbc3","type":"PushEvent"}{"repository":{"url":"https://g
(right here) ------^
"Creo que la básica el formato del archivo es una secuencia de objetos JSON "¿Cómo llegó a esta conclusión? ¿Podríamos inspeccionar el archivo? –
Claro, puede ver el archivo con 'wget http://data.githubarchive.org/2012-03-12-0.json.gz | gzip -d> 2012-03-12-0.json'. Son unos pocos megabytes, por lo que son grandes. – Bialecki
¿Ya entendiste esto? ¿Has probado la opción allow_multiple_values? – Pykler