Estoy tratando de poblar el objeto de película, pero al analizar a través del archivo u.item
consigo este error:Rubí `dividida ': secuencia de bytes no válida en UTF-8 (ArgumentError)
`split': invalid byte sequence in UTF-8 (ArgumentError)
File.open("Data/u.item", "r") do |infile|
while line = infile.gets
line = line.split("|")
end
end
El el error ocurre solo cuando se trata de dividir las líneas con una puntuación internacional sofisticada.
Aquí hay una muestra
543|Misérables, Les (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Mis%E9rables%2C%20Les%20%281995%29|0|0|0|0|0|0|0|0|1|0|0|0|1|0|0|0|0|0|0
es un trabajo en torno ??
¿Qué 'desde -c' decir de la línea en ¿pregunta? –
Funciona para mí con el corpus publicado. @ IgnacioVazquez-Abrams probablemente tiene razón: necesita usar un editor hexadecimal para ver si tiene caracteres ocultos en su archivo de datos. –