2011-05-20 17 views
5

Saludos, voy a presentar mi caso:MS Access MDB * Conversión a MySQL o SQLite, problema en la codificación de los datos

  • estoy en Ubuntu Linux
  • tengo varios JET3 MDB (MS Base de datos de acceso) alrededor de 500MB cada uno, en el que los datos codificados en cp1256/WINDOWS-1256
  • hice las bases de datos sqlite siguiendo este artículo para hacer la conversión http://cltb.ojuba.org/en/articles/mdb2sqlite.

Aquí está la escritura del golpe que he hecho para convertir la base de datos. Suponiendo que tengo MS Access x.MDB

mdb-schema "x.mdb" | perl -wpe 's%^DROP TABLE %DROP TABLE IF EXISTS %i; 
    s%(Memo/Hyperlink|DateTime(\(Short\))?)%TEXT%i; 
    s%(Boolean|Byte|Byte|Numeric|Replication ID|(\w+)?Integer)%INTEGER%i; 
    s%(BINARY|OLE|Unknown ([0-9a-fx]+)?)%BLOB%i; 
    s%\s*\(\d+\)\s*(,?[ \t]*)$%${1}%;' | sqlite3 > x.db 

for i in $(mdb-tables "x.mdb"); do echo $i; (
echo "BEGIN TRANSACTION;"; 
MDB_JET3_CHARSET="WINDOWS-1256" mdb-export -R ";\n" -I "x.mdb" $i; 
echo "END TRANSACTION;") | sqlite3 "x.db"; done 

he tratado de cambiar el MDB_JET3_CHARSET a WINDOWS-1256, cp1256, WINDOWS-1251, CP1251, UTF-8. algunos producen resultados diferentes en los datos cuando lo navego, pero aún no tienen ningún sentido.

gracias antes, y lo siento por mi mala Inglés

+0

Hola! intente agregar Charset = cp1251 a su cadena de conexión –

+0

hello @ evgeniy.labunskiy gracias por el comentario, he intentado cambiar el mdb_jet3_charset a varios formatos para noavail. Edité mi pregunta para incluir el script que hice. –

Respuesta

3

bien, entonces después de jugar en torno a muchos sitios, me encontré con este http://git.ojuba.org/cgit/thawab/tree/ y encontré un guión que me dan una idea (es la bok2ki.py, si alguien tiene curiosidad), ¡ME ENCANTA LA FUENTE ABIERTA! :)

agrego parámetro MDB_ICONV con "UTF-8", ya que es el valor, y cambiar el valor del parámetro MDB_JET3_CHARSET a "cp1256"

Acctually realmente no saben lo que los parámetros que realmente es, pero me Supongo que MDB_JET3 CHARSET define el juego de caracteres/codificación/páginas de códigos (realmente no sé la diferencia, debería investigar más) y el MDB_ICONV es para definir la codificación de la base de datos de destino. Bueno, esos son solo mi suposición de todos modos.

entonces aquí es mi nuevo guión:

mdb-schema "x.mdb" | perl -wpe 's%^DROP TABLE %DROP TABLE IF EXISTS %i; 
    s%(Memo/Hyperlink|DateTime(\(Short\))?)%TEXT%i; 
    s%(Boolean|Byte|Byte|Numeric|Replication ID|(\w+)?Integer)%INTEGER%i; 
    s%(BINARY|OLE|Unknown ([0-9a-fx]+)?)%BLOB%i; 
    s%\s*\(\d+\)\s*(,?[ \t]*)$%${1}%;' | sqlite3 x.db 

for i in $(mdb-tables "x.mdb"); do echo $i; (
echo "BEGIN TRANSACTION;"; 
MDB_JET3_CHARSET="cp1256" MDB_ICONV="UTF-8" mdb-export -R ";\n" -I "x.mdb" $i; 
echo "END TRANSACTION;") | sqlite3 "x.db"; done 
+0

hmm, traté de establecer esta respuesta como la respuesta aceptada, pero tengo que esperar 15 horas porque es mi propia respuesta. eso un poco cojo –

+0

Creo que es 'MDBICONV' no' MDB_ICONV'. – Ansd

Cuestiones relacionadas