导入导出与字符集

转载:http://blog.sina.com.cn/s/blog_c58d04bf0101lbka.html

 

在日常工作中,我们经常会遇到字符集的问题。Export  Import 是一对读写Oracle数据的工具。Export  Oracle 数据库中的数据输出到操作系统文件中, Import 把这些文件中的数据读到Oracle 数据库中,由于使用exp/imp进行数据迁移时,数据从源数据库到目标数据库的过程中有四个环节涉及到字符集,如果这四个环节的字符集不一致,将会发生字符集转换。

四个字符集是:
   
1)源数据库字符集 
   
2Export过程中用户会话字符集(通过NLS_LANG设定)

   
3Import过程中用户会话字符集(通过NLS_LANG设定)
   
4)目标数据库字符集 
一、导出的转换过程
    在Export过程中,如果源数据库字符集与Export用户会话字符集不一致,会发生字符集转换,并在导出文件的头部几个字节中存储Export用户会话字符集的ID号。在这个转换过程中可能发生数据的丢失。

    例:如果源数据库使用ZHS16GBK,而Export用户会话字符集使用US7ASCII,由于ZHS16GBK是16位字符集,而US7ASCII是7位字符集,这个转换过程中,中文字符在US7ASCII中不能够找到对等的字符,所以所有中文字符都会丢失而变成“?? ”形式,这样转换后生成的Dmp文件已经发生了数据丢失。
    因此,如果想正确导出源数据库数据,则Export过程中用户会话字符集应等于源数据库字符集或是源数据库字符集的超集。

二、导入的转换过程
    (1)确定导出数据库字符集环境
             通过读取导出文件头,可以获得导出文件的字符集设置
    (2)确定导入session的字符集,即导入Session使用的NLS_LANG环境变量
    (3)IMP读取导出文件
             读取导出文件字符集ID,和导入进程的NLS_LANG进行比较
    (4)如果导出文件字符集和导入Session字符集相同,那么在这一步骤内就不需要转换,如果不同,就需要把数据转换为导入Session使用的字符集。可以看出,导入数据到数据库过程中发生两次字符集转换。
    第一次:导入文件字符集与导入Session使用的字符集之间的转换,如果这个转换过程不能正确完成,Import向目标数据库的导入过程也就不能完成。
    第二次:导入Session字符集与数据库字符集之间的转换。

 在做数据导入的时候,需要这三个字符集都一致:一是oracel server端的字符集,二是oracle client端的字符集;三是dmp文件的字符集

猜你喜欢

转载自zsg86.iteye.com/blog/2413276