巧妙地解决TXT格式的数据置乱问题_大数据论文

巧解TXT格式数据乱码问题,本文主要内容关键词为:乱码论文,格式论文,数据论文,巧解论文,TXT论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

南京市审计局在对南京报业传媒集团审计时,利用ACCESS数据库采集转换该单位TXT格式的财务数据,遇到导入数据乱码问题,造成采集失败,如下图:

审计人员尝试通过ACCESS数据库导入向导的“高级”选项,改变文件代码后再采集,未能成功。于是怀疑是被审计单位给的数据有问题,但是在使用重新获得的数据后,问题依旧无法解决。

审计人员转而对该TXT格式的数据进行了研究,发现TXT文件编码有ANSI、UNICODE、UTF-8、UNICODEbigendian这几种,Windows操作系统中文本文件的默认编码方式是ANSI。ANSI码使用8位(1个字节)标识每个字符,最多只能表示256个字符,对于英文已经足够,可是对于亚洲地区的复杂语言(比如中文),就远远不够了。因此,用ANSI码保存包含中文内码的内容时,如果不经过正确编译就会出现乱码。而被审计单位的数据文件编码用的就是ANSI码,所以在采集时,其中的中文内码文字全部变成乱码。

鉴于审计人员所用的ACCESS数据库软件无法正确识别和转换该数据,于是直接打开该TXT格式的数据,然后选择“另存为”,在“编码”下拉菜单中将编码改为UNICODE(Unicode编码使用两个字节表示每个字符,可以表示65536(2的16次方)个字符,是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案),如下图所示:

保存后,再用ACCESS采集转码后的新数据,过程非常顺利,一路NEXT!

标签:;  ;  ;  ;  

巧妙地解决TXT格式的数据置乱问题_大数据论文
下载Doc文档

猜你喜欢