用C 程序理解汉字的机内码表示

分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！

　　汉字的编码是很多初学者不容易搞不明白的事情。最早的汉字字符集是GB2312-80，收入汉字6763个，符号715个，总计7478个字符，大陆普遍使用的简体字字符集。本文借助于一个能输出这些字符的简单的C++程序，体验汉字字符的编码。
　　先简介一下GB2312-80的概况。
　　1、区位码
　　每个汉字及符号都有一个区位码，即每个汉字有一个区号（两位十进制）和一个位号（两位十进制）。一共分了94个区，每个区中有94个汉字。
　　如下图了其中第1区和17区中的汉字：
　　
　　2、国标码
　　汉字的国标码可以在区位码基础上换算得到：国标码=（区位码的十六进制表示）+2020H，国标码的取值范围：2121H～7E7EH。
　　例如：“啊”的区码是16，位码为01，其区位码的十六进制表示为1001H，得到“啊”的国标码为：3021H。如下图：
　　
　　3、机内码
　　中文或西文信息在计算机系统中的代码表示称为机内码。ASCII码是一种西文机内码，用一个字节表示，其最高位均为0。汉字机内码用连续两个字节表示，为能和ACSII符号区分，每个字节的最高位是1。机内码和国标码的转换规则是：机内码 = 国标码+8080H =（区位码的十六进制表示）+A0A0H。显然，就是将国标码的两个字节的最高位均置为1即可。
　　例如，“啊”的国标码为：3021H，加上8080H后，其机内码为B0A1H,如下图所示：
　　
　　下面的程序，将GB2312-80中所有的汉字输出到一个文件中，对照上面的原理，读程序并运行，你将理解汉字在机器内部的表示。

（1）C++程序

#include <iostream>#include <cstdio>using namespace std; int main(){    int i,j;    char a[3];  //用两字节表示一个汉字，a[0]为第1个字节，a[1]为第2个字节    a[2]='\0';  //a[2]固定为'\0'，作为保存一个汉字的字符串的结束    freopen("chineseChar.txt","w",stdout);   //将输出重定向到文件，便于查看结果    for(i=1;i<=94;i++)    //区号从1到94    {        cout<<"=====第 "<<i<<" 区======"<<endl;        a[0] = i + 0xA0;   //将第1个字节变为机内码        for(j=1;j<=94;j++) //位号从1到94        {            a[1] = j + 0xA0; //将第2个字节变为机内码            cout<<a<<'\t';   //输出a，里面有两字节，是i区j位汉字的机内码            if(j%10==0)                cout<<endl;  //每10个换一行        }        cout<<endl;    }    return 0;}

（2）C程序

#include<stdio.h>int main(){    int i,j;    char a[3];  //用两字节表示一个汉字，a[0]为第1个字节，a[1]为第2个字节    a[2]='\0';  //a[2]固定为'\0'，作为保存一个汉字的字符串的结束    freopen("chineseChar.txt","w",stdout);   //将输出重定向到文件，便于查看结果    for(i=1;i<=94;i++)    //区号从1到94    {        printf("=====第 %d 区======\n",i);        a[0] = i + 0xA0;   //将第1个字节变为机内码        for(j=1;j<=94;j++) //位号从1到94        {            a[1] = j + 0xA0; //将第2个字节变为机内码            printf("%s\r",a);   //输出a，里面有两字节，是i区j位汉字的机内码            if(j%10==0)                printf("\n");  //每10个换一行        }        printf("\n");    }    return 0;}

　　程序输出的所有汉字，见本文后附件。

　　有了如上的知识，试运行下面的程序，看其结果是什么，并且试着做出解释。这是在处理汉字中常见的问题。

#include <iostream>using namespace std;int main(){    char a[]="汉字处理挺好玩";    cout<<a<<endl;    a[1]='a';    cout<<a<<endl;    a[2]='b';    cout<<a<<endl;    char b[10];    b[8]='\0';    cout<<b<<endl;    return 0;}

==================== 迂者 贺利坚 CSDN博客专栏=================|==　IT学子成长指导专栏　专栏文章的分类目录（不定期更新）　==||==　C++ 课堂在线专栏　　贺利坚课程教学链接（分课程年级）　==||==　我写的书——《逆袭大学——传给IT学子的正能量》　　　　==|===== 为IT菜鸟起飞铺跑道，和学生一起享受快乐和激情的大学 =====

附件：程序输出的所有GB2312-80汉字和字符

=====第 1 区======
　、。 · ˉ ˇ ¨ 〃々 —
～ ‖ … ‘ ’ “ ” 〔〕〈
〉《》「」『』〖〗【
】 ± × ÷ ∶ ∧ ∨ ∑ ∏ ∪
∩ ∈ ∷ √ ⊥ ∥ ∠ ⌒ ⊙ ∫
∮ ≡ ≌ ≈ ∽ ∝ ≠ ≮ ≯ ≤
≥ ∞ ∵ ∴ ♂ ♀ ° ′ ″ ℃
＄ ¤ ￠￡ ‰ § № ☆ ★ ○
● ◎ ◇ ◆ □ ■ △ ▲ ※ →
← ↑ ↓ 〓
=====第 2 区======
ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ ⅹ
      ⒈ ⒉ ⒊ ⒋
⒌ ⒍ ⒎ ⒏ ⒐ ⒑ ⒒ ⒓ ⒔ ⒕
⒖ ⒗ ⒘ ⒙ ⒚ ⒛ ⑴ ⑵ ⑶ ⑷
⑸ ⑹ ⑺ ⑻ ⑼ ⑽ ⑾ ⑿ ⒀ ⒁
⒂ ⒃ ⒄ ⒅ ⒆ ⒇ ① ② ③ ④
⑤ ⑥ ⑦ ⑧ ⑨ ⑩   ㈠㈡
㈢㈣㈤㈥㈦㈧㈨㈩  
Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ
Ⅺ Ⅻ  
=====第 3 区======
！＂＃￥％＆＇（）＊
＋，－．／０１２３４
５６７８９：；＜＝＞
？＠ＡＢＣＤＥＦＧＨ
ＩＪＫＬＭＮＯＰＱＲ
ＳＴＵＶＷＸＹＺ［＼
］＾＿｀ａｂｃｄｅｆ
ｇｈｉｊｋｌｍｎｏｐ
ｑｒｓｔｕｖｗｘｙｚ
｛｜｝￣
=====第 4 区======
ぁあぃいぅうぇえぉお
かがきぎくぐけげこご
さざしじすずせぜそぞ
ただちぢっつづてでと
どなにぬねのはばぱひ
びぴふぶぷへべぺほぼ
ぽまみむめもゃやゅゆ
ょよらりるれろゎわゐ
ゑをん       
   
=====第 5 区======
ァアィイゥウェエォオ
カガキギクグケゲコゴ
サザシジスズセゼソゾ
タダチヂッツヅテデト
ドナニヌネノハバパヒ
ビピフブプヘベペホボ
ポマミムメモャヤュユ
ョヨラリルレロヮワヰ
ヱヲンヴヵヶ    
   
=====第 6 区======
Α Β Γ Δ Ε Ζ Η Θ Ι Κ
Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ
Φ Χ Ψ Ω      
  α β γ δ ε ζ η θ
ι κ λ μ ν ξ ο π ρ σ
τ υ φ χ ψ ω    
   ︵︶︹︺︿﹀︽
︾﹁﹂﹃﹄   ︻︼︷
︸︱  ︳︴     
   
=====第 7 区======
А Б В Г Д Е Ё Ж З И
Й К Л М Н О П Р С Т
У Ф Х Ц Ч Ш Щ Ъ Ы Ь
Э Ю Я       
        а б
в г д е ё ж з и й к
л м н о п р с т у ф
х ц ч ш щ ъ ы ь э ю
я         
   
=====第 8 区======
ā á ǎ à ē é ě è ī í
ǐ ì ō ó ǒ ò ū ú ǔ ù
ǖ ǘ ǚ ǜ ü ê ɑ  ń ň
 ɡ     ㄅㄆㄇㄈ
ㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒ
ㄓㄔㄕㄖㄗㄘㄙㄚㄛㄜ
ㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦ
ㄧㄨㄩ       
         
   
=====第 9 区======
   ─ ━ │ ┃ ┄ ┅ ┆
┇ ┈ ┉ ┊ ┋ ┌ ┍ ┎ ┏ ┐
┑ ┒ ┓ └ ┕ ┖ ┗ ┘ ┙ ┚
┛ ├ ┝ ┞ ┟ ┠ ┡ ┢ ┣ ┤
┥ ┦ ┧ ┨ ┩ ┪ ┫ ┬ ┭ ┮
┯ ┰ ┱ ┲ ┳ ┴ ┵ ┶ ┷ ┸
┹ ┺ ┻ ┼ ┽ ┾ ┿ ╀ ╁ ╂
╃ ╄ ╅ ╆ ╇ ╈ ╉ ╊ ╋ 
         
   
=====第 10 区======
         
         
         
         
         
         
         
         
         
   
=====第 11 区======
         
         
         
         
         
         
         
        
         
   
=====第 12 区======
         
         
         
         
         
         
         
         
         
   
=====第 13 区======
         
         
         
         
         
         
         
         
         
   
=====第 14 区======
         
         
         
         
         
         
         
         
         
   
=====第 15 区======
         
         
         
         
         
         
         
         
         
   
=====第 16 区======
啊阿埃挨哎唉哀皑癌蔼
矮艾碍爱隘鞍氨安俺按
暗岸胺案肮昂盎凹敖熬
翱袄傲奥懊澳芭捌扒叭
吧笆八疤巴拔跋靶把耙
坝霸罢爸白柏百摆佰败
拜稗斑班搬扳般颁板版
扮拌伴瓣半办绊邦帮梆
榜膀绑棒磅蚌镑傍谤苞
胞包褒剥
=====第 17 区======
薄雹保堡饱宝抱报暴豹
鲍爆杯碑悲卑北辈背贝
钡倍狈备惫焙被奔苯本
笨崩绷甭泵蹦迸逼鼻比
鄙笔彼碧蓖蔽毕毙毖币
庇痹闭敝弊必辟壁臂避
陛鞭边编贬扁便变卞辨
辩辫遍标彪膘表鳖憋别
瘪彬斌濒滨宾摈兵冰柄
丙秉饼炳
=====第 18 区======
病并玻菠播拨钵波博勃
搏铂箔伯帛舶脖膊渤泊
驳捕卜哺补埠不布步簿
部怖擦猜裁材才财睬踩
采彩菜蔡餐参蚕残惭惨
灿苍舱仓沧藏操糙槽曹
草厕策侧册测层蹭插叉
茬茶查碴搽察岔差诧拆
柴豺搀掺蝉馋谗缠铲产
阐颤昌猖
=====第 19 区======
场尝常长偿肠厂敞畅唱
倡超抄钞朝嘲潮巢吵炒
车扯撤掣彻澈郴臣辰尘
晨忱沉陈趁衬撑称城橙
成呈乘程惩澄诚承逞骋
秤吃痴持匙池迟弛驰耻
齿侈尺赤翅斥炽充冲虫
崇宠抽酬畴踌稠愁筹仇
绸瞅丑臭初出橱厨躇锄
雏滁除楚
=====第 20 区======
础储矗搐触处揣川穿椽
传船喘串疮窗幢床闯创
吹炊捶锤垂春椿醇唇淳
纯蠢戳绰疵茨磁雌辞慈
瓷词此刺赐次聪葱囱匆
从丛凑粗醋簇促蹿篡窜
摧崔催脆瘁粹淬翠村存
寸磋撮搓措挫错搭达答
瘩打大呆歹傣戴带殆代
贷袋待逮
=====第 21 区======
怠耽担丹单郸掸胆旦氮
但惮淡诞弹蛋当挡党荡
档刀捣蹈倒岛祷导到稻
悼道盗德得的蹬灯登等
瞪凳邓堤低滴迪敌笛狄
涤翟嫡抵底地蒂第帝弟
递缔颠掂滇碘点典靛垫
电佃甸店惦奠淀殿碉叼
雕凋刁掉吊钓调跌爹碟
蝶迭谍叠
=====第 22 区======
丁盯叮钉顶鼎锭定订丢
东冬董懂动栋侗恫冻洞
兜抖斗陡豆逗痘都督毒
犊独读堵睹赌杜镀肚度
渡妒端短锻段断缎堆兑
队对墩吨蹲敦顿囤钝盾
遁掇哆多夺垛躲朵跺舵
剁惰堕蛾峨鹅俄额讹娥
恶厄扼遏鄂饿恩而儿耳
尔饵洱二
=====第 23 区======
贰发罚筏伐乏阀法珐藩
帆番翻樊矾钒繁凡烦反
返范贩犯饭泛坊芳方肪
房防妨仿访纺放菲非啡
飞肥匪诽吠肺废沸费芬
酚吩氛分纷坟焚汾粉奋
份忿愤粪丰封枫蜂峰锋
风疯烽逢冯缝讽奉凤佛
否夫敷肤孵扶拂辐幅氟
符伏俘服
=====第 24 区======
浮涪福袱弗甫抚辅俯釜
斧脯腑府腐赴副覆赋复

用C 程序理解汉字的机内码表示

猜你喜欢