在Window平台下开发时,总是遇到类似LPSTR、LPCSTR、LPWSTR、LPCWSTR这类的字符串别名,如果搞不清楚,会十分蛋疼……
最近我也是在着手处理把项目从Unicode转多字节字符集/多字节字符集转Unicode,期间各种编码,字符类型啥的几百上千个错误,各种定义,各种别名满天飞,哎,是在受不了了,所以总结下……
首先提醒各位的是:建立项目初期(本片博客只针对Window平台下的项目),一定要选定好编码的字符集,不然后期,移接、转换语言会有各种问题……
众所周知,打开visual studio,创建项目,右键项目属性->配置属性->常规,查看面板中 项目默认值选项的 字符集选项,会发现有两种选择:Unicode 和 多字节字符集(这俩种有啥区别呢?见我慢慢道来……)
一、简易介绍:
1.Unicode:
Unicode(即“统一码、万国码”),说的这么高大上,个人理解为:Unicode就是宽字节编码, 每两个字节表示一个任意字符。因为传统的单字节编码可以满足英文字符,数字啥的,但时一旦跨越语言,就不行了(一个无符号字节8位,所能表示的二进制数也就
是0~255的范围,处理英文 + 数字 + 键盘上的若干符号还是可以的)。因此就需要更多位数来表示更多的字符,所以就需要Unicode编码。 例如:"abc"占6个字节,"呵呵abc"占10个字节(这中间有5个字符,每个字符占2个字节,结果就是 5×2 = 10)
2.多字节字符集:
也就是传统字符集,就是一个或多个字节表示一个任意字符。例如"abc"占3个字节,"呵呵abc"占9个字节(其中每个汉字占3个字节)
有人肯定会疑惑:什么JB玩意儿,为啥Unicode下汉字占2字节,传统字符集下汉字就占3字节 ? 原因就是Unicode是宽字节,以2字节为单位,2个字节就代表任意一个字符,管你是什么字符都满足(国际规定是这样,两个字节可以涵盖几乎所有字符了);而传统
字符集是以1字节为单位,表示不了所有字符,就比方说 汉字,就尼玛255的范围,你能干啥?所以要用一个或多个字节表示任意字符了。
bb这么多,不知你是否明白,好吧,以上只是我个人理解,文辞比较粗俗,如果还是不懂,可自行度娘查找更权威详细的解释和案例……
二、回归主题,言归正传了:
C / C++语法规定,char表示字符类型,char*,char[]表示"字符串",也就是多个字符的意思(请不要纠结细节,原理基本是这样,这里简陋的说明一下,有利于展开思路)
因此到了Windows平台下就有:
关键字 typdef
char CHAR
char* PCHAR、LPSTR等
wchar_t WCHAR
wchar_t* PWCHAR、LPWSTR等
如果想自动检测字符集的话(Unicode和多字符集), Windows又为我们提供了大量条件编译(宏 + 别名):
会根据:
#ifdef UNICODE
采用宽字符
#else
采用窄字符
#end
TCHAR 根据上述原理判断是 CHAR 还是 WCHAR
LPTSTR 同上,判断是 LPCHAR 还是 LPWCHAR
LPTCSTRconst char* / const wchar_t*等
……根据微软命名规律,依次类推 :
LP 表示指针,T表示条件编译自动选择char还是wchar_t,C表示const,STR表示"字符串"的意思……
大概掌握这个命名套路,然后你再看LPWSTR、LPCWSTR、LPCTSTR是不是瞬间一目了然了?
然后我们常用的字符串操作函数也对应"宽"、"窄"版本,这里我大概介绍一些命名规律,你们今后也可以一目了然
窄字节版本(原始版本) 宽字节版本 条件编译, 自动选择的版本
strcpy wcscpy _tcscpy
strcat wcscat _tcscat
strcmp wcscmp _tcscmp
sprintf(wsprintfA) sprintfW wsprintf
"字符串" L"字符串" _T("字符串")
……以上其实还有更多的typdef版本,我只列举常用,很明显规律的,大家方便理解记忆就好
其实我要bb的暂时就这些,以后有机会再补充补充吧!
总结就是:创建项目时,要预先考虑到是否多平台、多语言、以及是否有多项目依赖,然后要选用通用的字符集,或者一致的字符集,最好是带有条件编译的多版本函数,免得到时候
几个项目以综合,发现尼玛编码格式不一样,然后就跪了……
常用函数对照
ANSI | UNICODE | 通用 | 说明 |
数据类型 | |||
(char.h) | (wchar.h) | (tchar.h) | |
char | wchar_t | TCHAR | |
char * | wchar_t * | TCHAR* | |
LPSTR | LPWSTR | LPTSTR | |
LPCSTR | LPCWSTR | LPCTSTR | |
字符串转换 | |||
atoi | _wtoi | _ttoi | 把字符串转换成整数(int) |
atol | _wtol | _ttol | 把字符串转换成长整型数(long) |
atof | _wtof | _tstof | 把字符串转换成浮点数(double) |
itoa | _itow | _itot | 将任意类型的数字转换为字符串 |
字符串操作 | |||
strlen | wcslen | _tcslen | 获得字符串的数目 |
strcpy | wcscpy | _tcscpy | 拷贝字符串 |
strncpy | wcsncpy | _tcsncpy | 类似于strcpy/wcscpy,同时指定拷贝的数目 |
strcmp | wcscmp | _tcscmp | 比较两个字符串 |
strncmp | wcsncmp | _tcsncmp | 类似于strcmp/wcscmp,同时指定比较字符字符串的数目 |
strcat | wcscat | _tcscat | 把一个字符串接到另一个字符串的尾部 |
strncat | wcsncat | _tcsnccat | 类似于strcat/wcscat,而且指定粘接字符串的粘接长度. |
strchr | wcschr | _tcschr | 查找子字符串的第一个位置 |
strrchr | wcsrchr | _tcsrchr | 从尾部开始查找子字符串出现的第一个位置 |
strpbrk | wcspbrk | _tcspbrk | 从一字符字符串中查找另一字符串中任何一个字符第一次出现的位置 |
strstr | wcsstr/wcswcs | _tcsstr | 在一字符串中查找另一字符串第一次出现的位置 |
strcspn | wcscspn | _tcscspn | 返回不包含第二个字符串的的初始数目 |
strspn | wcsspn | _tcsspn | 返回包含第二个字符串的初始数目 |
strtok | wcstok | _tcstok | 根据标示符把字符串分解成一系列字符串 |
wcswidth | 获得宽字符串的宽度 | ||
wcwidth | 获得宽字符的宽度 | ||
字符串测试 | |||
isascii | iswascii | _istascii | 测试字符是否为ASCII 码字符, 也就是判断c 的范围是否在0 到127 之间 |
isalnum | iswalnum | _istalnum | 测试字符是否为数字或字母 |
isalpha | iswalpha | _istalpha | 测试字符是否是字母 |
iscntrl | iswcntrl | _istcntrl | 测试字符是否是控制符 |
isdigit | iswdigit | _istdigit | 测试字符是否为数字 |
isgraph | iswgraph | _istgraph | 测试字符是否是可见字符 |
islower | iswlower | _istlower | 测试字符是否是小写字符 |
isprint | iswprint | _istprint | 测试字符是否是可打印字符 |
ispunct | iswpunct | _istpunct | 测试字符是否是标点符号 |
isspace | iswspace | _istspace | 测试字符是否是空白符号 |
isupper | iswupper | _istupper | 测试字符是否是大写字符 |
isxdigit | iswxdigit | _istxdigit | 测试字符是否是十六进制的数字 |
大小写转换 | |||
tolower | towlower | _totlower | 把字符转换为小写 |
toupper | towupper | _totupper | 把字符转换为大写 |
字符比较 | |||
strcoll | wcscoll | _tcscoll | 比较字符串 |
日期和时间转换 | |||
strftime | wcsftime | _tcsftime | 根据指定的字符串格式和locale设置格式化日期和时间 |
strptime | 根据指定格式把字符串转换为时间值, 是strftime的反过程 | ||
打印和扫描字符串 | |||
printf | wprintf | _tprintf | 使用vararg参量的格式化输出到标准输出 |
fprintf | fwprintf | _ftprintf | 使用vararg参量的格式化输出 |
scanf | wscanf | _tscanf | 从标准输入的格式化读入 |
fscanf | fwscanf | _ftscanf | 格式化读入 |
sprintf | swprintf | _stprintf | 根据vararg参量表格式化成字符串 |
sscanf | swscanf | _stscanf | 以字符串作格式化读入 |
vfprintf | vfwprintf | _vftprintf | 使用stdarg参量表格式化输出到文件 |
vprintf | 使用stdarg参量表格式化输出到标准输出 | ||
vsprintf | vswprintf | _vstprintf | 格式化stdarg参量表并写到字符串 |
sprintf_s | swprintf_s | _stprintf_s | 格式化字符串 |
数字转换 | |||
strtod | wcstod | _tcstod | 把字符串的初始部分转换为双精度浮点数 |
strtol | wcstol | _tcstol | 把字符串的初始部分转换为长整数 |
strtoul | wcstoul | _tcstoul | 把字符串的初始部分转换为无符号长整数 |
_strtoi64 | _wcstoi64 | _tcstoi64 | |
输入和输出 | |||
fgetc | fgetwc | _fgettc | 从流中读入一个字符并转换为宽字符 |
fgets | fgetws | _fgetts | 从流中读入一个字符串并转换为宽字符串 |
fputc | fputwc | _fputtc | 把宽字符转换为多字节字符并且输出到标准输出 |
fputs | fputws | _fputts | 把宽字符串转换为多字节字符并且输出到标准输出串 |
getc | getwc | _gettc | 从标准输入中读取字符, 并且转换为宽字符 |
getchar | getwchar | _gettchar | 从标准输入中读取字符 |
putc | putwc | _puttc | 标准输出 |
putchar | putwchar | _puttchar | 标准输出 |
ungetc | ungetwc | _ungettc | 把一个字符放回到输入流中 |
扫描二维码关注公众号,回复:
2160036 查看本文章