麻痹的,为了这一个问题搞了一个礼拜才算明白 utf8编码一般有两种表示方法,u1234或者x12x34x56

参考 http://en.wikipedia.org/wiki/Utf-8 utf8是变长字符,可能是1个字节到6个字节,比如 01111111 11011111 10111111 11101111 10111111 10111111 分别是3个字符

发明者用一个很变态但很聪明的办法识别这个字符用了几个字节,0开头则是1个字节,110开头则是2个字节,1110开头则是3个字节,以此类推。另外,当使用2-6个字节时,第2-6个字节以10开头(等有空画图说明)。姑且把110,1110和2-6字节开头的10这种东西叫做分隔符吧,utf-8编码的二进制数中,将这写分隔符删掉,重新组成的数字就是uFFFF这种表示方法了。

因此11001111 10101101 可以切成4段(1100 1111 1010 1101)用十六进制表示为xCFxAD

11001111 10101101删掉变成01111 101101 整理成二进制变成 011 11101101 变成十六进制是 u03ED

也就是说xCFxAD和u03ED是一个字符

以上均为猜测,希望是对的

附16进制和4个连续2进制位的对应表 HEX 0 1 2 3 4 5 6 7 8 9 A B C D E F BINARY 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111

附utf-8官方定义 http://tools.ietf.org/html/rfc3629

【译】APP索引&SEO的下一个战场:苹果搜索 + iOS APP索引

译者定义:1. 应用页面 的原文叫“app screen”,相当于一个网页,比如你在看知乎APP中的一篇帖子,那么这个帖子就是一个“应用页面”。2. TDK的意思是“标题 描述 关键词”============================================...… Continue reading