6. 文字集合と文字エンコーディン
グ
• 文字集合
– Character Set
• 符号化文字集合
– Coded Character Set
• 文字符号化方式
– Character Encoding Scheme
• 符号点
– Code Point
※”charset”は文字集合ではない
7. 文字集合と文字エンコーディン
グ
a あ 𠮟
Unicode
Code Point
U+61 U+3042 U+209BF
JIS X 0208
Code Point
3区65点
※例示字体は全角
4区2点 -
ASCII 0x61 - -
Shift_JIS 0x61 0x82A0 -
UTF-8 0x61 0xE38182 0xF0A0AE9F
UTF-16 0x0061 0x3042 0xD842 0xDF9F
UTF-32 0x00000061 0x00003042 0x000209BF
10. 符号化文字集合
• JIS X 0208
– JIS第一、第二水準を含む約6,000文字
• JIS X 0212
– JIS X 0208に含まれない補助漢字約6,000文字
• JIS X 0213
– JIS X 0213:2000
• JIS第一~第四水準漢字などを含む約12,000文字
– JIS X 0213:2004
• 例示字体の変更(1点しんにょう→2点しんにょう)
• 文字の追加
– JIS X 0213:2012
• 情報漢字表改定に伴うマイナーチェンジ