CNS漢字
Infomation About CNS Ideographs
CNS11643・UCS対応表
- cns2ucs.txt … CNS・UCS対応データ
- cns2py.txt … CNS・ピンイン対応データ
- cns2cj.txt … CNS・蒼頡 対応データ
上記のデータは、台湾のCNS 11643の公式サイト “中文全字庫” で公開されているCNS関連データを整理したものです。CNS 11643では、未符号化文字・重複符号化文字など、通常のUCSに対応しない文字はすべて、UCS15面(UCSの私用領域の1つで、U+Fxxxxの領域)に対応付けられています。
CNS漢字の構成と変遷
CNS符号は、ISO/IEC 2022の2バイト符号化形式に基づく 94x94 の符号面15個から構成されます。そのうち、最初の7面は1992年に制定され、ISO/IEC 2375に基づいて、RA-JAC に登録されました。2007年に改正され、その後は必要に応じて文字の追加・修正などが行われています。
1986年 | 1992年 | 2007年 | 2011年 | 注記 | |
---|---|---|---|---|---|
1 | 5,401 | 5,401 | 5,401 | 5,401 | |
2 | 7,650 | 7,650 | 7,650 | 7,650 | |
3 | 6,148 | 6,276 | 6,395 | ||
4 | 7,298 | 7,298 | 7,298 | ||
5 | 8,603 | 8,603 | 8,603 | ||
6 | 6,388 | 6,388 | 6,387 | ||
7 | 6,539 | 6,539 | 6,539 | ||
8 | 8,825 | UCSのBMP非漢字類 | |||
9 | 1,930 | UCSのBMP非漢字類 | |||
10 | 8,836 | 8,836 | UCS統合漢字拡張Bの非Tソース漢字 | ||
11 | 3,698 | 7,870 | |||
12 | 3,672 | 6,270 | |||
13 | 4,726 | 5,852 | |||
14 | 4,197 | 5,473 | 6,991 | 1986年当時の14面の文字は3面へ移動。 | |
15 | 6,831 | 6,968 | |||
計 | 17,249 | 48,027 | 81,391 | 10,2656 |
CNS漢字の現状(2011年8月)
CNS 11643 非漢字符号
CNS11643の非漢字のUCS符号対応は、実装によって異なります。以下に、UnicodeのObsoleteな対応表(主にglibc等が採用)、IBM ICUの対応表、CNSの公式対応表の差をまとめます。(現在、CNSの1面には様々な非漢字が追加されているため、この他にもUnicode, ICUの対応表に未記載の記号は多数あります。)
CNS符号 | Unicode | ICU | CNS | Note |
---|---|---|---|---|
T1-2126 | U+030FB | 同左 | U+02027 | KATAKANA MIDDLE DOT / HYPHENATION POINT |
T1-2136 | U+0FE31 | 同左 | U+0FF5C | PRESENTATION FORM FOR VERTICAL EM DASH / FULLWIDTH VERTICAL LINE |
T1-2137 | U+02014 | U+02015 | 同左 | EM DASH / HORIZONTAL BAR |
T1-2138 | U+0FE32 | 同左 | U+0FE31 | PRESENTATION FORM FOR VERTICAL EN DASH / PRESENTATION FORM FOR VERTICAL EM DASH |
T1-2139 | U+02013 | U+0FE58 | U+02014 | EN DASH / SMALL EM DASH / EM DASH |
T1-213A | 未定義 | U+0F8D1 | U+0FE33 | nil / PRESENTATION FORM FOR VERTICAL LOW LINE |
T1-213B | 未定義 | U+0F8D0 | U+02574 | nil / BOX DRAWINGS LIGHT LEFT |
T1-213C | 未定義 | U+0F8CF | U+0FE34 | nil / PRESENTATION FORM FOR VERTICAL WAVY LOW LINE |
T1-213D | 未定義 | U+0F8CE | U+0FE4F | nil / WAVY LOW LINE |
T1-216A | U+02032 | U+0FF40 | U+02035 | PRIME / FULLWIDTH GRAVE ACCENT / REVERSED PRIME |
T1-216B | U+02035 | U+000B4 | U+02032 | REVERSED PRIME / ACUTE ACCENT / PRIME |
T1-2171 | U+03003 | U+002BA | U+03003 | DITTO MARK / MODIFIER LETTER DOUBLE PRIME / DITTO MARK |
T1-2223 | U+0203E | U+0FFE3 | U+0203E | OVERLINE / FULLWIDTH MACRON / OVERLINE |
T1-2224 | 未定義 | U+0203E | U+0FFE3 | OVERLINE / FULLWIDTH MACRON |
T1-2242 | U+0FE66 | U+0FE65 | 同左 | SMALL EQUALS SIGN / SMALL GREATER-THAN SIGN |
T1-2243 | U+0FE65 | U+0FE66 | 同左 | SMALL GREATER-THAN SIGN / SMALL EQUALS SIGN |
T1-2244 | U+0223C | U+0FF5E | 同左 | TILDE OPERATOR / FULLWIDTH TILDE |
T1-2253 | U+02641 | U+02295 | 同左 | EARTH / CIRCLED PLUS |
T1-2254 | U+02609 | U+02299 | 同左 | SUN / CIRCLED DOT OPERATOR |
T1-2257 | U+02192 | 同左 | U+02190 | RIGHTWARDS ARROW / LEFTWARDS ARROW |
T1-2258 | U+02190 | 同左 | U+02192 | LEFTWARDS ARROW / RIGHTWARDS ARROW |
T1-225D | U+02016 | U+02225 | 同左 | DOUBLE VERTICAL LINE / PARALLEL TO |
T1-225E | U+0FF5C | 同左 | U+02223 | FULLWIDTH VERTICAL LINE / DIVIDES |
T1-2261 | U+02215 | U+02044 | U+02215 | DIVISION SLASH / FRACTION SLASH / DIVISION SLASH |
T1-243F | U+05344 | 同左 | U+03039 | CJK IDEOGRAPH-5344 / HANGZHOU NUMERAL TWENTY |
T1-2721~ T1-293A | 未定義 | CJK漢字 | U+02FXX | KANGXI RADICAL XX (T1-2728=U+04EA0, T1-272F=U+051AB, T1-2734=U+052F9 除く) |
参考:Big5における符号の違い
Big-5 | B5-2003 | CP950 | notes |
---|---|---|---|
0xA156 | U+2015 | U+2013 | HORIZONTAL BAR / EN DASH |
0xA1C2 | U+203E | U+00AF | OVERLINE / MACRON |
0xA2A4 | U+2501 | U+2550 | BOX DRAWINGS HEAVY HORIZONTAL / BOX DRAWINGS DOUBLE HORIZONTAL |
0xA2A5 | U+251D | U+255E | BOX DRAWINGS VERTICAL LIGHT AND RIGHT HEAVY / BOX DRAWINGS VERTICAL SINGLE AND RIGHT DOUBLE |
0xA2A6 | U+253F | U+256A | BOX DRAWINGS VERTICAL LIGHT AND HORIZONTAL HEAVY / BOX DRAWINGS VERTICAL SINGLE AND HORIZONTAL DOUBLE |
0xA2A7 | U+2525 | U+2561 | BOX DRAWINGS VERTICAL LIGHT AND LEFT HEAVY / BOX DRAWINGS VERTICAL SINGLE AND LEFT DOUBLE |
0xA2CC | U+3038 | U+5341 | HANGZHOU NUMERAL TEN / CJK IDEOGRAPH-5341 |
0xA2CD | U+3039 | U+5344 | HANGZHOU NUMERAL TWENTY / CJK IDEOGRAPH-5344 |
0xA2CE | U+303A | U+5345 | HANGZHOU NUMERAL THIRTY / CJK IDEOGRAPH-5345 |
UCS2011 規格表未記載T3~T7面漢字
上記のcns2ucs.txtにおいて、PUA 15面(U+FFFFx)に対応付けられているデータは、ISO/IEC 10646 に添付されている "CJKU_SR.txt" や、"CJKC_SR.txt" には記載されていません。以下に、本データと UCS 2011年版の CJKU_SR.txt / CJKC_SR.txt テキストファイルでのデータの比較一覧を示します。
CNS符号 | UCS2011 | 本データ | コメント |
---|---|---|---|
T3-6168 | 未記載 | U+FFF79 | T2-715C(U+07C6F 籯)と字形が包摂 |
T4-225B | 未記載 | U+FFF7A | T4-2625(U+05B90 宐)と統合ミス |
T4-2361 | 未記載 | U+FFFFD | T3-645F(U+05759 坙)と字形が重複 |
T4-276A | 未記載 | U+FFFFC | T3-6631(U+080BB 肻)と字形が重複 |
T4-2827 | 未記載 | U+FFFFB | TF-2872(U+04C88 䢌)と字形が重複 |
T4-287D | 未記載 | U+FFFFA | T3-646D(U+05CD5 峕)と字形が重複 |
T4-2A6E | 未記載 | U+FFFF9 | T3-654C(U+079CC 秌)と字形が重複 |
T4-3042 | 未記載 | U+FFFF8 | T3-6670(U+098E4 飤)と字形が重複 |
T4-385C | 未記載 | U+FFFF7 | T3-6542(U+06E7C 湼)と字形が重複 |
T4-434E | 未記載 | U+0FA3E | T1-5F35(U+06168 慨)と字形が重複 |
T4-4458 | 未記載 | U+FFFF6 | T3-655B(U+07193 熓)と字形が重複 |
T4-6339 | 未記載 | U+FFFF5 | T3-6677(U+05E71 幱)と字形が重複 |
T4-655F | 未記載 | U+FFFF4 | T1-7822(U+09BFD 鯽)と字形が包摂 |
T5-234B | 未記載 | U+FFFF3 | T3-6450(U+05324 匤)と字形が包摂 |
T5-756C | 未記載 | U+FFFF2 | T4-6B2E(U+29572 𩕲)と字形が重複 |
T6-2A21 | 未記載 | U+FFFF1 | T3-6451(U+05365 卥)と字形が重複 |
T6-5C2F | 未記載 | U+FFFF0 | T3-6466(U+05900 夀)と字形が重複 |
T7-2C3A | 未記載 | U+0FACE | T1-733F(U+09F9C 龜) と字形が重複 |
T7-4159 | 未記載 | U+FFFEF | T3-662C(U+07E64 繤)と字形が重複 |
TF-3C3E | 未記載 | U+06BF6 | T3-653A(U+06BF6 毶)と字形が重複 |
T3-653A | U+06BF6 | U+06BF5 | 毶→毵へ変更、TF-3C3E(U+06BF6 毶)との重複を解消。 |
T3-2623 | U+225D6 | U+05FF9 | TA-4336をU+225D6に対応(𢗖) |
T5-2438 | U+05FF9 | U+2F89F | T3-2623と字形を入替え、互換漢字に。 |
T4-684F | U+04D56 | U+2FA16 | T5-6F54と対応を入替 |
T5-6F54 | U+2FA16 | U+04D56 | T4-684Fと対応を入替 |
T5-7A38 | U+2F9CB | U+04695 | T4-6E3B(𧢮)の互換漢字から、統合漢字へ変更。 |
T4-533C | U+08786 | U+FFF7B | T4-533C=U+FFF7B=「⿰虫玆」で固定。 |
TF-517D | U+2F9BE | U+08786 | TF-517D=U+08786=「⿰虫兹」で固定。 |
UCS2011 規格表未記載TF面漢字
TF面は文字が符号化されていない区点が1,886符号ありますが、以下はそれ以外で、UCSに未記載なTF面の漢字の一覧表です。いずれも、CNS11643の他の区点と包摂可能であり、重複符号化された可能性があります。
CNS符号 | UCS2011 | 本データ | コメント |
---|---|---|---|
TF-2273 | 未記載 | U+FFFEE | 邜と字形が重複 |
TF-2327 | 未記載 | U+FFFED | 佨と字形が重複 |
TF-2458 | 未記載 | U+FFFEC | 毜と字形が重複 |
TF-245B | 未記載 | U+FFFEB | 毝と字形が重複 |
TF-2650 | 未記載 | U+FFFEA | 孧と字形が重複 |
TF-2752 | 未記載 | U+FFFE9 | 枬と字形が重複 |
TF-2868 | 未記載 | U+FFFE8 | 虲と字形が重複 |
TF-2930 | 未記載 | U+FFFE7 | 俧と字形が重複 |
TF-293B | 未記載 | U+FFFE6 | 枣と字形が重複 |
TF-295D | 未記載 | U+FFFE5 | 哋と字形が重複 |
TF-2B3E | 未記載 | U+FFFE4 | 栐と字形が重複 |
TF-2C62 | 未記載 | U+FFFE3 | 砛と字形が重複 |
TF-2D2C | 未記載 | U+FFFE2 | 朑と字形が重複 |
TF-2D5F | 未記載 | U+FFFE1 | 𠂹と字形が重複 |
TF-2D65 | 未記載 | U+FFFE0 | 倿と字形が重複 |
TF-2F25 | 未記載 | U+FFFDF | 屗と字形が重複 |
TF-2F59 | 未記載 | U+FFFDE | 挿と字形が重複 |
TF-2F5F | 未記載 | U+FFFDD | 捠と字形が重複 |
TF-303C | 未記載 | U+FFFDC | 涥と字形が重複 |
TF-305C | 未記載 | U+FFFDB | 烪と字形が重複 |
TF-3144 | 未記載 | U+FFFDA | 砙と字形が重複 |
TF-3147 | 未記載 | U+FFFD9 | 砽と字形が重複 |
TF-3223 | 未記載 | U+FFFD8 | 聁と字形が重複 |
TF-3234 | 未記載 | U+FFFD7 | 荢と字形が重複 |
TF-324D | 未記載 | U+FFFD6 | 茒と字形が重複 |
TF-334B | 未記載 | U+FFFD5 | 啲と字形が重複 |
TF-335C | 未記載 | U+FFFD4 | 堒と字形が重複 |
TF-335D | 未記載 | U+FFFD3 | 堓と字形が重複 |
TF-362B | 未記載 | U+FFFD2 | 渏と字形が重複 |
TF-364F | 未記載 | U+FFFD1 | 焑と字形が重複 |
TF-372D | 未記載 | U+FFFD0 | 硓と字形が重複 |
TF-3842 | 未記載 | U+FFFCF | 衐と字形が重複 |
TF-3931 | 未記載 | U+FFFCE | 𪔂と字形が重複 |
TF-3B26 | 未記載 | U+FFFCD | 愥と字形が重複 |
TF-3B33 | 未記載 | U+FFFCC | 搃と字形が重複 |
TF-3B5E | 未記載 | U+FFFCB | 朂と字形が重複 |
TF-3B66 | 未記載 | U+FFFCA | 木と字形が重複 |
TF-3B6A | 未記載 | U+FFFC9 | 椬と字形が重複 |
TF-3C4C | 未記載 | U+FFFC7 | 楹と字形が重複 |
TF-3C65 | 未記載 | U+FFFC6 | 焿と字形が重複 |
TF-3C73 | 未記載 | U+FFFC5 | 焹と字形が重複 |
TF-3C74 | 未記載 | U+FFFC4 | 焽と字形が重複 |
TF-3C76 | 未記載 | U+FFFC3 | 焻と字形が重複 |
TF-3D3C | 未記載 | U+FFFC2 | 琻と字形が重複 |
TF-3D7D | 未記載 | U+FFFC1 | 粩と字形が重複 |
TF-3E59 | 未記載 | U+FFFC0 | 萡と字形が重複 |
TF-3E6C | 未記載 | U+FFFBF | 萞と字形が重複 |
TF-3F73 | 未記載 | U+FFFBE | 鈡と字形が重複 |
TF-3F77 | 未記載 | U+FFFBD | 閗と字形が重複 |
TF-4055 | 未記載 | U+FFFBC | 嗴と字形が重複 |
TF-407B | 未記載 | U+FFFBB | 嫑と字形が重複 |
TF-4124 | 未記載 | U+FFFBA | 𡠌と字形が重複 |
TF-417C | 未記載 | U+FFFB9 | 稥と字形が重複 |
TF-4277 | 未記載 | U+FFFB8 | 煷と字形が重複 |
TF-4324 | 未記載 | U+FFFB7 | 煵と字形が重複 |
TF-4332 | 未記載 | U+FFFB6 | 煱と字形が重複 |
TF-4342 | 未記載 | U+FFFB5 | 獇と字形が重複 |
TF-4766 | 未記載 | U+FFFB4 | 廍と字形が重複 |
TF-477B | 未記載 | U+FFFB3 | 慐と字形が重複 |
TF-4935 | 未記載 | U+FFFB2 | 潉と字形が重複 |
TF-4961 | 未記載 | U+FFFB1 | 熖と字形が重複 |
TF-4A4E | 未記載 | U+FFFB0 | 碷と字形が重複 |
TF-4B49 | 未記載 | U+FFFAF | 聣と字形が重複 |
TF-4C4A | 未記載 | U+FFFAD | 賘と字形が重複 |
TF-4E5A | 未記載 | U+FFFAC | 嶥と字形が重複 |
TF-4F45 | 未記載 | U+FFFAB | 樭と字形が重複 |
TF-4F60 | 未記載 | U+FFFAA | 澝と字形が重複 |
TF-5021 | 未記載 | U+FFFA9 | 潨と字形が重複 |
TF-5067 | 未記載 | U+FFFA8 | 磘と字形が重複 |
TF-5121 | 未記載 | U+FFFA7 | 篐と字形が重複 |
TF-513B | 未記載 | U+FFFA6 | 緓と字形が重複 |
TF-5247 | 未記載 | U+FFFA5 | 躼と字形が重複 |
TF-5261 | 未記載 | U+FFFA4 | 鋴と字形が重複 |
TF-5450 | 未記載 | U+FFFA3 | 懓と字形が重複 |
TF-552A | 未記載 | U+FFFA2 | 橺と字形が重複 |
TF-556C | 未記載 | U+FFFA1 | 燝と字形が重複 |
TF-557E | 未記載 | U+FFFA0 | 璤と字形が重複 |
TF-562A | 未記載 | U+FFF9F | 璍と字形が重複 |
TF-5648 | 未記載 | U+FFF9E | 磮と字形が重複 |
TF-5730 | 未記載 | U+FFF9D | 朥と字形が重複 |
TF-574B | 未記載 | U+FFF9C | 蕳と字形が重複 |
TF-585B | 未記載 | U+FFF9B | 錿と字形が重複 |
TF-5862 | 未記載 | U+FFF9A | 鍂と字形が重複 |
TF-593B | 未記載 | U+FFF99 | 鮘と字形が重複 |
TF-5A68 | 未記載 | U+FFF98 | 濸と字形が重複 |
TF-5B3A | 未記載 | U+FFF97 | 皼と字形が重複 |
TF-5D32 | 未記載 | U+FFF96 | 鎆と字形が重複 |
TF-5D7E | 未記載 | U+FFF95 | 鵉と字形が重複 |
TF-6063 | 未記載 | U+FFF94 | 蟵と字形が重複 |
TF-613B | 未記載 | U+FFF93 | 鎼と字形が重複 |
TF-613F | 未記載 | U+FFF92 | 鎽と字形が重複 |
TF-6250 | 未記載 | U+FFF91 | 櫦と字形が重複 |
TF-626B | 未記載 | U+FFF90 | 瀮と字形が重複 |
TF-6273 | 未記載 | U+FFF8F | 爎と字形が重複 |
TF-633D | 未記載 | U+FFF8E | 糭と字形が重複 |
TF-6353 | 未記載 | U+FFF8D | 藔と字形が重複 |
TF-6422 | 未記載 | U+FFF8B | 贌と字形が重複 |
TF-642F | 未記載 | U+FFF8A | 鏱と字形が重複 |
TF-6437 | 未記載 | U+FFF89 | 鏯と字形が重複 |
TF-6538 | 未記載 | U+FFF88 | 櫵と字形が重複 |
TF-6549 | 未記載 | U+FFF87 | 爘と字形が重複 |
TF-6559 | 未記載 | U+FFF86 | 礢と字形が重複 |
TF-6665 | 未記載 | U+FFF85 | 鐤と字形が重複 |
TF-6850 | 未記載 | U+FFF84 | 趰と字形が重複 |
TF-6877 | 未記載 | U+FFF83 | 霻と字形が重複 |
TF-694A | 未記載 | U+FFF82 | 欎と字形が重複 |
TF-694D | 未記載 | U+FFF81 | 欍と字形が重複 |
TF-6A73 | 未記載 | U+FFF80 | 蠴と字形が重複 |
TF-6A7B | 未記載 | U+FFF7F | 鑧と字形が重複 |
TF-6B28 | 未記載 | U+FFF7E | 鑦と字形が重複 |
TF-6C70 | 未記載 | U+FFF7D | 靍と字形が重複 |
TF-6D36 | 未記載 | U+FFF7C | 𩫳と字形が重複 |
CNS11643の「攵」と「攴」
CNS11643に含まれるいくつかの「攵」を部首として持つ漢字は、本来、 統合は不可能なはずのUCSの「攴」と統合されています。
UCS | CNS (CJKU_SR.txt) |
---|---|
03A81(㪁) | T4-265E |
03A88(㪈) | T4-2D42 |
03A8C(㪌) | T4-3228 |
03A8E(㪎) | T4-322C |
03A9C(㪜) | T4-3D5C |
03AA2(㪢) | T5-462E |
03AAC(㪬) | T4-5B3A |
CNS11643の字形ミス
UCS | CNS | 注記 |
---|---|---|
047CD(䟍) | T4-694E | 「八」が「心」になっています。 |
272F0(𧋰) | T7-496B | 「䖵」が「虫」になっています。 |
リンク・資料集
- Unicode Consortiumの、ObsoleteなCNS11643.TXT 対応表。
- ICU Subversion Repository における CNS11643対応表
- Mozilla 系列與 Big5 中文字碼