GB漢字に関する情報

GB漢字の規格の構成

GBの漢字規格(「信息交换用汉字编码字符集」という名前を共通に持つ規格)には以下のものがあります。いずれもISO/IEC 2022で規定された符号化方法です。

簡体字版繁体字版
略号規格番号規格名称 略号規格番号規格名称
G0GB 2312-80基本集 G1GB/T 12345-90輔助集
G2GB 7589-87第二輔助集 G3GB 13131-91第三輔助集(标準单行本未出)
G4GB 7590-87第四輔助集 G5GB 13132-91第五輔助集(标準单行本未出)

上記のうち、GB 2312の漢字は全て URO に含まれています。GB/T 12345は「𨻶」の1字のみ拡張Bにありますがそれ以外は全て、UROに含まれています。

また、上記の他に、GB 2312のスーパーセットとなる文字符合規格には、以下のものがあります。

GB 8565.2-88
GB/T 15564-1995
ITU-T T.101 Table C.16
GBK (仮称 GB 16500)
GB 18030

他に漢字符号が記載されている中国の規格には、GB 12052-89, GB 13000.1-93などがあります。

GB⇔UCS対応表

GB⇔UCS対応表は、中国の GB 7589-87, GB 7590-87 および GB 12052-90 の漢字符号とUCSの対応表です。これらの中国の規格は、1993年に最初のUCS統合漢字が規格化された際、原規格として参照されませんでした。そのため、統合漢字に含まれない漢字が多数存在しており、またUCSとの対応表も存在していません。なお原規格となったGB規格とUCSの完全な対応表については、Uni2GB.Zを参照してください。

コメント欄にて # <Gx-yyyy> と <,> で囲まれて記述されているものは、CJKU_SR.txtでのソース情報です。

略号規格名称
G2GB 7589-1987
G4GB 7590-1987
GKGB 12052-1989

GB 7589/GB 7590とISO/IEC 10646

下記は、GB 7589 (G2), GB 7590 (G4) と、ISO/IEC 10646のソース情報(CJKU_SR.txt)のG3, G5の主な差異などをまとめたものです。GB規格は区点コード、CJKU_SR.txtは、HEXコードを採用していますが、ここでは区点コードに揃えて両者の対比を示しています。

なお原則として、G3は全てBMPにあるはずですが、例外が3文字(𡍷、𢍁、𥝔)あります。また、G1とG3は2文字重複しています(瞭、囉)が、いずれもG1の88区の増補漢字(※下記参照)であり、また現代漢語常用字表(1988年発布)の次常用字のうち、GB 2312に含まれていない2文字(瞭、啰)に対応します。

(G3/G5の赤字は実際にはUCSにない想定符号です。注記のうち[xxxx]と大括弧で囲んであるものはHEX表記です。)

GB 7589 / GB 7590ISO/IEC 10646  注記
G2-1665 𠆵G3-1665 傱 16区65点から83点まで1文字ずつずれています。
ISO/IEC 10646でG3の16区83点に新しく現れた「儜」およびその簡体字「佇」は、従来はG0〜G5面のいずれにもありませんでした。「佇」の簡体字「伫」はG0とG1の双方の56区89点にあるため、G1が「佇」の形を「伫」に誤った可能性があります。
G2-1666 ⿰亻从G3-1666 仱
G2-1667 仱 G3-1667 伀
.....
G2-1682 伭 G3-1682 㒑
G2-1683 ⿰亻汇G3-1683 儜
G2-1957 犮 G3-1957 犮UCSでは[GE-3272]がソースとなっています。
G2-2053 𡍷 G3-2053 𡍷BMPにはG3-2053はなく、「堩」は[GE-256D]がソースとなっています。U+5829をG3-2053に割り当てようとしたのを中止し、あらためてU+21377に割り当て直した可能性があります。
G2-2105 𢍁 G3-2105 𢍁G3ですがBMPにありません。UCSではソースは"G_HZ"となっています。
G2-2125 綔 G3-2125 綔UCSでは[GE-3837]がソースとなっています。
G2-2251 啰 G3-2251 囉「囉」はG1-8851と重複しているため、UCSでは[G1-7853]がソースとなっています。
G2-4153 扜 G3-4153 扜UCSでは[GE-2A7C]がソースとなっています。
G2-4641 𣣌 G3-4641 㰷どちらかが誤っている可能性があります。
G2-5558 砞 G3-5558 砞UCSでは[GE-352E]がソースとなっています。
G2-5843 瞭 G3-5843 瞭「瞭」はG1-8849と重複しているため、UCSでは[G1-7851]がソースとなっています。
G2-5951 𥝔 G3-5951 𥝔G3ですがBMPにありません。UCSではソースはG_KX084910となっています。
G2-6953 舦 G3-6953 舦「舦」は香港文字レパートリに入っていたため、UCSではG1の仮想92区がソースとなっています。
G2-7321 ⿱艹⿵门月G3-7321 蕑G2-7321は「⿱艹闲」の誤りの可能性があります。
G2-7383 蓃 G3-7383 蓃UCSでは[GE-3B24]がソースとなっています。
G2-7870 𨡱 G3-7870 䤀どちらかが誤っていると考えられます。
G2-8394 ⿰讠荅G3-8394 譗G2-8394は「⿰讠答」の誤りと考えられます。
G2-8774 ⿰鱼夸G3-8774 鮬G2-8774とG2-8822は同じ漢字です。G3-8822を参照する限り、G2-8822は「⿰鱼奈」の誤りと考えられます。
G2-8822 ⿰鱼夸G3-8822 䱞
G2-9141 ⿱髟间G3-9141 鬜G2-9141が「⿱髟闲」か、G3-9141が「鬝」かのいずれかの誤りの可能性があります。
G4-2435 咲 G5-2435 咲「咲」はURO漢字ですが、UCSでは[GE-244D]がソースとなっています。
G4-2283 燅 G5-2283 燅「燅」はG5-5028と重複しています。
G4-2607 ⿰巾㝉G5-2607 𢁼「宁」は「寧」の簡体字にもなりえますが、康煕字典には「⿰巾寧」という漢字はありません。
G4-2612 𢁼 G5-2612 ⿰巾寧
G4-2911 𪪑 G5-2911 㢗「㢗」はURO漢字ですが、UCSでは[G_KX035104]がソースとなっています。
G4-2959 䦶 G5-2959 䦛「䦛」はURO漢字ですが、UCSでは[G7-2246]がソースとなっています。
G4-3586 桚 G5-3586 桚「桚」はURO漢字ですが、UCSでは[GE-2D76]がソースとなっています。
G4-3060 㞙 G5-3060 㞙「㞙」は拡張A漢字ですが、UCSでは[G_HZ]がソースとなっています。
G4-3089 㢳 G5-3089 㢳「㢳」は拡張A漢字ですが、UCSでは[G7-233B]がソースとなっています。
G4-3105 ⿰弓⿱尔王G5-3105 ⿰弓⿱爾王G4-3105と3107は、「王」と「玉」の差しかありません。「㣆」もまた「王」の方であり、CJKU_SR.txtでは、[G5-3F25]、すなわち31区5点に割り当てられています。
G4-3107 ⿰弓玺G5-3107 ⿰弓璽
G4-3650 ⿱林卮G5-3650 ⿱林卮「⿱林卮」は「㯄」の誤りの可能性がありますが、「㯄」のソースはG_KX054912となっています。
G4-3828 攰 G5-3828 攰「攰」は香港文字レパートリに入っていたため、UCSではG1の仮想92区がソースとなっています。
G4-4919 烎 G5-4919 烎UCSでは烎(U+70CE)は[GE-3162]となっています。
G4-5046 㸂 G5-5046 㸂UCSでは㸂(U+3E02)は[G_KX068501]となっています。
G4-5061 槱 G5-5061 槱UCSでは槱(U+69F1)は中国字形は「⿰木⿱酉灬」に、日本字形は「⿱梄灬」になってこの2つの字形は統合されており、中国字形はG3-3491がソースとなっています。しかし、G5-5061には「⿱梄灬」が別途、符号化されています。
G4-5166 㤖 G5-5166 㤖G4を「⿰忄㝉」か、G5を「懧」に誤った可能性があります。
G4-5368 㳾 G5-5368 㳾本来はG5の文字ですが、CJKU_SRC.txtでは"G7-2358"となっています。
G4-5983 ⿱鸟几G5-5983 鳧鳧はG1-5776と重複します。UCSでは鳬が[G1-596C]となっています。
G4-6329 䎬 G5-6329 䎱䎱[G7-223C]・䎬[G7-223B]は双方ともBMPにあります。
G4-6134 𤷜 G5-6134 𤷜G4-6134は、𤸌を誤った可能性があります。
G4-6710⿱竹发G5-6710 𥳊 少なくとも67区11点から25点の範囲が1ずつずれています。
G4-6711 𥬶 G5-6711 筀
G4-6712 筀 G5-6712 𥬯
G4-6713 𥬯 G5-6713 䇭
G4-6714 䇭 G5-6714 䇯
G4-6715 䇯 G5-6715 𥬹
G4-6716 𥬹 G5-6716 𥬵
G4-6717 𥬵 G5-6717 簻
G4-6718 ⿱竹过G5-6718 𥬷
G4-6719 𥬷 G5-6719 筗
G4-6720 筗 G5-6720 䇮
G4-6721 䇮 G5-6721 𥬲
G4-6722 𥬲 G5-6722 簅
G4-6723 ⿱竹产G5-6723 𥬮
G4-6724 𥬮 G5-6724 簤
G4-6725 ⿱竹买G5-6725 ?
G4-6726 𥭙 G5-6726 ?
G4-6727 ⿱竹严G5-6727 䉷
G4-6764 篫 G5-6764 篫篫はBMPにありますが、CJKU_SR.txtでは[GE-2D47]です。
G4-6809 簆 G5-6809 簆簆はBMPにありますが、CJKU_SR.txtでは[GE-373A]です。簆の旁はTソースは「寇」、Gソースでは「𡨥」ですが、GB 7590では「寇」となっています。
G4-6938 衴 G5-6938 衴衴はG2/G3-7023と重複しています。
G4-7130 芀 G5-7130 芀CJKU_SR.txtでは「芀」は[G3-682F]となっていますが、GB-7589では「艻」がG2-7215となっていますので、おそらく誤りです。なお「艻」はCJKU_SR.txtでは[GE-3A34]となっていますが、これは本来は[G3-682F]となるべきであり、「芀」が[G5-673E]となるべきでした。
G4-7391 蓹 G5-7391 蓹 73区92または93点から74区16乃至20点の範囲が1ずつずれています。おそらくは、G4の「薞」(CJKU_SR.txtでは[GE-3B49])をG5では「蕵」に変更し、1画減った分、前に移動してその後ろを1ずつずらして直したと思われます。
G4-7392 ⿱艹鲁G5-7392 𧀦
G4-7393 䔻 G5-7393 蕵
G4-7394 𦺑 G5-7394 䔻
G4-7401 𦺸 G5-7401 𦺑
G4-7402 𦼯 G5-7402 𦺸
G4-7403 𦺇 G5-7403 𦼯
G4-7404 蕅 G5-7404 𦺇
G4-7405 䔽 G5-7405 蕅
G4-7406 𦻂 G5-7406 䔽
G4-7407 𦺍 G5-7407 𦻂
G4-7408 𦺦 G5-7408 𦺍
G4-7409 䔰 G5-7409 𦺦
G4-7410 蕠 G5-7410 䔰
G4-7411 𦺖 G5-7411 蕠
G4-7412 𦺒 G5-7412 𦺖
G4-7413 ⿱艹缕G5-7413 𦺒
G4-7414 蕼 G5-7414 𧃒
G4-7415 𦼰 G5-7415 蕼
G4-7416 ⿱艹㮊G5-7416 𦼰
G4-7417 𦼸 G5-7417 ⿱艹㮊
G4-7418 薞 G5-7418 𦼸
G4-7419 𦼫 G5-7419 𦼫
G4-7420 薥 G5-7420 薥
G4-8114 ⿰角间G5-8114 ⿰角間UCSでは「𧤽」が符号化されています。
G4-8334 ⿱雨厄G5-8334 ⿱雨厄G4-8334相当繁体字はUCSにはありません。
G4-8388 ⿱夭非G5-8388 ⿱夭非 G3-8457の「䨿」は「⿱天非」の形で、G5-8388の「䨿」は「⿱夭非」の形です。これらは現在のUCSでは区別されていません。
G4-8465 䘀 G5-8465 䘀BMPの「䘀」のソースは[G_KX110048]となっています。
G4-8507 ⿰阝⿱正与G5-8507 𨻳G4-8507は「𨻳」の誤りと思われます。
G4-8572 ⿰钅斫G5-8572 䤺BMPの「䤺」のソースは[G_KX131501]となっています。
G4-8593 ⿰钅䥇G5-8593 䥇BMPの「䥇」のソースは[G7-2254]となっています。
G4-8659 ⿰鱼吴G5-8659 ⿰魚吴G4-8659相当繁体字はUCSにはありません。
G4-8771 䪞 G5-8771 䪞 G4-8771の「䪞」は「⿱天韭」の形で、G4-8772の「䪞」は「⿱夭韭」の形です。これらは現在のUCSでは区別されていません。
G4-8772 䪞 G5-8772 䪞

GB/T 12345 と UCS

下記の表は、GB/T 12345の文字のうち、UCSのソース情報と字形が異なるものの一覧です。

区点コードGB/T 12345UCS注記
G1-5689
G1-3027
G1-2729
G1-5928
G1-6531
G1-7415
G1-5385
G1-2727
G1-2990
G1-3890
G1-3860
G1-2733
G1-3917
G1-2732
G1-5389
G1-5388
G1-2194
G1-2730
G1-5386
G1-8361
G1-5877
G1-3305G0-3305は隶、隷はUCSでは[GE-443F]。
G1-3018
G1-5776G0-5576は凫、鳧はUCSでは[G5-5B73]。

GB/T 12345 増補文字と GB 2312対応表

下記の表は、GB/T 12345(G1)の増補文字とGB 2312の対応を示します。G1の増補漢字は複数の繁体字が同一の簡体字に対応する場合に、対応する区点以外の繁体字を符号化するために設けられました。

G1 88/89区対応 GB2312対応 G1非GB繁体字
1-88010-16581-1658
1-88020-16691-1669
1-88030-17771-1777
1-88040-17801-1780[別]
1-88050-18231-1823
1-88060-18371-1837
1-88070-19071-1907[厰]
1-88080-19691-1969[沖]
1-88090-19831-1983
1-88100-19861-1986
1-88110-21171-2117
1-88120-21191-2119
1-88130-21771-2177
1-88140-22121-2212
1-88150-22231-2223[鬭鬦鬪]
1-88160-22811-2281
1-88170-23021-2302
1-88180-23221-2322
1-88190-23651-2365
1-88200-24201-2420
1-88210-24411-2441[榦]
1-88220-25401-2540
1-88230-25461-2546
1-8824广0-2567广1-2567
1-88250-26471-2647
1-88260-26901-2690[衚]
1-88270-27141-2714
1-88280-27561-2756[囘]
1-88290-27671-2767[滙]
1-88300-27811-2781
1-88310-28021-2802
1-88320-28241-2824
1-88330-28501-2850
1-88340-28591-2859
1-88350-28861-2886
1-88360-29101-2910
1-88370-30011-3001
1-88380-30611-3061
1-88390-30771-3077
1-88400-31431-3143
1-88410-31681-3168
1-88420-32071-3207
1-88430-32151-3215
1-88440-32161-3216
1-88450-32591-3259
1-88460-32791-3279[裡]
1-88470-32901-3290[厤]
1-88480-33171-3317
1-88490-33431-3343
1-88500-34171-3417
1-88510-34621-3462
1-88520-35251-3525
1-88530-35411-3541
1-88540-35411-3541
1-88550-35411-3541
1-88560-35541-3554
1-88570-35701-3570[麫麪]
1-88580-35791-3579
1-88590-17571-1757
1-88600-38271-3827
1-88610-38301-3830
1-88620-38431-3843
1-88630-38451-3845
1-88640-38511-3851
1-88650-39071-3907
1-88660-39091-3909
1-88670-47431-4743
1-88680-39790-3979
1-88690-39901-3990
1-88700-40231-4023
1-88710-41651-4165
1-88720-42851-4285[朮]
1-88730-43411-4341
1-88740-43531-4353[甦]
1-88750-44081-4408[枱]
1-88760-44081-4408[枱]
1-88770-44081-4408[枱]
1-88780-44191-4419
1-88790-45311-4531
1-88800-45371-4537
1-88810-45821-4582
1-88820-47211-4721
1-88830-47211-4721
1-88840-47441-4744
1-88850-47821-4782[曏]
1-88860-48751-4875
1-88870-50091-5009
1-88880-50221-5022
1-88890-51841-5184
1-88900-51891-5189
1-88910-51851-5185
1-88920-52241-5224
1-88930-52381-5238
1-88940-52641-5264
1-89010-54021-5402
1-89020-54271-5427
1-89030-54271-5427
1-89040-54341-5434
1-89050-54381-5438
1-89060-54541-5454
1-89070-54761-5476
1-89080-54941-5494
1-89090-55281-5528

GB-UCS mapping table

`GB-UCS mapping table' provides mappings between GB 7589, GB 7590, GB 12052 and UCS. As these standards are not the source for the UCS, there is no official mapping table between these GB standards and UCS. Furthermore, these standards contains a large number of characters still not encoded in the UCS.

For the complete mapping table between GB standards which ARE indeed the sources and UCS, please refer Uni2GB.Z.