漢字字形データベース
Ideographic Variation Database
漢字字形データベース (IVD)
IVD (Ideographic Variation Database ... 漢字字形データベース) は、UCS統合漢字の字体管理データベースおよび符号表現です。
IVDの構造や、漢字字形登録の手続きは、 UTS #37にて定められています。
IVDは複数の字形コレクションを管理します。コレクションは各用途に応じた字形の集合です。各コレクション下のグリフは、各UCS符号毎にコレクション間でユニークな字形選択子 (Variation Selector ... VS) を割り当てられます。(統合)漢字符号の直後に選択子を付加すると、漢字字形指示列 (Ideographic Variation Sequence ... IVS)を構成できます。復号側はVSを使って字形を選択して表示できます。VSは原則として照合時には無視されます。
IVDは以下の3つのデータベースが、Unicode Consortium によって管理されます。
- IVD_Collections.txt
- このファイルは、IVDの各コレクションについて、代表Webページと、グリフ識別子の正規表現を管理します。
- IVD_Sequences.txt
- このファイルは、IVSと上記の各コレクションが管理するグリフとの対応を示します。
- IVD_Charts.pdf
- 各コレクションの実際のグリフ内容です。
2010年現在、IVDには2つのコレクションが登録されています。
- Adobe-Japan1 … Adobe社が管理するAdobe-Japan1グリフ集合のコレクション
- Hanyo-Denshi … 経産省・汎用電子情報交換環境整備プログラム委員会が管理する、住基ネット・戸籍システム・登記システム等での利用を想定したコレクション
IVDへの字形登録方法
字形登録方法はUTS#37の第4章に記述されています。原則としてコレクション(とグリフ)の登録希望者は、まずコレクション名・字形識別子の正規表現・代表Webページの登録を申請し、90日間のレビューを受けます。レビュー後、Unicode Consortium によってコレクションを登録されると、コレクション下に属するグリフと提案IVSを申請します。これも90日間のレビューが行われ、レビューコメント処理後に、Unicode Consortium によって、最終的なIVSが割り当てられます。
関連リンク
Adobe-Japan1
IVDに最初に登録された Adobe-Japan1 コレクションは、Adobeの日本語用グリフレパートリ・Adobe-Japan1-6の字形を集めたものです。以下は、Adobe-Japan1コレクションに登録された(ピンク色は、登録される予定の)IVSのうち、他のUCS符号との対応または字形に注意を要するものです。
CID | IVS | 参照UCS/IDS |
---|---|---|
CID+7680 | 25874(𥡴)E0100 | 07A3D(稽) |
CID+13356 | 0614E(慎)E0101 | 0613C(愼) |
CID+13370 | 093AE(鎮)E0101 | 093AD(鎭) |
CID+13383 | 04F75(併)E0101 | 05002(倂) |
CID+13651 | 0885E(衞)E0101 | 2B7D8(𫟘) |
2B7D8(𫟘)E0100 | ||
CID+13723 | 2363A(𣘺)E0101 | 2B78E(𫞎) |
CID+13724 | 2363A(𣘺)E0102 | 2B78E(𫞎) |
2B78E(𫞎)E0100 | ||
CID+13725 | 090F7(郷)E0101 | 09115(鄕) |
CID+13729 | 0738B(王)E0101 | 248E9(𤣩) |
CID+13745 | 07A74(穴)E0102 | 05B82(宂) |
CID+13763 | 05DE5(工)E0101 | |
CID+13747 | 0821F(舟)E0101 | 06708(月) |
CID+13780 | 04ECA(今)E0101 | 2B746(𫝆) |
2B746(𫝆)E0100 | 04ECA(今) | |
CID+13780 | 2B746(𫝆)E0100 | 04ECA(今) |
CID+13866 | 052E2(勢)E0101 | 2B751(𫝑) |
2B751(𫝑)E0100 | 052E2(勢) | |
CID+13912 | 09039(逹)E0101 | 09054(達) |
09054(達)E0101 | 09039(逹) | |
CID+13989 | 06669(晩)E0101 | 0665A(晚) |
CID+14064 | 0687A(桺)E0101 | 2B789(𫞉) |
2B789(𫞉)E0100 | ||
CID+14065 | 0687A(桺)E0102 | ⿰木⿸𫝁丶 |
CID+14078 | 07F8A(羊)E0100 | 2634C(𦍌) |
CID+14089 | 06881(梁)E0101 | 09FC4(鿄) |
09FC4(鿄)E0100 | 06881(梁) | |
CID+14106 | 0528D(劍)E0101 | ⿰⿳亼吅双刂 |
CID+14140 | 0675E(杞)E0101 | 233CC(𣏌) |
233CC(𣏌)E0100 | 0675E(杞) | |
CID+14142 | 0688D(梍)E0101 | 0688E(梎) |
CID+14145 | 2A9E6(𪧦)E0100 | |
CID+14168 | 07953(祓)E0101 | 09FC6(鿆) |
09FC6(鿆)E0100 | 07953(祓) | |
CID+14174 | 2B7BD(𫞽)E0100 | |
CID+14187 | 07F50(罐)E0101 | ⿰缶⿱𠂉⿻一隹 |
CID+14199 | 08279(艹)E0101 | 0535D(卝) |
CID+14226 | 08E4A(蹊)E0101 | ⿰𧾷⿱爫夫 |
CID+14278 | 2B81A(𫠚)E0100 | |
CID+15400 | 07F61(罡)E0101 | ⿱皿止 |
CID+19071 | 29FCE(𩿎)E0100 | 29FD7(𩿗) |
29FD7(𩿗)E0100 | 29FCE(𩿎) | |
CID+20088 | 2B753(𫝓)E0100 | |
CID+20096 | 2B75A(𫝚)E0100 | |
CID+20097 | 2B75C(𫝜)E0100 | |
CID+20114 | 05EA7(座)E0101 | 2B776(𫝶) |
2B776(𫝶)E0100 | ||
CID+20125 | 2B77C(𫝼)E0100 | |
CID+20141 | 2B782(𫞂)E0100 | |
CID+20149 | 2B78B(𫞋)E0100 | |
CID+20152 | 06AF8(櫸)E0100 | 237F1(𣟱) |
237F1(𣟱)E0100 | 06AF8(櫸) | |
CID+20153 | 2B794(𫞔)E0100 | |
CID+20156 | 09FCC(?)E0101 | ⿰氵亰 |
CID+20174 | 0755D(畝)E0101 | ⿱亠畂 |
CID+20176 | 2B7AC(𫞬)E0100 | |
CID+20180 | 2B7AF(𫞯)E0100 | |
CID+20194 | 2B7C9(𫟉)E0100 | |
CID+20201 | 083DF(菟)E0101 | 2B7CF(𫟏) |
2B7CF(𫟏)E0100 | ||
CID+20204 | 2B7D2(𫟒)E0100 | |
CID+20240 | 0943A(鐺)E0101 | 2B7F0(𫟰) |
2B7F0(𫟰)E0100 | ||
CID+20247 | 2B765(𫝥)E0100 | |
CID+20253 | 09C08(鰈)E0101 | ⿰魚⿱丗木 |
CID+20254 | 09C24(鰤)E0101 | ⿰魚师 |
CID+20256 | 2B80D(𫠍)E0100 | |
CID+20260 | 2B817(𫠗)E0100 |
汎用電子情報交換環境整備プログラム
IVDに2番目に登録された、汎用電子情報交換環境整備プログラム(以下、汎用電子プログラム)コレクションは、日本の戸籍・住基・登記の各システムで登録・利用されている漢字グリフをUCSで利用可能にします。
汎用電子プログラム委員会は2003年度から2008年度にかけて戸籍・住基・登記システムの調査とグリフ開発を行い、計67,951グリフを選定、当面は非漢字と判断された167文字をのぞき、577組1,173字を統合して、67,187漢字グリフに整理されました。これらは「汎用電子情報交換環境整備プログラム成果報告書・別冊(2009年3月・全12分冊)」にまとめられています。
汎用電子のグリフは平成明朝体をベースに開発されました。各システムで利用される漢字グリフを比較・統合し、対応する平成明朝体グリフを、既製の平成明朝体グリフから探し、不足分は新規に作字されました。以下は汎用電子で利用される既存の平成明朝体グリフの識別子の一覧です。(ただし、グリフ数に、改良版グリフ(末尾にSが付く)は除きます。)
平成明朝体グリフ | グリフ識別子 | グリフ数 | 説明 |
---|---|---|---|
JIS X 0208 | JA1601 - JA8406 | 6,355 | JIS X 0208:1990の規格書用のグリフ |
JIS X 0212 | JB1601 - JB7767 | 5,801 | JIS X 0212:1990の規格書用のグリフ |
FDPC追加 | FT1601 - FT3030 | 1,247 | 78JISの字形を追加 FDPC会員から要望のあった文字の追加 |
ISO/IEC 10646拡充対応1 | IA0101 - IA6730 | 5,658 | ISO/IEC 10646 統合漢字拡張Aの策定に際して作成された文字。(FDPC追加と重複の可能性がある) |
ISO/IEC 10646拡充対応2 | IB0101 - IB3313 | 2,742 | 人名、地名用漢字の追加(FDPC追加と重複の可能性がある) |
IPA向け漢字 | IP4E0F - IP9FA4 | 5,908 | JIS X 0221のCJK統合漢字の中で、X0208/0212に含ない文字で大漢和辞典に掲載されている漢字を追加(FDPC追加と重複の可能性がある) |
JIS X 0213 JIS3 | JC1402 - JC9489 | 1,249 | JIS X 0213:2000の規格書用のグリフ(以前作成したものの流用含む) |
JIS X 0213 JIS4 | JD0101 - JD9486 | 2,436 | JIS X 0213:2000の規格書用のグリフ(以前作成したものの流用含む) |
表外漢字不足 | HG1601 - HG1670 | 70 | 表外漢字字体表を作成するために、既存の平成明朝で不足している文字を追加 |
上記にないグリフは新規に作字されました。
母体文字 | グリフ識別子 | 文字数 | 新規作字数 | 説明 |
---|---|---|---|---|
住基統一文字 | JTxxxx | 19,432文字 | 約2,900文字追加。 | 住民基本台帳ネットワーク用の文字。 |
戸籍統一文字 | KSdddddd | 56,040文字 | 約30,000文字追加。 | JTにない戸籍システム用に作字した文字。 |
登記固有文字 | TKdddddddd | 10,330文字 | 約9,200文字追加。 | JT,KSにない登記システム用に作字した文字。 |
汎用電子の67,951文字は、以下のような内訳となっています。 (※ 詳細は汎用電子情報交換環境整備プログラム成果報告書・2009年度 pp. 22-56 を参照)
戸籍統一文字・住基統一文字・登記統一文字に三者共通 | 15,986 字 |
戸籍統一文字・登記統一文字に二者共通 | 39,281 字 |
住基統一文字・登記統一文字に二者共通 | 1,092 字 |
住基統一文字のみ | 2,354 字 |
登記統一文字のみ | 9,238 字 |
計 67,951 字 |
汎用電子コレクションに関するデータ
以下のデータのうち、グリフ識別子に ”*” が付記されているものは、「成果報告書・別冊」には記載されていないグリフです。これらは、主にUCS規格に関連するグリフです。汎用電子コレクションは、UCS規格書との整合性を高めるために、JA, JB, IA の規格書記載グリフなどを優先的に利用しているため、グリフ名やグリフ形状が、実際の汎用電子とは異なるものがあります。
- 汎用電子グリフ・UCS対応データ
- 本データは、汎用電子で管理しているグリフと、UCSの対応表です。 UCSコードの後ろに [U] とある場合はUCS規格書の代表字形であることを示します。また、[18]〜[46]の数字がある場合は、このグリフがIVDに登録されていることを示します。 "~"で始まる他グリフID(*なし)を参照する場合は、汎用電子文字表ではそのグリフを参照します。 "="で始まる他グリフID(*付き)を参照する場合は、汎用電子コレクションはそのグリフを参照します。
- 汎用電子グリフ・AJ1-6 CID対応データ
- 本データは、汎用電子のコレクションのグリフと、アドビのコレクションのグリフのもっとも近いと思われる字形の参考対応表です。本対応表はあくまでも参考程度に留めてください。また、汎用電子IDに"*"が付いているグリフと、"*"がついていないグリフでCIDが重複する場合がありますので注意ください。なお、Adobe-Japan1と汎用電子の両コレクションとも、各グリフが包摂する字形範囲は暗示的です。そのため、将来、各コレクションがグリフを拡充・追加登録する過程において、コレクションをまたがる類似グリフの対応は変化する可能性があります。
汎用電子コレクション・文字一覧表のバグ
- U+067D7[18] における "JC8559" は、本来は "JB3532" が対応すべきものです。ただし名称のみで、字形に違いはありません。
- U+06BA9[19] における "JC8639" は、本来は "JC8639S" が対応すべきものです。
- U+07DCB[20] における "FT1664" は、使用を推奨されません。 "FT1664" と、U+07DCB[19] "JA4076" は、汎用電子「デザイン統一基準」(平成20年度成果報告書 4.4.4.2 参照)では、区別して扱わないことになっています。
- 登記01053890(第3分冊1,349ページ)は、IB2290ではなくIB2291に割り当てられます。
- 別冊第04分冊・1667ページの JTB80E は、「糸へん」の代わりに「米へん」となっています。
- 別冊第11分冊・5269ページの TK01035730 は、「扌へん」の代わりに「木へん」となっています。
- 別冊第11分冊・5439ページの TK01063070 は、本来は「春」の5画目は横線と交差しません。
汎用電子文字一覧表の重複掲出字
汎用電子プログラムでは、住基・戸籍・登記等の各システムを整理した67,951文字に対し、デザイン統一基準の適用の結果、同じ形になるグリフや、明らかな原典(辞書等)重複記載に基づくもの、約580組に対して同じグリフを割り当てています。しかし、それでも未だ、多くの字形重複が残っています。以下はそれらを整理したものです。
大漢和辞典での重出に関連する重複
- KS161220(14344)とIA4342(29321)(第1分冊316ページ)
- KS255660(22838)とIA4349(29383)(第1分冊316ページ)
- KS246260(21951)とKS412000(36299)(第7分冊3,456ページ)
- KS066630(5812)とKS281590(25153)(第8分冊3,602ページ)
- KS315370(28229)とKS164030(14570)(第8分冊3,738ページ)
- KS102570(9063)とKS338340(30311)(第8分冊3,840ページ)
- KS428270(37829)とKS531620(46965)(第9分冊4,187ページ)
- KS527380(46574)とKS212170(18827)(第10分冊4,613ページ)
デザイン統一などに関連する重複
汎用電子デザイン統一基準では、「筆押さえ」の有無や「とめと払いの違い」を区別しないことになっていますが、この統一基準に反して区別しているものも含みます。
- IA0157とIB0604(第1分冊24ページ)
- IA0191とJTC0B6(第1分冊41ページ)
- IA0182SSとJTAEFB(第1分冊34ページ)
- IA0273とIB1794(第1分冊89ページ)
- IA0314SとJTB189(第1分冊105ページ)
- JTB3ABとIA0410S(第1分冊154ページ)
- KS203120とIA2846(第1分冊179ページ)
- TK01082800とIA0651(第1分冊355ページ)
- IA0679とIB2924(第1分冊379ページ)
- IB2949とIA0693(第1分冊389ページ)
- IA5175とTK01086620(第1分冊393ページ)
- JT5125とIP5125(第2分冊598ページ)
- JD8484とTK01073480(第2分冊608ページ)
- JB2459とJTAEA6(第2分冊782ページ)
- JTB051SとIA1607(第2分冊911ページ)
- JC8523とJTB29DS(第3分冊1,125ページ)
- JTB494 (第3分冊1,333ページ)とJTC0BF(第11分冊5,032ページ)
- KS256020とJA6615(第4分冊1,505ページ)
- IP7776(第4分冊1,523ページ)とTK01063070(第11分冊5,439ページ)
- TK01072860とJB5257(第4分冊1,702ページ)
- JA7659とJTBBDBS(第5分冊2,096ページ)
- KS440200とFT2605(第5分冊2,161ページ)
- KS443250SとFT2623(第5分冊2,177ページ)
- JTBFF0とJB7364S(第5分冊2,406ページ)
- KS544990とIP9EF3(第5分冊2,495ページ)
- KS008390とKS008560(第6分冊2,553ページ)
- KS083220とKS083420(第6分冊2,840ページ)
- JTB655(第6分冊2,837ページ)とTK01062790(第11分冊5,437ページ)
- KS310030とKS310790(第8分冊3,716ページ)
- KS315300(第8分冊3,736ページ)とTK01016420(第11分冊5,143ページ)
- KS435340とKS435610(第9分冊4,220ページ)
- JD8990とIB3017(第9分冊4,250ページ)
- KS509920とTK01099440(第10分冊4,538ページ)
- JD9344とJTC01AS(第10分冊4,602ページ)
- JTB49F(第10分冊4,985ページ)とTK01052370(第11分冊5,373ページ)
- JB3431とJTB29DS
- JD9344とJTC01AS
汎用電子関連情報
参考文献・関連サイト
成果報告書別冊は、国会図書館や印刷図書館・国立国語研究所・北海道大学・東京外語大AA研・京都大学・大東文化大学等に所蔵されています。
- 汎用電子情報交換環境整備プログラム成果報告書 2003年度〜2009年度
- 汎用電子情報交換環境整備プログラム成果報告書別冊 第01〜12分冊(2009年3月)
- 汎用電子情報交換環境整備プログラム文字対応委員会資料
- 安岡孝一「失われた文字コード」 漢字文献情報処理研究 第11号 pp. 76-81
- 戸籍統一文字データベース
IPAmj明朝
IPAmjm明朝体は、汎用電子の成果に基づいて実装されたフォントです。 本フォントは、以下のグリフにおいて、UCSとの対応が適切でないと考えられます。