漢字字形データベース

Ideographic Variation Database

漢字字形データベース (IVD)

IVD (Ideographic Variation Database ... 漢字字形データベース) は、UCS統合漢字の字体管理データベースおよび符号表現です。

IVDの構造や、漢字字形登録の手続きは、 UTS #37にて定められています。

IVDは複数の字形コレクションを管理します。コレクションは各用途に応じた字形の集合です。各コレクション下のグリフは、各UCS符号毎にコレクション間でユニークな字形選択子 (Variation Selector ... VS) を割り当てられます。(統合)漢字符号の直後に選択子を付加すると、漢字字形指示列 (Ideographic Variation Sequence ... IVS)を構成できます。復号側はVSを使って字形を選択して表示できます。VSは原則として照合時には無視されます。

IVDは以下の3つのデータベースが、Unicode Consortium によって管理されます。

IVD_Collections.txt
このファイルは、IVDの各コレクションについて、代表Webページと、グリフ識別子の正規表現を管理します。
IVD_Sequences.txt
このファイルは、IVSと上記の各コレクションが管理するグリフとの対応を示します。
IVD_Charts.pdf
各コレクションの実際のグリフ内容です。

2010年現在、IVDには2つのコレクションが登録されています。

IVDへの字形登録方法

字形登録方法はUTS#37の第4章に記述されています。原則としてコレクション(とグリフ)の登録希望者は、まずコレクション名・字形識別子の正規表現・代表Webページの登録を申請し、90日間のレビューを受けます。レビュー後、Unicode Consortium によってコレクションを登録されると、コレクション下に属するグリフと提案IVSを申請します。これも90日間のレビューが行われ、レビューコメント処理後に、Unicode Consortium によって、最終的なIVSが割り当てられます。

関連リンク


Adobe-Japan1

IVDに最初に登録された Adobe-Japan1 コレクションは、Adobeの日本語用グリフレパートリ・Adobe-Japan1-6の字形を集めたものです。以下は、Adobe-Japan1コレクションに登録された(ピンク色は、登録される予定の)IVSのうち、他のUCS符号との対応または字形に注意を要するものです。

CIDIVS参照UCS/IDS
CID+7680 25874(𥡴)E010007A3D(稽)
CID+133560614E(慎)E01010613C(愼)
CID+13370093AE(鎮)E0101093AD(鎭)
CID+1338304F75(併)E010105002(倂)
CID+136510885E(衞)E01012B7D8(𫟘)
2B7D8(𫟘)E0100
CID+137232363A(𣘺)E01012B78E(𫞎)
CID+137242363A(𣘺)E01022B78E(𫞎)
2B78E(𫞎)E0100
CID+13725090F7(郷)E010109115(鄕)
CID+137290738B(王)E0101248E9(𤣩)
CID+1374507A74(穴)E010205B82(宂)
CID+1376305DE5(工)E0101
CID+137470821F(舟)E010106708(月)
CID+1378004ECA(今)E01012B746(𫝆)
2B746(𫝆)E010004ECA(今)
CID+137802B746(𫝆)E010004ECA(今)
CID+13866052E2(勢)E01012B751(𫝑)
2B751(𫝑)E0100052E2(勢)
CID+1391209039(逹)E010109054(達)
09054(達)E010109039(逹)
CID+1398906669(晩)E01010665A(晚)
CID+140640687A(桺)E01012B789(𫞉)
2B789(𫞉)E0100
CID+140650687A(桺)E0102⿰木⿸𫝁丶
CID+1407807F8A(羊)E01002634C(𦍌)
CID+1408906881(梁)E010109FC4(鿄)
09FC4(鿄)E010006881(梁)
CID+141060528D(劍)E0101⿰⿳亼吅双刂
CID+141400675E(杞)E0101233CC(𣏌)
233CC(𣏌)E01000675E(杞)
CID+141420688D(梍)E01010688E(梎)
CID+141452A9E6(𪧦)E0100
CID+1416807953(祓)E010109FC6(鿆)
09FC6(鿆)E010007953(祓)
CID+141742B7BD(𫞽)E0100
CID+1418707F50(罐)E0101⿰缶⿱𠂉⿻一隹
CID+1419908279(艹)E01010535D(卝)
CID+1422608E4A(蹊)E0101⿰𧾷⿱爫夫
CID+142782B81A(𫠚)E0100
CID+1540007F61(罡)E0101⿱皿止
CID+1907129FCE(𩿎)E010029FD7(𩿗)
29FD7(𩿗)E010029FCE(𩿎)
CID+200882B753(𫝓)E0100
CID+200962B75A(𫝚)E0100
CID+200972B75C(𫝜)E0100
CID+2011405EA7(座)E01012B776(𫝶)
2B776(𫝶)E0100
CID+201252B77C(𫝼)E0100
CID+201412B782(𫞂)E0100
CID+201492B78B(𫞋)E0100
CID+2015206AF8(櫸)E0100237F1(𣟱)
237F1(𣟱)E010006AF8(櫸)
CID+201532B794(𫞔)E0100
CID+2015609FCC(?)E0101⿰氵亰
CID+201740755D(畝)E0101⿱亠畂
CID+201762B7AC(𫞬)E0100
CID+201802B7AF(𫞯)E0100
CID+201942B7C9(𫟉)E0100
CID+20201083DF(菟)E01012B7CF(𫟏)
2B7CF(𫟏)E0100
CID+202042B7D2(𫟒)E0100
CID+202400943A(鐺)E01012B7F0(𫟰)
2B7F0(𫟰)E0100
CID+202472B765(𫝥)E0100
CID+2025309C08(鰈)E0101⿰魚⿱丗木
CID+2025409C24(鰤)E0101⿰魚师
CID+202562B80D(𫠍)E0100
CID+202602B817(𫠗)E0100

汎用電子情報交換環境整備プログラム

IVDに2番目に登録された、汎用電子情報交換環境整備プログラム(以下、汎用電子プログラム)コレクションは、日本の戸籍・住基・登記の各システムで登録・利用されている漢字グリフをUCSで利用可能にします。

汎用電子プログラム委員会は2003年度から2008年度にかけて戸籍・住基・登記システムの調査とグリフ開発を行い、計67,951グリフを選定、当面は非漢字と判断された167文字をのぞき、577組1,173字を統合して、67,187漢字グリフに整理されました。これらは「汎用電子情報交換環境整備プログラム成果報告書・別冊(2009年3月・全12分冊)」にまとめられています。

汎用電子のグリフは平成明朝体をベースに開発されました。各システムで利用される漢字グリフを比較・統合し、対応する平成明朝体グリフを、既製の平成明朝体グリフから探し、不足分は新規に作字されました。以下は汎用電子で利用される既存の平成明朝体グリフの識別子の一覧です。(ただし、グリフ数に、改良版グリフ(末尾にSが付く)は除きます。)

平成明朝体グリフグリフ識別子グリフ数説明
JIS X 0208JA1601 - JA84066,355JIS X 0208:1990の規格書用のグリフ
JIS X 0212JB1601 - JB7767 5,801JIS X 0212:1990の規格書用のグリフ
FDPC追加FT1601 - FT30301,24778JISの字形を追加
FDPC会員から要望のあった文字の追加
ISO/IEC 10646拡充対応1IA0101 - IA67305,658ISO/IEC 10646 統合漢字拡張Aの策定に際して作成された文字。(FDPC追加と重複の可能性がある)
ISO/IEC 10646拡充対応2IB0101 - IB33132,742人名、地名用漢字の追加(FDPC追加と重複の可能性がある)
IPA向け漢字IP4E0F - IP9FA45,908JIS X 0221のCJK統合漢字の中で、X0208/0212に含ない文字で大漢和辞典に掲載されている漢字を追加(FDPC追加と重複の可能性がある)
JIS X 0213 JIS3JC1402 - JC94891,249JIS X 0213:2000の規格書用のグリフ(以前作成したものの流用含む)
JIS X 0213 JIS4JD0101 - JD94862,436JIS X 0213:2000の規格書用のグリフ(以前作成したものの流用含む)
表外漢字不足HG1601 - HG167070表外漢字字体表を作成するために、既存の平成明朝で不足している文字を追加

上記にないグリフは新規に作字されました。

母体文字グリフ識別子文字数新規作字数説明
住基統一文字JTxxxx19,432文字約2,900文字追加。住民基本台帳ネットワーク用の文字。
戸籍統一文字KSdddddd56,040文字約30,000文字追加。JTにない戸籍システム用に作字した文字。
登記固有文字TKdddddddd10,330文字約9,200文字追加。JT,KSにない登記システム用に作字した文字。

汎用電子の67,951文字は、以下のような内訳となっています。 (※ 詳細は汎用電子情報交換環境整備プログラム成果報告書・2009年度 pp. 22-56 を参照)

戸籍統一文字・住基統一文字・登記統一文字に三者共通15,986 字
戸籍統一文字・登記統一文字に二者共通39,281 字
住基統一文字・登記統一文字に二者共通1,092 字
住基統一文字のみ2,354 字
登記統一文字のみ9,238 字
計 67,951 字

汎用電子コレクションに関するデータ

以下のデータのうち、グリフ識別子に ”*” が付記されているものは、「成果報告書・別冊」には記載されていないグリフです。これらは、主にUCS規格に関連するグリフです。汎用電子コレクションは、UCS規格書との整合性を高めるために、JA, JB, IA の規格書記載グリフなどを優先的に利用しているため、グリフ名やグリフ形状が、実際の汎用電子とは異なるものがあります。

汎用電子グリフ・UCS対応データ
本データは、汎用電子で管理しているグリフと、UCSの対応表です。 UCSコードの後ろに [U] とある場合はUCS規格書の代表字形であることを示します。また、[18]〜[46]の数字がある場合は、このグリフがIVDに登録されていることを示します。 "~"で始まる他グリフID(*なし)を参照する場合は、汎用電子文字表ではそのグリフを参照します。 "="で始まる他グリフID(*付き)を参照する場合は、汎用電子コレクションはそのグリフを参照します。
汎用電子グリフ・AJ1-6 CID対応データ
本データは、汎用電子のコレクションのグリフと、アドビのコレクションのグリフのもっとも近いと思われる字形の参考対応表です。本対応表はあくまでも参考程度に留めてください。また、汎用電子IDに"*"が付いているグリフと、"*"がついていないグリフでCIDが重複する場合がありますので注意ください。なお、Adobe-Japan1と汎用電子の両コレクションとも、各グリフが包摂する字形範囲は暗示的です。そのため、将来、各コレクションがグリフを拡充・追加登録する過程において、コレクションをまたがる類似グリフの対応は変化する可能性があります。

汎用電子コレクション・文字一覧表のバグ

汎用電子文字一覧表の重複掲出字

汎用電子プログラムでは、住基・戸籍・登記等の各システムを整理した67,951文字に対し、デザイン統一基準の適用の結果、同じ形になるグリフや、明らかな原典(辞書等)重複記載に基づくもの、約580組に対して同じグリフを割り当てています。しかし、それでも未だ、多くの字形重複が残っています。以下はそれらを整理したものです。

大漢和辞典での重出に関連する重複
デザイン統一などに関連する重複

汎用電子デザイン統一基準では、「筆押さえ」の有無や「とめと払いの違い」を区別しないことになっていますが、この統一基準に反して区別しているものも含みます。

汎用電子関連情報

参考文献・関連サイト

成果報告書別冊は、国会図書館や印刷図書館・国立国語研究所・北海道大学・東京外語大AA研・京都大学・大東文化大学等に所蔵されています。

IPAmj明朝

IPAmjm明朝体は、汎用電子の成果に基づいて実装されたフォントです。 本フォントは、以下のグリフにおいて、UCSとの対応が適切でないと考えられます。