UCS漢字字形データベース

UCS Ideographic Variation Database

IVD (Ideographic Variation Database ... 漢字字形データベース) は、UCS統合漢字の字体管理データベースおよび符号表現です。UCS (ISO/IEC 10646) からは、関連規定は UTS (Unicode Technical Standard) #37として参照され、そのデータベースはUnicode Consortiumが管理しています。

IVDの構造や、漢字字形登録の手続きは、 UTS #37に記述されています。

IVDは複数の字形コレクションを管理します。コレクションは各用途に応じた字形の集合です。各コレクション下のグリフは、各UCS符号毎にコレクション間でユニークな字形選択子 (Variation Selector … VS) を割り当てられます。(統合)漢字符号の直後に選択子を付加すると、漢字字形指示列 (Ideographic Variation Sequence … IVS)を構成します。復号側はVSで字形を選択して表示できます。VSは原則として照合時には無視されます。

IVDは以下の3つのデータベースが、Unicode Consortium によって管理されます。

IVD_Collections.txt
このファイルは、IVDの各コレクションについて、代表Webページと、グリフ識別子の正規表現を管理します。
IVD_Sequences.txt
このファイルは、IVSと上記の各コレクションが管理するグリフとの対応を示します。
IVD_Charts.pdf
各コレクションの実際のグリフ内容です。

2010年現在、IVDには2つのコレクションが登録されています。

IVDへの字形登録方法

字形登録方法はUTS#37の第4章に記述されています。原則としてコレクション(とグリフ)の登録希望者は、まずコレクション名・字形識別子の正規表現・代表Webページの登録を申請し、90日間のレビューを受けます。レビュー後、Unicode Consortium によってコレクションを登録されると、コレクション下に属するグリフと提案IVSを申請します。これも90日間のレビューが行われ、レビューコメント処理後に、Unicode Consortium によって、最終的なIVSが割り当てられます。

IVSと文字列比較と識別子

IVSは、CoreDerivedにおけるDefault_Ignorable_Code_Point属性をもちます。正規化ではDefault_Ignorable_Code_Pointの文字は消えないため、これらを無視した文字列比較を行う場合は、正規化の後、手動でDefault_Ignorable_Code_Point属性文字の削除を行う必要があります。特に、識別子の文字列は、Default_Ignorable_Code_Pointを含むことは推奨されません。(UAX#31 2.3章参照)。

リンク・資料集