UCS漢字字形データベース
UCS Ideographic Variation Database
IVD (Ideographic Variation Database ... 漢字字形データベース) は、UCS統合漢字の字体管理データベースおよび符号表現です。UCS (ISO/IEC 10646) からは、関連規定は UTS (Unicode Technical Standard) #37として参照され、そのデータベースはUnicode Consortiumが管理しています。
IVDの構造や、漢字字形登録の手続きは、 UTS #37に記述されています。
IVDは複数の字形コレクションを管理します。コレクションは各用途に応じた字形の集合です。各コレクション下のグリフは、各UCS符号毎にコレクション間でユニークな字形選択子 (Variation Selector … VS) を割り当てられます。(統合)漢字符号の直後に選択子を付加すると、漢字字形指示列 (Ideographic Variation Sequence … IVS)を構成します。復号側はVSで字形を選択して表示できます。VSは原則として照合時には無視されます。
IVDは以下の3つのデータベースが、Unicode Consortium によって管理されます。
- IVD_Collections.txt
- このファイルは、IVDの各コレクションについて、代表Webページと、グリフ識別子の正規表現を管理します。
- IVD_Sequences.txt
- このファイルは、IVSと上記の各コレクションが管理するグリフとの対応を示します。
- IVD_Charts.pdf
- 各コレクションの実際のグリフ内容です。
2010年現在、IVDには2つのコレクションが登録されています。
- Adobe-Japan1 … Adobe社が管理するAdobe-Japan1グリフ集合のコレクション
- Hanyo-Denshi … 経産省・汎用電子情報交換環境整備プログラム委員会が管理する、住基ネット・戸籍システム・登記システム等での利用を想定したコレクション
IVDへの字形登録方法
字形登録方法はUTS#37の第4章に記述されています。原則としてコレクション(とグリフ)の登録希望者は、まずコレクション名・字形識別子の正規表現・代表Webページの登録を申請し、90日間のレビューを受けます。レビュー後、Unicode Consortium によってコレクションを登録されると、コレクション下に属するグリフと提案IVSを申請します。これも90日間のレビューが行われ、レビューコメント処理後に、Unicode Consortium によって、最終的なIVSが割り当てられます。
IVSと文字列比較と識別子
IVSは、CoreDerivedにおけるDefault_Ignorable_Code_Point属性をもちます。正規化ではDefault_Ignorable_Code_Pointの文字は消えないため、これらを無視した文字列比較を行う場合は、正規化の後、手動でDefault_Ignorable_Code_Point属性文字の削除を行う必要があります。特に、識別子の文字列は、Default_Ignorable_Code_Pointを含むことは推奨されません。(UAX#31 2.3章参照)。
リンク・資料集
- 国際規格ISO/IEC 10646 の規定に基づく漢字字形データベースへの登録
- IVS促進協議会
- 安岡考一「UnicodeのIVSがもたらすメリットとデメリット」日経コンピュータ, 2011-01-27