青空文庫の外字

青空文庫のUCS外字

青空文庫では、非JIS X 0208漢字・記号・文字は、外字注記で記述されます。 青空文庫には、「注記外字辞書」がありますが、この辞書には以下のような課題があります。

以下の外字データは、青空文庫の現れる外字注記のうち、UCSに含まれるものを可能な限り網羅し、機械的に置換できるようにするためのデータを提供します。本データには、外字注記辞書には含まれない漢字・外字も多く含まれています。

外字注記データの書式
カラム概要説明
1ラベル漢字の場合は、RxxxSxx(部首画数)。特殊文字の場合は青空文庫作品番号。
2UCS符号
3UCS符号2合成文字・IVS等、2つのUCS符号で構成される場合は2文字目のUCS符号。(オプション)
4UCS文字列カラム2・3で構成される文字列
5外字注記青空文庫の注記。`※[~]'は一般の外字注記、`〔~〕'はラテン文字注記。
6補記(オプション)

青空文庫の実際の外字注記には、外字注記辞書に従わない例も多数見られます。しかし特に第三水準・第四水準の文字については、注記内の区点コードによって漢字字形が特定できるため、上記の注記辞書には記載していません。

青空文庫の非UCS漢字

青空文庫で利用される漢字のうち、UCSで符号化されていないものは、 GlyphWikiにて漢字フォントを作成しています。GlyphWikiのページでは、 IDS、外字番号、青空文庫での外字注記内容を並列にまとめています。

Aozora Bunko Gaiji

To be written.