説文解字注データ

説文解字注データは、段玉裁の「説文解字注」をUCSで符号化することを目指します。2010年現在、親字・本文はほぼ全て入力されていますが、注にはまだ完全に入力されていない箇所が残っています。

UCSにない異体字については、UCSにある文字の脇にXMLコメントでIDSを併記します(例:『礚<!--⿰石葢-->』)。これによって、XML編集レベルでは異体字をできるだけ記録すると同時に、XML処理段階では異体字の影響を与えないようにします。

本データのWeb上での検字には、SW.ttfをインストール後に一覧表から行ってください。

説文解字注データは、經韵樓臧版(上海古籍出版社)影印本を指定されたスキーマ(swjz.rnc)によるXMLで再構成しています。HTML化にあたっては、下図のような構成をとることを考慮しています。

swjz.xml
説文解字注データ
>>> swjz.xhtml
《XHTML Basic Structure》
検証 XHTML変換 配色・レイアウト UI
swjz.rnc
XMLスキーマ
swjz.xsl
XSLTスタイルシート
swjz.css
CSSスタイルシート
swjz.js
JavaScript

なお本ファイルへの検索には、saryなどの巨大テキストファイルを高速に検索するツールを推奨します。以下はsary用にid値および親字にマッチするインデックスを作成するスクリプト例です。

#!/usr/bin/env ruby -Ku
# Usage: ruby swjz.rb < swjz.xml > swmz.xml.ary
file = $stdin
$offset=0
file.each_line{|line|
  if line =~ /^(.+wordhead id=")(.+>).</ 
    print [$offset+$1.length].pack("N")
    print [$offset+$1.length+$2.length].pack("N")
  end
  $offset+=line.length
}

XHTML版

xhtml版は、xml版を上記スタイルシートに従ってxhtmlに変換したものです。

参考文献

検索ツールについて

本データは現在、Lookup + Sary の 組み合わせにて、検索(単漢字・全文検索)を行うことができます。

Lookupのスクリーンショット例

Shuowen Jiezi Zhu Data

Shuowen Jiezi Zhu (説文解字注) Data is an attempt to encode "Shuowen Jiezi Zhu" written by Duan Yucai (段玉裁) in the UCS/Unicode. As of 2008, most of head characters are encoded, while some explanation and Duan notes have not yet been fully encoded. This data is originally produced by the research project funded by "Japan Society for the Promotion of Science" (2002-2004, Research ID 14510494). This data is distributed under GPL License.