説文解字注データ

説文解字注データは、段玉裁の「説文解字注」をUCSで符号化することを目指します。2008年現在、親字はほぼ全て入力されていますが、本文・注にはまだ完全に入力されていない箇所が残っています。本データは、日本学術振興会科学研究費・基盤研究C「次世代古典文献データベース構築の基礎的研究」(平成14〜16年度、課題番号:14510494、研究代表者:村越貴代美)による成果の一部を利用させてもらっています。

UCSにない異体字については、UCSにある文字の脇にXMLコメントでIDSを併記します(例:『礚<!--⿰石葢-->』)。これによって、XML編集レベルでは異体字をできるだけ記録すると同時に、XML処理段階では異体字の影響を与えないようにします。

本データのWeb上での検字には、SW.ttfをインストール後に一覧表から行ってください。

説文解字注データは、經韵樓臧版(上海古籍出版社)影印本を指定されたスキーマ(swjz.rnc)によるXMLで再構成しています。HTML化にあたっては、下図のような構成をとることを考慮しています。

swjz.xml
説文解字注データ
>>> swjz.xhtml
《XHTML Basic Structure》
検証 XHTML変換 配色・レイアウト UI
swjz.rnc
XMLスキーマ
swjz.xsl
XSLTスタイルシート
swjz.css
CSSスタイルシート
swjz.js
JavaScript

なお本ファイルへの検索には、saryなどの巨大テキストファイルを高速に検索するツールを推奨します。以下はsary用にid値および親字にマッチするインデックスを作成するスクリプト例です。

#!/usr/bin/env ruby -Ku
# Usage: ruby swjz.rb < swjz.xml > swmz.xml.ary
file = $stdin
$offset=0
file.each_line{|line|
  if line =~ /^(.+wordhead id=")(.+>).</ 
    print [$offset+$1.length].pack("N")
    print [$offset+$1.length+$2.length].pack("N")
  end
  $offset+=line.length
}

XHTML版

xhtml版は、xml版を上記スタイルシートに従ってxhtmlに変換したものです。

参考文献

検索ツールについて

本データは現在、Lookup + Sary の 組み合わせにて、検索(単漢字・全文検索)を行うことができます。

Lookupのスクリーンショット例

Shuowen Jiezi Zhu Data

Shuowen Jiezi Zhu (説文解字注) Data is an attempt to encode "Shuowen Jiezi Zhu" written by Duan Yucai (段玉裁) in the UCS/Unicode. As of 2008, most of head characters are encoded, while some explanation and Duan notes have not yet been fully encoded. This data is originally produced by the research project funded by "Japan Society for the Promotion of Science" (2002-2004, Research ID 14510494). This data is distributed under GPL License.