「文字情報データベースの保存と継承」に参加してきた2018-07-23

2018-07-23 當山日出夫(とうやまひでお)

2018年7月21日は、京都大学人文科学研究所で、

シンポジウム「文字情報データベースの保存と継承」

があったの参加してきた。記録の意味で、プログラムを転記しておく。

漢字字体規範史データセット
http://hng-data.org/index.ja.html

保存会設立記念シンポジウム「文字情報データベースの保存と継承」
http://hng-data.org/events/2018-07-21.ja.html

===============================

第1部 研究集会「文字情報データベースの保存と継承」

13:00-13:05
趣旨説明:守岡 知彦
13:05-13:35
報告1:高田 智和(国立国語研究所) 「『石塚漢字字体資料』と『漢字字体規範史データベース』」
13:35-14:05
報告2:守岡 知彦(京都大学) 「漢字字体規範史データセットの構築・共有計画について」
14:05-14:15
休憩
14:15-14:45
報告3:永崎 研宣(人文情報学研究所) 「文字情報データベースにおける IIIF 活用の可能性と課題」
14:45-15:15
報告4:安岡 孝一(京都大学) 「文字列検索可能な画像データベース」
15:15-15:25
休憩
15:25-16:25
基調講演:石塚 晴通(北海道大学名誉教授) 「漢字の書体と字体 —承前—」
16:25-16:35
休憩
16:35-17:15
総合討論

第2部

17:25-17:45
漢字字体規範史データセット保存会設立総会

===============================

これに参加して思うことは多々あるのだが、基本的なことだけを確認しておきたい。

HNG(漢字字体規範史データベース)は、研究成果として出たものである。漢字の字体の標準・規範というものは、時代と地域によって異なる、このことを実証的に示すために、HNGが作られて公開になった。

その後、このHNGを使って、いろんな論文を書くようになった。私のやってみた「白氏文集」の旧鈔本の字体の研究など、そのうちにはいるものである。研究成果の結果として作ったデータベースが、次第に、研究者間でインフラとして利用されるようになってきた、という経緯がある。

だが、そのために必要な措置……主にサーバの管理にかんすることであるが……については、ほとんど手つかずのままに来てしまったことになる。そして、(どのような事情があったかかは知らないが)HNGの停止ということになった。

ここで考えておかなければならないことは、データベースを作って公開するということの継続性の問題である。研究者、特に人文学系の研究者においては、一〇年二〇年という時間など、わずかの時間にすぎない。しかし、その一〇年二〇年の間に、コンピュータ技術はどんどん進歩していくし、サーバも定期的にリプレイスしていかなければならない。

とにかく、一度作って公開したデータベースは、どのような使われ方をするか、予想の出来ないところがある。そのためには、何よりも継続ということを考えなければならない。そして、その継続ということのためには、いったい研究者として何をすべきか、その課題が、今回の件によって、ようやく、研究者自らの課題として見えてきたということになるだろうか。

結果としては、今回、新たに、「漢字字体規範史データセット保存会」というものをたちあげて、HNGの初期の64文献につい、そのデータセットを再現して保存することになった。このために、科研費を得ることができている。この期間の間に、元のデータ(紙カード、台帳など)を、デジタル化して、公開するということになる。

もし可能なら、検索システムの再構築ということになるかもしれないが、これは、できたら、ということになりそうである。

人文系のデータベースというのは、長い時間の中で考える必要がある。今のユーザの動向も大事であるが、それを残しておいて、次世代の研究者にも使えるようにしておく必要がある。このことの重要性について、再確認することになった会であった。




日本漢字学会に行ってきた2018-03-31

2018-03-31 當山日出夫(とうやまひでお)

2018年3月29日は、日本漢字学会の設立、記念シンポジウム。京都大学まで行ってきた。

かなり人はあつまっていた感じだし、懇親会も人が多かった。だからといって、この分野の研究の中心になるかというと、ちょっと微妙かなという気がしないでもない。

シンポジウムは、面白かった。それぞれの専門分野の研究成果を、わりとわかりやすい……強いていえば、啓蒙的な立場から……一般向けに話しがあった。このようなシンポジウムで話しをする側の人たち(研究者)はいいとしても、その後の、フロアからの一般の質問が…………ちょっと「と」という気がするのがあった。

まあ、確かに漢字というものは、ある意味で自明なものである。漢字については、あれこれと定義する必要はないかもしれない。また、日本語のなかに普通に存在している文字でもある。だから、漢字については、誰でもなにがしかのことを語ることはできる。

だが、そのことと、文字というものを学問的方法論できちんと考えるということは、別次元のことがらになる。

たぶん、今年の12月には、学会としての研究会があるのだろう。その時、どのような発表があつまるか、また、どのような質疑応答がなされるか、期待半分、不安半分といったところだろうか。

学会の懇親会は盛況であった。終わって、知り合いの若い人たちと……奈良女子大学、東北大学、京都大学など……百万遍近辺のお店に行って、いろいろ話して帰った。これからの若い人たちが、この漢字学会でどんどん発表してくれればと思う。

家に帰ったら、10時半ぐらいになっていた。留守の間にとどいていた本、『嵯峨野明月記』(中公文庫)があった。『背教者ユリアヌス』を読む(再読)まえに、こちらの本の方をまず再読しておきたくなったので買った。

私も、この年になって、昔、高校生のころに読んだ本を、もう一度、じっくりと読み直したくなってきている。辻邦生を読み直したい。それから、福永武彦なども。

ところで、京都大学のキャンパスの桜は、ちょうど満開だった。シンポジウムは、時計台であったのだが、その舞台の背後のスクリーンを上げると、ガラスになっていて、庭の桜がきれいにみえた。桜の花を背景にしての学会というのも、雰囲気のいいものであった。

追記 2018-04-02
日本漢字学会のホームページができている。
https://jsccc.org/

第29回「東洋学へのコンピュータ利用」に行ってきた2018-03-12

2018-03-12 當山日出夫(とうやまひでお)

第29回「東洋学へのコンピュータ利用」

2018年3月9日は、第29回「東洋学へのコンピュータ利用」である。

http://kanji.zinbun.kyoto-u.ac.jp/seminars/oricom/2018.html

例年よりも発表が多かった。朝、長女が仕事に出るのとおなじに駅まで行く。去年までは、それでもかなり早めについたと憶えているのだが、今年は、開始ギリギリの時間になってしまっていた。会場の部屋はすでにほとんど一杯だった。

同日、デジタルアーカイブ学会が東京でやっていたのだが、それでも、多くの発表があり、また、多くの人をあつめている。

例によって、文字についての発表がほとんどであった。個々の発表については特に言わないことにして、総合して印象を述べれば……すでに、コンピュータの文字は、ユニコードの世界になっている、ということである。もはや、JISコードのことを問題にはしてない。

これも、まったく問題にならなくなったというわけではない。私の発表した変体仮名の問題は、コンピュータと仮名というテーマで言うならば、JISコードとユニコードで、その微妙な差異に大きな問題をはらんでいる。(ただ、見た目の問題としては、ユニコードでは、JISの仮名を表示できないかのごとくである。これは、JISコードとユニコードの関係を把握していないと、全体がわからない。)

とはいえ、なかで興味深い発表をひとつだけあげておくならば、次の発表だろう。

安岡孝一
ISO/IEC 10646:2017にない日本の漢和辞典の漢字

最新の版でも、現代の日本の漢字辞典……大漢和辞典、新大字典、新潮日本語漢字辞典、新字源……(それぞれ最新版)などの漢字で、ふくまれていないものがある。その多くは、異体字であったり、国字であったりである。これらの漢字が、これから、どのようなるのか、ここは注目しておかなければならないことである。

この論文は、すでにオンラインで公開されている。

http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/publications/2018-03-09.pdf

研究会がおわって、例年のように懇親会。家にかえったら、10時半ごろになっていた。来年は、2019年3月8日の予定である。それまでに、自分の勉強が少しでも進んだら、また発表しようかと思っている。(だが、それよりも、本を読む生活をおくりたいのであるが。)

『文字と楽園』正木香子2017-11-13

2017-11-13 當山日出夫(とうやまひでお)

正木香子.『文字と楽園-精興社書体であじわう現代文学-』.本の雑誌社.2017
http://www.webdoku.jp/kanko/page/486011406X.html

もちろん、この本の組版は、精興社である。

現代文学の作品、作家のなかから、精興社で印刷した本を選び出して、それへの思いをつづったエッセイ。精興社で印刷した本が好きな人も、あるいは、そうではないが、文字、活字、印刷に興味ある人は、面白く読めるだろう。

私もこの本を読んで、『金閣寺』(三島由紀夫)とか『ノルウェイの森』(村上春樹)が、精興社の印刷にかかるものであることを知った。

それにしても、この著者(正木香子)は、本を読むとき、その活字……といっても、写植もあれば、DTPもあるが……が、どの印刷所、活字で印刷されたが、かなり気になる人間のようだ。同じ作品でも、活字によって印象が異なるらしい。

活字によって印象が異なる、ということはわからないでもない。だが、私の好みとして、精興社活字に、そう深い思い込みはない。見て、きれいな印刷であるとは思うが。

とはいっても、最近読んでいるものであれば、「定本漱石全集」(岩波書店)などは、やはり精興社活字でないと、その本の気分とでもいうものがあじわえない、そんな気がしている。岩波書店と精興社の歴史的経緯を知識として知っているせいもあるが、漱石の作品には、精興社活字がふさわしい。

文字や表記の研究という分野にいるせいもあるが、小説など読んでも、どこの印刷になるものか、気になって奥付を見ることがある。最近のものでは、『月の満ち欠け』(佐藤正午、岩波書店)とか、『日の名残り』(カズオ・イシグロ、早川書房)とかが、精興社であった。直木賞に、ノーベル文学賞……考えてみれば、最近の精興社は、いい仕事をしているといっていいだろうか。それから、現代文学では、高村薫が、決まって精興社の印刷である。

ただ、私も、老眼になってきたせいか、岩波文庫の精興社印刷が、ちょっと読みづらいと感じるようになってきた。基本的に細めの線でデザインしてある文字なので、小さい文字を、これで組版されると、ちょっとつらい。特に、ルビが読みとりにくい。

ともあれ、現代文学、その書物を、活字、組版、印刷という面からとらえ、しかも、精興社という特定の印刷所にしぼって論じてあるこの本は、面白い。このような、本の読み方、作品の見方があるのかと、新鮮な感じがする。文字、活字がすきな人には、おすすめの本である。

NHK「祇園 女たちの物語」2017-06-05

2017-06-05 當山日出夫(とうやまひでお)

2017年6月3日放送の、NHKスペシャル「祇園 女たちの物語」、録画しておいて、翌日になってみた。

私の興味のあったのは、ただ一点……「ぎおん」の文字をどう表記するか、である。番組で、画面に出た字幕、それから、字幕表示で表示された文字、すべて、「ネ氏」であった。「示氏」は、一切、つかっていなかった。字幕表示で示される文字は、どことなくギザギザがあった。これは、作字したものだろう。

これはNHKの方針なのだろうか。

たしかに、祇園における、いわゆる伝統的字体としては「ネ氏」の方であるということは、私は、いくつか論文に書いたことがある。しかし、現在では、「0213:04」規格に準拠した文字も、景観文字としては、いくつか観察できる。また、誤字とされる「祗園」の方も、珍しいものではない。

そういえば、以前に放送していた、これもNHKの「ブラタモリ」の祇園の回でも、使用していた文字は、徹底して「ネ氏」の方であった。

やまもも書斎記 2017年4月14日
『ブラタモリ』「祇園」
http://yamamomo.asablo.jp/blog/2017/04/17/8490529

この文字、現在、一般のコンピュータ……Windows7以降の機種、Windows10などでは、「示氏」の方が出るようになっている。意図的に、フォントを切り替えないと「ネ氏」は使えない。

つまり、NHKの「ぎおん」の表記の方針は、現在のコンピュータ文字の流れに反したものになっている。これが、いつまでつづくだろうか。あるいは、コンピュータ文字が、人びとの言語生活(文字・表記)に、徐々にではあっても影響を与えていくことになるのであろうか。

これからも、この点については、注意して見ていきたいと思っている。

語彙・辞書研究会で言いたかったこと2016-11-16

2016-11-16 當山日出夫

語彙・辞書研究会、第50回の研究会に行ってきた。記念のシンポジウムで、テーマは「辞書の未来」。
2016年11月12日。新宿NSビル。

http://dictionary.sanseido-publ.co.jp/affil/goijisho/

その質疑の時、私が言おうとして十分に語れなかったことについて、ここに書いておきたい。つぎのようなことを私は言いたかった。

もし、日本語が漢字というものをこれからも使い続けていくとするならば、書体・字体・字形をふくめて、安定した形で見ることのできる紙の辞書は、ある一定の需要、あるいは、必要性があるのではないだろうか。たしかに、世の中の趨勢としてデジタル辞書の方向にむかっていることは否定できないであろう。であるならば、デジタル文字ほど、不安定なものはない。特に漢字について、その書体・字体・字形をきちんと確認することは、ある意味では、デジタルの世界では無理と考えるべきかもしれない。逆に、この可変性のなかに、デジタル文字、デジタルテキストの特性を見いだせるだろう。そのような流れのなかで、安定した文字のかたち(書体・字体・字形)を見ようとするならば、まだ、紙の辞書に依拠せざるをえないのではないか。紙の辞書に文字の典拠がある、この地点から離脱したところに、デジタル辞書の未来は、どんなものになるのであろうか。

限られた質疑の時間のなかであったので、上記のことの半分ぐらいしか話せなかった。次の研究会は、来年の6月。発表を申し込んでみようか、どうしようか、いま思案中である。

琉球語の仮名表記2016-09-25

2016-09-25 當山日出夫

昨日はアイヌ語の仮名表記を見たので、今日は琉球語の仮名表記を見ることにする。

やまもも書斎記 2016年9月24日
アイヌ語の仮名表記
http://yamamomo.asablo.jp/blog/2016/09/24/8198295

同じく、『日本語のために』を見ることにする。

やまもも書斎記 2016年9月17日
日本文学全集30『日本語のために』
http://yamamomo.asablo.jp/blog/2016/09/17/8192276

この本の琉球語のところ、第5章を見る。
「おもろさうし」 外間守善 校注
「琉歌」 島袋盛敏

このうち、「琉歌」の1866(p.194)に、

「ゐ」小書き

が見て取れる。これは、JIS仮名に無い字である。

この本の解題をみると、『標音評釈 琉歌全集』が1968年、『琉歌大観 増補』が1978年、とある。

もちろん、琉球語を日本語の一方言とみなすか、あるいは別言語とみなすか、議論のあることは承知している。さらに、ただ琉球語というのではなく、言語学的には、さらに細かな言語になることも、一応の知識としては持っている。

そのうえで、あえて問われてしかるべきであろう……アイヌ語の仮名がJIS仮名としてはいっているのに、琉球語の仮名表記ができなのは、どうしてなのか。JIS規格「0213」のとき、琉球語は考慮しなかったのか。「0213」の制定は、2000年である。年代としては、資料的に利用しえたはずのものである。

問題としては、安定した字体・表記法があるかどうか、ということがあったのかもしれない。

ここで、小書きの仮名は、通常の文字と同じ文字なのか、別の文字なのか、という議論がふたたび必要になってくる。同じ文字で大きさがちがうだけならば、それはそれでよい。しかし、別の文字として存在を認めるならば、文字の規格に必要であるという論になる。情報交換のための文字としての必要性を主張できる可能性がある。

さて、どうしたものだろうか。

アイヌ語の仮名表記2016-09-24

2016-09-24 當山日出夫

現在のコンピュータにある仮名は、日本語の表記のためのものもあるが、アイヌ語の表記のためのものもある。

次の仮名である。

セ゚ツ゚ト゚ (半濁点)

ㇰㇱㇲㇳㇴㇵㇶㇷㇸㇹㇷ゚ㇺㇻㇼㇽㇾㇿ (小書き)

これらの仮名、今、私がこの文章を書いているエディタ(WZ9)では、正しく表示してくれない。これらの仮名は、「0213」で追加になった仮名である。だから、JIS規格にはなっている文字。しかし、実際の運用は、ユニコードで使うようになっている。ワープロ(Wordなど)では、ユニコードとしてあつかって表示する。(なお、同じファイルを、EmEditorでひらいて表示させると、ただしく見える。たぶん、WEBでも大丈夫だと思うので使っておく。また、ワープロ(一太郎2016)を使っている場合、横書きでは正しく表示(合成)するのだが、縦書きになると乱れてしまう。これは、ガ行鼻濁音の半濁点についてでも同様の現象が起こる。)

アイヌ語の場合、半濁点「゜」付きの仮名は、合成で示す。

したがって、JISの文字のコード表にはあるのだが、ユニコードの表にははいいっていない文字がある。その文字単独でははいっていない。「゜」と合成してつかうことを知らなければ使えない文字ということになる。

小書きの「ㇷ゚」(半濁点)などが、特に問題となる。

アイヌ語を表記する仮名が、JIS規格に決められ、そして、ユニコードで運用が可能になっている、このこと自体はよろこぶべきことであろう。だが、問題があるとすれば、次の二点。

第一に、現在のJIS規格「0213」で、アイヌ語用の仮名が入っていることが、どれほど知られているだろうか、ということ。

第二に、半濁点つきの仮名は、ユニコードでは合成で表示するようになっているため、エディタやワープロがそれに対応していない場合、正しく表示されないことがある、ということ。

以上の二点が、今後の問題として残っていることになる。

ところで、このアイヌ語仮名、知識としては知っていたが、実際に使用された事例を目にしたのは、最近になってからである。

池澤夏樹=個人編集「日本文学全集」30『日本語のために』.河出書房新社.2016

この本については、すでにふれた。

やまもも書斎記 2016年9月17日
日本文学全集30『日本語のために』
http://yamamomo.asablo.jp/blog/2016/09/17/8192276

「アイヌ神謡集」、知里幸恵 著訳/北道邦彦  編
「アイヌ物語」、山辺安之助/金田一京助 編
「萱野茂のアイヌ語辞典」

これらのアイヌ語の表記に、JIS規格で制定された仮名を見いだすことができる。おそらく、一般的な書物(アイヌのことを専門にしたのではない)において、アイヌ語仮名が使用された、珍しい例といえるのかもしれない。

気になるのは、この本『日本語のために』の組版において、アイヌ語の組版データはどうなっているのだろうか、ということなのである。JIS規格文字(フォント)が使用されたのであろうか。それとも、通常の仮名を小さく印刷したのであろうか。このことが気になっている。

小書きの仮名は別の文字なのか(その2)2016-09-23

2016-09-23 當山日出夫

以前に書いたことのつづきである。

やまもも書斎記 2016年9月19日
小書きの仮名は別の文字なのか
http://yamamomo.asablo.jp/blog/2016/09/19/8194165

小書きの仮名、これが通常の大きさの文字(仮名)と同じであるかどうか、という問題。これを考えるときに次のことも考慮にいれないといけないだろう。

第一には、小書きの仮名は、それ単独では音を表ささないということである。一般には、仮名は表音文字である。だが、小書きの仮名は、それ単独で読むことができない。

たとえば、

「しゃ」

の「ゃ」だけを取り出して読もうとしてもできない。促音の「っ」も同様である。それ単独で音を取り出すことができない。前後の文字(仮名)と一緒になって初めて、ある特定の音を表すことができる。「しゃ」の「し」と「ゃ」を分離してしまうことは、できない。

第二には、文字の大きさだけではなく、表記されたときの位置も問題になることである。横書きでは、左下にくるようになるし、縦書きでは、右上にくるようになる。ただ、文字の大きさが小さくなっているだけでは、表記として不十分である。つまり、どの方向に小さくなっているのか、位置するのかということまで含めての文字ということになる。

ワープロで文書を書いていて、そこだけフォントのポイントを下げてやったのでは、不体裁な文書にしかならない。現代の通常の日本語文では、そのような表記法はつかわない。

以上の、二点。こういうことを考えるならば、単に文字の大きさの大小では割り切れないことになる。単独では同じかたちの文字であるが、表記されたときの行内における位置情報までふくんでいる文字ということができようか。

ただ、そうはいっても文字の「かたち」、これを字体といっておくことにするが、これは、同じである。さて、どう考えればよいのであろうか。

実際に表記されるときのあり方から、ただ文字それだけを取り出してきて論ずることは、不適切なのであろうか。あるいは、文字と、表記の方法(文字をどう使うか)を、分けて考えるべきなのであろうか。

今のところこのように考えることもできよう……たとえば、宣命書のことなどを念頭においていみるならば、あるいは、延慶本平家物語などを考えてみるならば、文字の大きさというのは、表記の方法に属することがらであって、文字そのものの属性ではないと考えておくべきなのかもしれない。

小書きの仮名は別の文字なのか2016-09-19

2016-09-19 當山日出夫

これは、別のところにすでに書いたことなのだが、日本語(それから、アイヌ語)の表記でもちいる、小さい仮名……これは、別の文字なのであろうか。

たとえば、




どう見ても、同じ字体であるとしか判断のしようがない。ただ、違うのは大きさである。大きさの違いというのは、文字の属性(字体とか書体とか)とどのように関係するのであろうか。

一つの考え方としては、コンピュータによる情報交換用の文字であるから、あらかじめ大きさの違う文字として設定しておかなければならない、という考え方があると思っている。つまり、文字としては同じであるが、ただ、その用法として、小さく表記するだけのこと、ということになる。

だが、その一方で、別のコードを付与している文字である、ということは、別の文字であると認定している……このように考えることもできる。

この小書きの仮名、日本語においては、「0208」では、

ぁぃぅぇぉ

ゃゅょ


ァィゥェォ

ャュョ

ヵヶ

がある。それが、「0213」では、ちょっと追加になって、

ゕゖ

ㇰㇱㇲㇳㇴㇵㇶㇷㇸㇹㇺㇻㇼㇽㇿ

になる。上記のうち、「0213」で追加の片仮名はアイヌ語表記用である。
なお、このうち「ㇷ」は、半濁点つきになる。ユニコードでは、合成で示すことになっている。

さて、これはどう考えればいいのであろうか。別の文字と認定するのか、同じ文字で大きさが違うだけのものと認定するのか。はっきりいってよくわからないというのが正直なところである。これを、「異体字」として考えるわけにはいかないようにも思える。

このことについては、表記研究会のときに研究会にあつまった人の意見をきいてみたいと思っている。

追記 2016-09-21
アイヌ語の仮名(小書き)、厳密にみれば、「フ」「プ」とある。JIS規格には両方あるのだが、ユニコードには、半濁点の「プ」ははいっていない。

追記 2016-09-23 このつづきは
小書きの仮名は別の文字なのか(その2)
http://yamamomo.asablo.jp/blog/2016/09/23/8197498