うわづら文庫のめざすもの

http://d.hatena.ne.jp/OKAJIMA_Akihiro/20090223/1235388613
での話。
手書きのメモを見ながら話そうと思っていたのですが、直前に見たら、あまりに字が汚くて、読めなかったので、会場のロビーでモバイルギア*1に「ヨミゲン」を打ち込みました。さきほど、コンパクトフラッシュからすくい上げましたので、少し手直しして、載せます。

話 2009.2.21 ARGカフェ

うわづら文庫というのをやっております、岡島昭浩というものです。
日本語の歴史的研究を本職としているのですが、その関係もありまして、検索をかけるための歴史的な資料のテキストファイルを集めたということがあり、それを「日本文学等テキストファイル」という名前で、1996年ごろからネット上でやってまして、その関係で岡本さんと縁が出来たというわけです*2


今やっている、うわづら文庫というのは何なのかと言いますと、青空文庫をもじったものです。青空文庫著作権の切れた作品を電子テキストとして公開しているのに対し、うわづら文庫では、著作権が切れ、また刊行から50年以上経過した書籍・雑誌に含まれる文章を、画像として電子化し、公開する、というもので、青空文庫のように、テキストと言う中身があるわけではなく、上っ面のものだ、という意味で、「うわづら文庫」と名乗っている訳です。国会図書館近代デジタルライブラリーの個人版、といってもよいものですが、雑誌に載ったものを取り出して電子化したりもしていますので、個人版と言っても、小規模であるというだけではなく、小回りが利く、という面もあるものと思っています。


なぜそんなことを個人でやっているのかと言いますと、公有のものとなるべきものなのに、それが公有されていない、ということへの苛立ち、があるからでしょう。著作権が切れる、というのは、著作物が個人(とその遺族、さらにはそれを金銭的に利用しようとする人)から、公共への開放ですが、せっかく開放されたはずのものが、アクセス可能な形では存在していない、と感じる際のいらだちがあるわけです。


グーグルで検索して見つからなければ、存在しないものと見なされることがある、と言われますが、グーグルではなく、国会図書館やNiiのwebcatplusなどでも、書籍の上に蓄積されている沢山の情報が十分には拾えず、もどかしく思います。また、見つかっても、ごく一部の図書館等にひっそりと置かれていたり、ネット古書店にも存在しない、あるいは必要以上に高価になっている、ということがあります。


そんなものが、私の手元にあり、しかも著作権などが切れていて、公有物として顕在化することが可能であれば、これはぜひそうしたい、という思いがあるのです。


さて、何を電子か公開しているのかと言いますと、青空文庫と同様の文学作品もあれば、私の関心の中心である国文学国語学およびその周辺の研究書籍・論文、といったものも含まれます。国語学国文学という学問の積み重ねは大きいもので、著作権が切れているような古いものでも、現在の学問水準においても参照すべきものは多くあります。


また、江戸時代以前の文学作品などを活字化したものについても、校訂者、つまり活字化可能な形にした人の著作権切れを確認して、うわづら文庫に入れています。


校訂と呼ばれる行為の中には、単純な作業のものも含まれますが、翻訳などと同様に、高度に知的な作業も含まれます。一つ一つの校訂・活字化がどのレベルものであるのかは、原本と校訂されたものを比較検討してみないことには判断できません*3古典作品の電子か公開が進まないのはそのような面があるからだと考えますが、校訂者の著作権が切れていれば、検討することなく公開できるわけです。
理想は原本画像とともに公開することですが、これにはお金も時間もかかりますので、うわづら文庫ではごくごく一部しかありません。


さて、ネットでは関連づけられることが重要だと思いますが、関連づけようにも、この分野にはネットに、もの自体が少ないところにネタを提供して行こうというものです。
また、ネタを提供するだけではなく、「国語資料の連関」という「はてなグループ」を作って資料の関連づけをおこなっています。そうした行いが拡大して行くことを願って、私の話をおわりたいと思います。

いう時間のなかったもの

さて、うわっつらと言いましても、まさしく画像だけのものや、ざっとOCRに通して、透明テキストを貼り付けたものもありますが、古い活字のものなので、認識率は低く、テキストだけだと同一性保持権を侵害しそうなものですが、画像が主ですから、お許しいただけるだろうと思っております。
それはさておき、テキストにおいてキーワード程度でも拾うことができればつなががりが出来てゆくのではないかと期待しておりますし、画像として、題名だけでも顕在化し、公開しておれば、ネット上でつながりが生じます。


うわづら文庫のzuは、「つ」に点々ですが、「す」に点々でも、「もしかして」などと教えてくれますので、もしよろしければ、ご覧いただければと存じます。

感謝

あちらこちらで、感想を書いて下さっている方がいて、ありがたく存じます。
http://d.hatena.ne.jp/arg/20090227/1235691131

*1:ポメラブームで引っ張り出していたもの。ブームが去って電池切れになり、DOSモードではなくなっていたが、おかげで大文字にしやすかった。変換が自分好みでなく、平仮名片仮名胡麻化していたものも多い。

*2:このあたり、口籠ってしまいました。「ARGカフェ&フェスタは出会い系です」という岡本さんの言葉にうまく乗っかれればよかったのですが。

*3:「そんなことをするぐらいなら、自分で校訂した方が早い」とも付け加えたかと思います。