スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

そろそろカーリルについて一言いっておくか

職場の周囲では誰一人話題にしないが、カーリルがちょっとした話題を集めている。
http://calil.jp/

カーリルとは何か、は使ってもらえばわかることだし、デザインやインターフェースなど、カーリルの良い点は既に多く語られている。ここでは、個人的に気になった点を指摘しておこう。誤解のないように書いておくと、これはカーリルが駄目だとか言いたいわけではない。また、中の仕組みを知っているわけではなく、外から見た挙動から判断していることをお断りしておきたい。

「カーリルとは?」によると「カーリルは、一度の検索で、複数の図書館の蔵書とAmazonのデータベースを同時に検索するMixed Search検索を実現しました。」とのことである。しかし挙動を見る限りにおいて、これは正確な表現ではないと思う。

一例を挙げよう。
『児童虐待死亡ゼロを目指した支援のあり方について : 東京都児童福祉審議会児童虐待死亡事例等検証部会報告書』という資料がある。東京都立中央図書館で所蔵しているものだ。都立図書館の蔵書検索で見つかる。都立図書館での資料IDは5016751269で、請求記号はT/369.4/5165/2009。ちなみにNDLにも所蔵はあるので、詳細な書誌事項は NDLなり都立図書館なりのOPACで確認できる。

カーリルで(都立中央図書館を設定して)これを探してみてほしい。
結果は「関係する本がみつかりませんでした。」となる。注意してほしいのは、「所蔵なし」と表示されるわけではないことだ。通常カーリルでは、所蔵がない場合も簡単な書誌事項(と書影)が表示され、登録している図書館の所蔵が貸出可、所蔵なしなどと表示されるが、これはそうではない。

なぜこうなるか。カーリルの内部の仕組みは知らないので推測になるが、答えは簡単で、「Amazonにデータがない」からだ。Amazonを直接探してみてほしい。出てこない。
 ※ISBNがないと検索できない、という誤解をしている人がいるようなので、書いておくと例えば『東京の公共図書館―貸出しをのばすための実態調査報告 (1969年)』等はISBNがないが、カーリルで検索できる。所蔵は確認できなかったが。

数例しか確認していないので、反証が出てくれば一発でこけるのだが、上記の説明とは違いカーリルは次のような挙動をしているように思われる。
・入力語に対して「Amazon」を検索 → Amazonになければ「みつかりませんでした」
・Amazonにあれば、その検索結果(ISBNがあっても所蔵確認に失敗することがあるので、タイトルではないかと思っているが未確認)を使って、図書館の所蔵を検索
・結果を併せて表示。

カーリルで、まず書誌・書影が表示された後、追って所蔵状況が出てくるようになっていることはこの傍証である。また表示順もAmazonの検索結果と同じようだ。これは完全な結果が出てくるまで何も表示しないのと比べればはるかにユーザ志向で良いと思う。所蔵確認にはどうしても時間がかかってしまうので、妥当な動きであろう。
しかし、おそらくはAmazonの検索が先に行われていることが必要な、ある種の線形性を持った仕組みだと思われる。1回の検索操作に対しては確かに同時かもしれないが、Amazonの検索結果が最終的な結果を左右する上記のような事例がある以上、「同時に」図書館の蔵書も検索していると言うのは不正確だと思う。

だとすると「全国の図書館の蔵書情報と貸し出し状況を簡単に検索できるサービスです」というのも不適当であろう。ここで検索しているのはAmazonの取り扱い商品であり、Amazonにないものは図書館の蔵書であっても検索できていないからだ。
Amazon の検索結果に対して、図書館所蔵を表示させるグリモンやブックマークレットはこれまでにもあった。カーリルはそれと同等以上のことを全国区で(かつユーザの利用状況や利用先図書館に対応して)実装したという点で画期的であるが、図書館の蔵書情報=何を所蔵していて何を所蔵していないか、がわかるとは限らない以上、図書館の蔵書検索を標榜するのは不適当だと思う。

さて、ここで、これが何を意味しているかを考えるといささかの危機感を覚える。
カーリルでは、Amazonにデータがあれば(図書館の所蔵の有無にかかわらず)資料そのものが存在する(していた)ことはわかる。しかしAmazonにデータがなければ、単に図書館に所蔵がないということではなく、そういった「資料そのものが存在しない」かのように見えてしまうのだ。

しかし実際には先にみたように、カーリルで「見つかりません」と出ても図書館に所蔵があるものは存在するし、利用可能である。Amazonのデータは図書館の所蔵資料を包含していないにもかかわらず、Amazonのデータをベースに検索しているため、こういうことが起こる。

カーリルが出来、そして注目を集めたことで、今後類似のサービスやより発展したサービスが提供される可能性は否定できない。おそらくそのベースに使われるのはカーリルと同じくAmazonということになろう。そして、現在の図書館OPACの貧困さを考えれば、利用者が使う事実上のインターフェースがそうした Amazonベースのサービスになっていく可能性は高いし、大多数のユーザのほとんどの利用にはそれで差し支えない。しかし例えば貴重書や郷土資料、行政資料などはAmazonでの扱いはないかもしれないが、図書館で所蔵していることはあるし、館ごとの特色を出せる部分でもある。Amazon以上にニッチなニーズにも対応していくのが図書館でもある。しかし図書館の蔵書を検索するとうたっているカーリルのようなサービスで、それが「存在しない」ように見えてしまうとすると、手放しで喜べるものではない。
いずれ「カーリルでヒットしない本は(図書館にもないので)どこにもない」という壮大な誤解が常識になってしまうかもしれない。
 ※これをAmazon八分とかカーリル八分とか呼んだら流行るだろうか、いや流行るまい。

カーリルのPOPなインターフェースは、やはり今の図書館では真似できないものでもあるし、すごいと思うのも、図書館界の中からこういったものが出てこないのを嘆く声もわかる。しかし、だからといってじゃあこれと連携すればよいとか、あるいは負けないものを作ろうとかというのは、どこか浅薄な情緒的反応に思える。もちろん自館のサービスにどう展開するかを考えたうえで連携していくということはありうるわけだが、しかしAmazonのデータをベースにするシステムの危うさには、図書館であればもっと注意してもよいと思う。

個人的にカーリルを踏まえて注目しなければいけないと思っているのは、(あまり期待はしていないが)この動きである。
 日本全国書誌の在り方に関する検討会議について
 http://www.ndl.go.jp/jp/library/data/jnbconf_20100303.html

カーリルのようなサービスの基礎となる書誌情報をAmazonに依存してしまっていることが、問題の一因であることを思えば、「我が国における出版・書誌情報における基本インフラ」を考え直すことは重要である。

「日本全国書誌とその機械可読版であるJAPAN/MARCがより広く活用されることを目的として」という時点でorzとなってしまうし、確認事項とかみても誰も反対しないようなお題目が並んでいるだけ。今後何をどう検討して、どういう成果をあげるつもりなのかさっぱりわからないので期待できないのだが、全国書誌とかJAPAN/MARCをどうこうしようというレベルではなく「我が国における出版・書誌情報における基本インフラ」をきちんと考えてほしい。そのためにはNIIをこの検討に加えない理由がない。現状書誌情報のインフラとなりえているのはJAPAN/MARCではなく、TRCMARCと NACSIS-CATなのだから。
変な方向に議論が進んだり、ねじまげられたりしないことを願うのみである。
スポンサーサイト

図書館総合展の補足メモ

だいぶ遅くなってしまいましたが、図書館総合展のその後の補足を2件です。エントリがおそくなったのはひとえにブログ主が怠惰であるからに他なりません。

1. 2日目ユサコ社主催「EX Libirisが実現するサービスの統合化と利用者環境の向上」について、不明だったプレゼン冒頭の論文について、ユサコさんから情報をいただきました!! ありがとうございます。別にこちらから要求したわけではなく、ユサコさんが拙Blogを読んで、ご好意から連絡をいただいたものです。重ねて感謝。

プレゼンの内容については2日目その2のエントリをご覧ください。

さてそこでは、
P. W. Anderson More Is Different, " Science New Series, Vol. 177, No. 4047 (Aug. 4, 1972), pp. 393-396
を引用して話を進めていたのでしたが、その引用部分はが具体的にわかりました。同論文の最初のページ(393ページ)に載っています。

以下引用
***************
The behavior of large and complex aggregates of elementary particles, it turns out, is not understood in terms of a simple extrapolation of the properties of a few particles. Instead, at each level of complexity entirely new properties appear, and the understanding of the new behaviors requires research which I think is as fundamental in its nature as any other.
***************
 
英語力に自信がないので、翻訳はしません。"還元主義者(reductionist)の考えが受け入れられているようだが、科学には"fundamental laws"を求めて行われるものと、それを使って現象を解明していくものと2種類ある。物事を単純な基本法則に落とし込んでいく能力が、それらの法則からスタートして世界を再構築していく能力を含意しているわけではない。" という話の後に、上記の文が続きます。英語力の限界から、途中で読むのを断念したのですが、物理学では著名な論文のようで、"More is Different"というのはよく引用されるフレーズだとか。興味のある方は原文にあたってもらえればと思います。

2. 「10年後の図書館と大学」について、パネラーだった茂出木さんから補足のエントリが出されています。

「私が「図書館にこだわらない」と言ったわけ (図書館総合展その2)」(お茶の水女子大学附属図書館LiSA活動日誌)

「図書館という箱や建物の中で働くだけが図書館員か?」
「図書館という箱や建物の中で働いていても、ライブラリアンと言えないような人はたくさんいるじゃん!」
「図書館の経営とか運営とか未来とかに真っ向に向かい合っているのか!」

ということで、図書館員としてこれは忘れてはいかん姿勢だと思ったので、折に触れて読み返したいと思います。

(本人的には)向かい合ってるつもりでも、実は現状の自己弁護とかをしてるだけで、その先に未来はないだろおい、という人が少なからずいて、そういう人の声がまた大きかったりするのが、一番性質が悪いよねえ、と個人的に思いました。大体そういう人たちは理詰めでいくと怒るしね。

図書館総合展3日目

図書館総合展の3日目。今回参加した最後のフォーラムです。

図書館資料を100パーセント有効活用!
「OPACを超える瞬間~図書館の現場から」

スピーカは片岡さん@九大と田邊さん@慶応(Next-Lの田辺さんとは別の方ですので念のため)

[サンメディア松下さん挨拶]
大学の立場からの発表なので企業には関係ないと思われる方もいるかもしれないが、次世代OPACの話は企業にとっても大事なポイントになるかと思う。配布資料にはないスライドや話がたくさんあるが、録音やスライドを写真にとるのは遠慮してほしい。ここでしか聞けない見られないと言うものを持ち帰ってほしいので。

●と言われてしまったので、ここにどこまで書いてよいやら迷うのだが・・・事後にBlogにアップしてはいけないとは言われてないはず。だってこれを共有しないのはもったいない。まあ、もし何かあればご指摘ください。

[概要:片岡さん@九大]
どうして、次世代OPACに代表されるような新しいプラットホームが必要か、というところから話を始めたい。OPACに代わる検索プラットホームがなぜ必要か。情報技術が人の思考のように使えるように進化してきた。GoogleやiPhone、PagerankやAmazonのリコメンド。人の行動や発想にあわせて進化してきた。一方、図書館が提供してきた情報ツールは、それと対比すると、魅力が薄れてきた。従来のOPACと横断検索。ただ図書館が提供しているコンテンツの意義が薄れたわけではない。インターフェースを改善することで、もう一度光をあてることができるのでは。

●九州大学附属図書館のWebpageの紹介。
「とにかく検索」というのを用意している。ここではOPACのほか、EJ、CiNii、 SCOPUSなどが検索できる。その他に検索ツールのリストを提供したり、学内でデジタル化した資料、機関リポジトリ、貴重書のコレクションなどが個別に提供されている。しかし利用者から見ると、それぞれの使い方を知らないと見つけにくいのではないか。Googleのように1つで見せるようにアクセス統合をしないといけないのではないか。ただ、種々雑多なものになってしまうと見つけにくい。どうやって見つけるか。
→ということで、出てきているのが、例えば適合度ランク、文字情報だけでなくアイコンを使う、表紙イメージ、ファセットブラウジング、パーソナライズ。Aquabrowserでは MyDiscoveriesという機能でレートをつけたり、リコメンドが提示されたりする。こうした見つけやすくする機能も必要。
●シカゴ大学のlensで次世代OPAC的機能を紹介。lensはAquabrowserを使っている代表的なところの一つです。
http://lens.lib.uchicago.edu/

その他にいくつか紹介すると、
・オクラホマ州立大学のBOSS:あまりにもわかりやすいネーミング。学生が「ちょっとBOSSで探してみよう」とか使ってくれるのでは。
http://boss.library.okstate.edu/
・Encore:適合度ランクがわかりやすく表示されている。●一瞬で終わったのでどこを例示したかわかりませんでしたが、Encoreはどこを見てもあまり大差ないです。
・トロント大学→FRBR的に同じものをまとめている例。●”neuron”で検索してみるとよろし。これはEndecaというエンタープライズサーチのソフトを使っているものです。
http://search2.library.utoronto.ca/UTL/search.jsp
・NCSUのTriangleサーチ:近隣の大学の所蔵情報をいっぺんに見ることが出来る。●これもEndecaだったと思います。
http://search.trln.org/search.jsp
・ダートマスカレッジのSummon:SereialsSolutionsの新しいサービス。ライセンス契約してるデータベースの情報をシアトルにあるSS社のサーバに蓄積してくれるので、大学で検索システムを持つことなく、SSでデータの管理をしてくれる。
http://www.dartmouth.edu/~library/home/find/summon/
●Summonは昨日のPrimo Centralと対比できるかもしれません。

他にもUniversity of WashingtonのWorldCat Local、オープンソースのBlacklight、Vufindなどがある。例えばMiylrin http://mirlyn.lib.umich.edu/

こうしたいわゆる次世代OPACとは何かというと、図書館の情報アクセスプラットフォームということができる。人の思考のように探し出せるように。そしてパーソナル化、ソーシャルネットワーキング化。参加することでみんなで共有できるようにならないか。

[田邊さん@慶應]
Primoの事例紹介

現時点で開発中であるため、成果報告や機能説明の場ではなく、現状の課題と夢の共有の場だと思って聞いてほしい。また開発中のため学外秘事項が多い。あらかじめ御容赦いただきたい。ここでよく言われるのが、「慶應だからできるんだろう」とか「九大だから」とか。そうではなく、互いに知恵を出し合ってこの危機を乗り越えることが大事だと考えている。それからこういうフォーラムはいい話を聞いた、だけで終わってしまうことが多い。今日の話をあとにつなげていく、続けていくことが大事。

まず次期システムへの移行の背景から説明したい。背景としてあるのが、ベンダへの閉塞感、それからシステムライブラリアンの放出や不足、予算の問題、1大学でシステムを維持することの限界。これまでの図書館システムは利用者を無視した業務中心のシステムだった。外部と連携しずらい仕組み。慶應ではご存知かもしれないが、LibQUAL+とかやったけど、図書館のシステムは使われてない。OPACって何?というレベル。世間では全文検索だったり、ソーシャルメディアがたくさん出てきている。Web2.0というのは少し前に言われていたが、Web3.0の到来=[個] の時代が来たように思う。つまり個がどんどん外に出て行く時代ではないか。

KOSMOSでやったこと
KOSMOS-I:集中型のシステム:しかしこれはてんこもりで身動きが取れない、レスポンスが出ないなど業務、利用者への影響が大きかった。
KOSMOS-II:ダウンサイジング:システムのスリム化をはかり、分散していた業務の集約を行った。
そしてKOSMOS-III:でやりたいこと。インターネットとの親和性、業務の効率化、組織分散しシステムを集中させる。
利用者のアクセスパスが今はぐちゃぐちゃ。それをインターネットから直接引き込み、リゾルバ的なものを解してナビゲートしていくものを考えている。業務モデルを変えないと、システムだけ入れてもダメ。

慶應では数年前にSFXとVerdeを入れた。その時点で図書館システムとしてもExLibris社の製品を目論んでいたが、結論ありきではなかった。 ExLibris社の製品の連携図を描いてみたが、実はそれほど連携がよくない。SFX・VerdeとAlephの連携はそれほど密でない。

Aleph は非常によく出来ているシステムだが、元は汎用機で動くCOBOLベースのシステム。そこは紙ベースの伝統的な図書館のシステムであり、その外側にSFX やMetalibなどいろいろな製品をつけることでデジタルの世界に対応している。他方でI社は伝統的な図書館システムの中にどんどんデジタルな部分を埋め込んでいく。すごく対照的。
現時点では利用者へのサービスフロントをどうするかで悩んでいる。OPACなのかPrimoかもしくは両方を使う、ハイブリッドか、悩んでる。近日中に方針を決める予定。OPACとPrimoの位置づけをどうするかという点。どういうリソースをどのように使い分けるか。AlephのOPACは紙主体。もちろん電子リソースを入れることもできるが、電子リソースの情報は基本的に外部からとってくるものであり、外部に依存しているのでそのデータには図書館員が手を入れないとすると、デジタルその他をすぺてPrimoに取り込んで紙の部分をOPACとして残すということも考えられる。すべてはまだ検討中。
Primoのバックオフィス部分の画面コピー(管理画面)。ここでは正規化とかFRBRizeとかのロジックを構築する。これ以上見せられない。それからAlephだけで足りないものについては外付けの開発も行っている。

またそれとは別に全文検索のエンジン実証実験も行った。平和情報センターのText Navigator、Bizsearch、Cache、FAST。トータルでFASTが一番よかった。もしかするとあるいはこうした全文検索のエンジンを使うのか、そういったところも視野に入れてサービスフロントを検討している。FASTを使っている面白いサービスの例として、BIGLOBE感性検索 温泉版がある。
http://kan.navi.biglobe.ne.jp/onsen/
●温泉に行きたくなるww

[片岡さん@九大]
NTT データ九州と共同でXC(eXtensible Catalog)を採用して、開発を進めている。XCはオープンソースのソフトで、図書館資源の発見だけではなく、メタデータ管理のためのツールでもある。まだ開発中で、正式版は来年1月にリリースされる予定で、まだインターフェース部分がないがGoogleCodeで公開されているものを使って開発を進めている。国内のシステムベンダーにオープンソースを使うことに踏み出してもらったのは非常にありがたい。XCはロチェスター大学のプロジェクトでアンドリューメロン財団やパートナー機関の助成によって開発している。開発後はXC Organizationを立ち上げて運営していく予定。九州大学はそのパートナー大学に入って一緒に開発を進めている。
UIはファセットブラウジング、FRBRize、高いカスタマイズ性を持っている。図書館向けのウェブアプリケーションフレームワーク。システム間接続はOAI-PMHでのハーベストが可能。貸し出し、認証の連携はNCIPを使う。図書館システムからはOAIツールキットでOAIをしゃべることが出来てNCIPツールキットで NCIPを扱える。メタデータサービスツールキットでデータを集約し、MARCXML化あるいはDC化したり、正規化して、XCスキーマを生成する。ユーザインターフェースは、よく使われてるCMSのDrupalを使う。 

九大がこのXCをどう使おうとしているかというとまず、図書館システムであるNALISにSS社から買ったEJ、E-bookのデータを入れる。それからWebsiteのデータも入れ、契約しているBookデータベースの目次情報(Webcat Plusなどでも使われているもの)を入れる。Bookデータベースは和書だが洋書についてはSyndetic Solutionsのデータを使おうと思っていて、現在交渉中。それらを統合してXCに入れる。それとともに論文情報を入れる。今まではOPACでは探せなかった。CiNii のAPIを使って論文情報を取り込む。それからQIRとデジタルコレクションのデータ。洋雑誌の論文情報については、Refworksの兄弟製品で RefAwareというのがある。EJのサイトからRSSを集めてくれる。それを使うことを検討中。
これまでの成果といってもまだ途中だが、NTTデータ九州さんに日本語検索Solr用のtokenizerを開発してもらった。


[ディスカッション]
<どうやったら導入できるか>

片:残りの時間でディスカッションをしたい。時間も限られているので、重要なテーマから。まずは、どうやったら導入できるか。

田:5ヵ年計画を作ってやっているが、システム選定のポイントとしては5つある。
1.サービス、サポートとメンテナンス体制:やはりサポートがきちんとしていないと困る。
2.インターネットとの親和性と拡張性、googleの図書データとの連携などができること。
3.OPACの基本方針とあっているか。慶應で考えている方針とあっているかということ。多言語対応の実績と日本語対応への意欲。それから重要なのが次世代OPACではなく、多面的な情報検索ツールであること←これが必要だし、慶應が目指していたこと。
4.リアルタイムの予算管理:今はリアルタイムでは確認できない。
5.価格:もちろん価格も重要。
進め方としてはRFPを作成し、それに基づく提案依頼を9社に投げた。提案が出てきたのが3社、提案コンペを行い一次選考をした。優劣つけがたかった2社に絞って最終選考を行い、政策的な決定もあってEL社に決まった。

片:お金は?
田:今のシステム予算を超えられなかった。新しいことをやりたかったので、ビルドアンドビルドを計画していたが、駄目だった。HWも今はx万だがx万ぐらいに抑えた。
●さすがに金額は伏字としました。
今の予算の中で、やりたい事を実現するためには人も切らないといけない=業務を効率化しないといけなかった。そういった5年分ぐらいのシミュレーションをやって、なんとかいける範囲内になった。

片:九大では合意形成のために、ただ必要といっていても駄目なので、そうした新しい情報検察ツールがあるのが当然という雰囲気に持っていく事を考え論文を書いたりした。なかなか国内ベンダーにはやる気が見えないところで、地元のベンチャー企業なども考えたが、将来に向けてやりたいと言うところが出てきて(●NTTデータ九州さんですね。)そこに落札してもらうことが出来た。筑波はどうですか?

●と前から2列目に座っておられた宇陀先生に無茶振り。事前に仕込んでいたのだろうか・・・

宇陀先生@筑波大:2010年3月を予定し落札業者が決まったところ。もう決まったので言ってもいいかな。リコーさんです。現行システムを2006年に入れた時からすぐに次の計画を立て始め、4年後に向けたWGを作って考え始めた。で次世代でとなった。この話はすれば長いが、おもいっきり省略する。これだけで1時間ぐらいしゃべれる。片岡さんは外国製でもいいものがあるなら入れよう、という発想だと思うが、筑波は日本のベンダーにも、もっとがんばってもらわないといけないということで、ベンダーに強く言ってリコーさんと共同開発をしているところ。もしかしたら日本初の次世代になるかもしれない。ただどうしても外国の製品には劣ってしまうし、今日の九大のビジョンをきいてすごいと思ったので頑張らないといけない。予算は筑波大学全体のシステムを統轄する部署で精査されるが、図書館はそれだけ金が要るのかと聞かれた。図書館というのはある意味予算を削られやすいところだが、筑波ではディフェンスに成功した。それ(予算削減)にどう抵抗するかというのが大事。それに対して筑波では、既に企画書、館内の合意があった。大学執行部に対して次のシステムはこうしたいというものを、しっかり用意していたのがよかった。パートナー戦略については、リコーもそうだがSS社、外国メーカも踏まえたうえでいろんなところで情報交換を行っていった。きりがないのでこのくらいで。重要なのは準備が必要と言うこと。訊かれたときに何も考えていないとオフェンスもディフェンスもできない。これは慶應、九大も同じだと思った。

<海外製でも日本の状況に対応できるか>
片:それでは次の話題として、皆さん興味があるのが、海外製でも日本の状況に対応できるのかという事だと思う。日本語のインデキシングとか。XCではNTT データ九州さんに開発してもらっていいものができそうなところ。ファセットブラウジングは分類表の違いがあって、LCCとNDCとうまくできるかというところだが、トライアンドエラーで進めてきている。データの中に件名標目があるとよいのだがNACSIS-CATに入力されているデータだと件名が入力されているものが少ない。これは九大単独でできることではないので、そこはNDLとかNIIとかで頑張ってほしいところ。できればこちらからもアクションしていきたい。

田:慶應では代理店等を使わず、直接EL社とやっている。日本語対応のためのローカライズ、カスタマイズも膨大なマニュアルを読み込んでやっている。あと日本語の検索だが、形態素かn-gramかという問題がある。これまで図書館では形態素解析でやってきてn-gramではやりきれないところがある。OPACのほうでは形態素で何とかできないか、PrimoはBi-gramでいいところまで来ている。図書館のOPACの世界観を変えるということが必要だが、形態素解析でやるとそれが変わらないんじゃないか。個人的には両方使うハイブリッドにしたい。こういうと図書館の人は嫌がるが、多少ごみが出てもよいのではないか。ファセットとか絞込みが十分できるので。ファセットはどうやって統一を取っていくかは確かに課題。それから日本語版と英語版の画面だが、それはコンフィグファイルを分けてできるので、問題ない。その辺はさすが多言語に慣れている。

<他機関やベンダーとの連携は?>
片:これからは単館でやる時代やNIIに頼る時代ではない、というところもあるが。久保山さんどう?MLの話とか。
●またしてもフロアに無茶振り。

久保山さん@阪大:MLの話、2年ぐらい前から次世代OPACには興味を持っていて、まずは北米の事例集サイトを阪大のサーバ上に作った。最初は阪大の図書館システムのベンダーとそれに関係するところだけでMLをやっていたが、それではちょっと・・・ということで幅広い枠で情報交換できるMLを作った。最近ちょっと停滞気味だが。

片:個別の大学からばらばらに要望が来るとベンダーさんもやりずらいのでは。その辺サンメディアさんはどうですか?

松:海外製の製品を入れる上でのポイントとして1つは言語の問題。次はメタデータの仕様。そのせいでやはり海外製の製品には乗りにくいところがあるが、しかしそれは技術的には解決できるだろうと思っている。情報交換が重要で閉ざされた空間で進めていくには限界がある。今日のフォーラムもそうだが、サンメディアがやるとしたらそのブリッジ、オーガナイザーとして何かできるのではないか。

後藤さん@Serials Solutions:ベンダーの立場として、SS社はこれまでは英語圏に向けて作ってきたが、日本市場に向けてのツールの提供を努力してきているところ。日本の状況は海外とは違って、例えばシステムライブラリアンがいるわけではないとか。そういうところでSSの製品はあっているのではないかと考えている。これからも日本にあった機能とかは、こちらで取りまとめて作っていきたい。

片:やはりベンダーも含めて、パートナーシップとしての姿勢でやらないといけないんじゃないか。

<従来の業務の変革は必要か>
田:システムありきで行けるのか。よしんばサービスはそれでよくなったとしても、それを支えるカタログや閲覧はそれで行けるのか。かなり議論したが、決まらなかった。業務とシステムをトータル的に考えないと、運用をどうするか考えないといけない。そこで見直した。やっぱり業務、業務改革をしないと、業務・人・データ含めたスクラップアンドビルドが必要だといって、ようやくここまで来た。現場を巻き込みながらやっていかないと。トップダウンにはかなり無理がある。経営の用語でコアコンピタンスとドメインというのがあるが、自分の大学の強みを生かしてどこで戦うかということ。業務は標準化してそれで塩漬けにする。その上にかぶせるサービスのところで特色あるサービスをつくればよいのかなと。サービスレイヤーは大学独自で考えていくことが必要ではないか。

片:このあたりの話でどなたかコメントのある方いませんか。

●というところで、林さん登場
林さん@農水研:意識を変えて、このシステム使って業務をまわしていくというのになるまで5年ぐらいかかった。変えていくと言う意識を持っていただかないと進まないが、そのためには業務の変更を超えた後の夢を提示していかないと駄目だと思う。開発当初の現場の担当が、今えらくなっているが今のシステムを見て、「あの時言ってたことが実現できたよね」となるまでシステム構築を3回やってここまで来た。今は技術進歩が早いので、もっと早くできるかもしれない。ゴール、夢の部分を語っていくことが大事では。

<今後の展望>
片:時間もないのでまとめに入りたい。

田:今後の展望。これは個人的な思いだが、流動しないといけないのではないか。それは単なるデバイス、ネットワークの話ではなく。データもシステムもスタッフもインターネットに浮かせていったらどうか。データを論文単位、物理単位に仕立て上げて、見つけやすくする。図書館員もだまってなくていい。スタッフもネットに浮いていっていい。浮いていけば、利用者から見つけやすくなって好循環スパイラルが回るのではないか。このスパイラルを早くして利用者の声をリアルに聞いていきたい。その分析も重要になってくるし、ログから利用者の声を汲み取るのも必要だろう。
期待される図書館サービスはライフログとなるようなもの。全てを認証の中に閉じ込めた知的な作業空間をつくる。例えば Refworks今は最後にきている。いろいろなツールで検索して最後にRefworksに持ってきている。でも、それがトップでもいいのでは。いろんなものがつながっていく。そのLifelogをOpenIDでトラップして提供できれば。必要なのは知的作業空間の創出。
そうした次期システムへの移行に向けたポイントと課題を考えると、サーチの時間を以下に短くできるかという事に尽きる。サーチに使う時間を、考え創作する時間に回せないか。それが使命ではないかとも思う。だから検索が重要。今の検索はワードを入力するものだが、それを脱して、クリックでの絞り込みで最短でたどり着けるパスを提示する。これができないとイーコマースは(機会損失で)死んでしまう。それから業務を効率化し、浮いた人員でサービスをてこ入れする。これも図書館員には反発が多いが、目録の簡素化とか、利用者とのリアルタイムなコミュニケーション。Googleで終わらせてはいけない。全文データをどうやって見せていくか。全文データをどう利活用していくか。

<OPACを超える瞬間とは>
田:最後に、OPACを超える瞬間とは。それは図書館員が図書館を超える瞬間だと思う。目指すは大学の中枢における Center of Excellence。図書館不要論ではなく、図書館リーダーシップ論へ。OPACである以上は図書館で終わってしまう。そうではなくて大学の中心となるものへ、大学の中枢へ。

松:今日の企画はすべて片岡さん田邊さんのもの。今日ここに来た皆さんがCenter of Excellenceを目指してもらえれば幸い。また、こうした機会を今後も続けていければと考えているので、今後もよろしく。

●感想等
いやもう、いうことがない。お二人の熱意、姿勢、ビジョンに打たれた。こういう場を用意してくれたサンメディアさんには大感謝。九大、慶應、そして筑波がこれからどういうものを見せてくれるか超楽しみ。

うー、こういう仕事したい。ただそれだけ。こうした刺激を受けられる事が図書館総合展フォーラムの醍醐味。
思い切って言い切ってみよう。これから次世代の図書館システム・サービスを入れたいと思っている方、今だったら「あたしをひろうとおとくです」ww いや、まぢで。

図書館総合展2日目 その2

図書館総合展2日目その2

2日目2つ目のフォーラムは
「EX Libirisが実現するサービスの統合化と利用者環境の向上」です。
裏番組の貸出履歴も魅かれていたのですが、こちらを選びました。

司会:増田さん@ユサコ
2001年からEL社の総代理店をやっており、総合展では今年もEL社のサービスについて講演をいただく。講師はTamar Sadehさん(タマ・サデさん)もともとソフトウェアのエンジニアをやっておられて、今はEL社のマーケティングディレクターとして、オープンプラットフォーム戦略を担当している。

Tamar さん
ある論文を紹介するところから始めたい。1977年のノーベル物理学賞を受賞したフィリップ・ウォレン・アンダーソンの論文
P. W. Anderson More Is Different, " Science New Series, Vol. 177, No. 4047 (Aug. 4, 1972), pp. 393-396
●この論文の一部を取り出して紹介されたのですが、どの部分だか特定できていません。すみません。わかる方がいたらお知らせください。最悪、増田さんに聞いてみるか・・・

学術文献の総数がどれだけあるか。これは非常に難しい。出典が違うと数が違う。学術雑誌の定義や関係性もはっきり決まっていないのではっきりはわからない。
学術機関では次のようなものを導入している。200から600のデータベース。抄録や索引データベースそれからフルテキストのデータベース。20000から 90000タイトルのジャーナル。例えばハーバードは90000タイトル契約している。電子ブックも登場していてさらに拡大中である。また音楽資料、画像資料、統計、リサーチレポート、データセットなど他にもいろいろある。学術機関が導入するものはエンドレスに増えていく。

それでは、どのようにして各機関はそうしたリソースへのアクセスを可能にするか。昔は静的なHTMLで個別にリンクをはっていた。それが自動生成されるようになった。
●ここでハーバードのSFXとMetalibの例示

1999年にSilverplatterが新しい試みを始めた。インターネット上の学術コンテンツの新たなナビゲート手法。図書館、出版社、ディストリビュータ、技術開発者との協力で大きなリポジトリを作ろうというもの。しかしこれは失敗した。
 ←まず市場が準備できていなかった。データプロバイダがデータを出したがらなかった。それから技術もまだ不十分だった。さまざまな機関からのすべてのデータを集めて、1つのところに落とし込むことが10年前はできなかった。

その他にも大規模プロジェクトがある。
デンマークのDTUが行っているDADS ●http://www.dtic.dtu.dk/infosog/dads.aspx
スウェーデンルンド大学のELIN  ●http://www.lub.lu.se/en/about-lub/organisation/lund-university-libraries-head-office/information-about-elin.html
そしてOhio link ●http://www.ohiolink.edu/
例えばDADSには80ミリオンの論文がある。

他の手段として、いわゆるメタサーチがある。EL社のMetalibは1500機関が使っていて人気はある。しかしよい点悪い点がある。
メタサーチの長所
 ・単一の窓口になりうる。シングルポイント。
 ・検索のスコープをデータベースやカテゴリによって絞ることができる。
 ・常に最新のデータが得られる。常にDBにアクセスして探しているから。
 ・データの重複もない
 ・導入が容易。

メタサーチの短所
 ・すべてのリソースがメタサーチで対象にできるわけではない。
 ・比較的遅い。それはリソースのレスポンスに依存するから。
 ・取得するレコード数に制限がある場合がある。
 ・異なるDBからの結果を統合することの難しさ。

で、今日ではどうなのか?さまざまな出版社から出る大量の情報を提供する他の方法があるのではないだろうか。

ユーザは単一インターフェースを志向している。技術も10年前より格段に進歩した。情報プロバイダも発見されやすさを意識している。昔よりデータ・メタデータが提出されやすくなっている。
→巨大な統合されたデータベースを作る時期に来ているが、しかし賢明に注意深くやる必要がある。

Wisely and carefullyとは?
 ・利用者が誰なのか
 ・機関を核として機関が必要なものを提供する必要
 ・利用者にフォーカスをして考える必要
 ・リコメンデーションも必要。関連資料へのリンクツールとか関連のある適切なサービスを提示するもの

→データはそこにある。しかしそのニーズは適切な技術によってサポートされるべきである。

近年多くの試みがある。SS社のsummon、OCLCのworldcat、ebscoのdiscovery service、そしてEL社のPrimo Centralである。
●Primoの検索結果一覧の例を提示
DBからの論文と蔵書が同じ画面で、関連するものが適切に提供されるようになっている。

Primo Central
学術情報の集中インデクスとして機能する。論文、電子ブック、他に広がり、グローバルかつ地域的に重要な学術アイテムを対象とする。EL社がホストし、メンテナンスを行う。Primoのライセンスを持つ全てのカスタマーが使うことができる。Primoによって、統合した検索結果の表示、関連度によるソートを行うことができ、メタサーチではないので、スピードも速い。集中インデクスであるということはつまり次のことを意味する。
・メンテナンスが継続される
・情報プロバイダからの同意を得る
・コンテンツをハーベストしノーマライズして提供する

次世代(Next Generation)のディスカバリーツールを通して集中インデックスが利用者に成功するディスカバリーを提供する。そしてこの集中インデクスは図書館ににユーザのサーチを知るためのツールを提供するべきである。次世代のシステムは洗練されたツールを提供しなければいけない。
そしてデリバリーについては、現在と同様に情報プロバイダから提供され、リンクリゾルバを通して、フルテキストが提供できる。Primo Centralを使うと図書館内も外も両方のソースを探すことができる。Primo Centralがメタデータを持っている。ユーザからは図書館内のデータか外のデータかを意識しないでいいことになる。Primo CentralはPrimoのアーキテクチャに対応しておりPrimoのテクノロジーでさまざまな学術情報にアクセス可能となる。図書館のカタログや Primo Centralの関連がある部分(=購読している部分?)そしてそれ以外のリソースにもアクセスできる。Primo Centralはデータ統合のパワーを持っている。コストパフォーマンスがよく、リモートリソースへのアクセスを可能にする。Primoのアーキテクチャにフィットしいる。機関がユーザに提供する検索環境をコントロールできる。

利用者から見ると大量のデータ+Googleタイプの検索+関連度ランキングという事になる。一方でユーザは結果リストの最初だけ見るので、関連する資料を見失う可能性が出てくる。そのため利用者が必要な資料の発見を支援することが必要となってくる。

ファインダビリティの強化のための新しい方法。
検索はスタートに過ぎない。検索結果リストを活用する。つまりファセットブラウジングや新しいサーチの提案。それからユーザが明示的・暗示的に出す意見をインプットとできる。資料を評価したり、その他の関連資料を発見する支援として。

Webは多角的に変化しつつある。単に情報を提供する場所でなく利用者から情報を得る場所にもなっている。

●Amazonの例を紹介。
カスタマーレビュー、システムが他の人が一緒に何を買ったか、他に何を買ったか、最終的に買った人がどれだけいるかなどを提示。タグ付け、レーティング、レビューに対する評価、ユーザのディスカッションの場所もある。ユーザが作るリスト→利用者を理解し、効率的サービス→売り上げ拡大

利用者にとっては、資料の評価が簡単になる。関連する資料を見つけるのが簡単。なにより楽しい。自分が参加することを楽しいと感じることができる。

そこで学術分野に目を移してみる。
利用者からの明示的な貢献としては、引用、レビュー、タグ付け、評価などがある。Primoをみるとレビューができる、タグ付け、レーティングもできる。 Natureがこれに関してプロジェクトを開始した。科学者・学者にレビューを書いてもらうというもの。しかしこれは失敗した。研究者は別の論文を書くことでレビューしたいと考えているからだろう。
Nielsen, M. ”Doing science in the open", physicsworld.com, 2009
http://physicsworld.com/cws/article/indepth/38904

暗示的なものとしては次のようなものがある。Circulation(流通)のデータ、検索プロセスの傾向、利用者のアクション(閲覧、ダウンロード、送信、ブクマ、印刷、保存)。これをどう使っていくことができるか。コレクション構築、資料の評価、トレンド分析(3ヶ月、6ヶ月後の動向分析ができる)、関連度ランキング、リコメンデーションなどに活用できる。

利用に基づく評価とはどういうことか。これまでは活用してこなかったものである。authorshipからreadershipへの移行が起きている。タイムリーに評価が得られる。引用を元に分析すると、引用されるまで1年とか2 年とか時間がかかる。しかし利用に基づく評価はそんなに待つ必要がないし、h-indexやImpact Factorがカバーできないような新しいタイプの資料もカバーできる。ただしこれはそうした既存の指標に取って代わるものではない。既存の指標に変わるものではなく、追加の指標として使うものである。

Library thingの例示。リコメンドをだしている。
ドイツの大学(BLB):貸し出しを受けた人の情報を集めて、リコメンドを提示。
●すみません。どこの大学だったか具体的にメモを取りきれず。

利用実績を使う際の課題としては次のようなものがある。
 ・プライバシーの問題
 ・包括性:真に使えるものになるためにはコレクションの包括性が必要。
 ・正当性:利用データが信頼に足るか。validity
 ・標準化:さまざまなソースから情報を得るので、同じ形で得る必要がある。
 ・量が必要:少数では意味がない

最初の課題に戻ってみる。一貫性を持って、数えていくにはどうしたらよいか。
COUNTERプロジェクトの紹介
出版社主導のプロジェクト。2002年に開始。100以上の出版社が参加し、15,000以上のフルテキストがある。定義しているのはレポートと実務指針。そしてCOUNTER準拠の利用統計を転送するメカニズムとしてSUSHIがある。これはNISOの規格になっている。

それでは、この統計をどう使っていくか
UKSG(英国逐次刊行物グループ)のUsage Factor projectがある。2006-2007に実施。実験を行い、モデル化をし、問題の特定をしようとしている、一貫性や定義の問題、たとえば論文の出版年や利用年をどのように定義するか。論文の出版日といっても様々ある。アーカイブに入った日か、出版された日か。そうした定義が必要。

もう一つのプロジェクトとして、MESUR
これはロスアラモス研のプロジェクトで、OpenURLを開発した、ヴァン・デ・ソンペルが関わっている。1 billionの利用トランザクションを出版社、アグリゲータ、図書館から取得し、メトリクスを調査しようというもの。
図書館からの情報はSFXのログで提供される。目的は利用に基づく指標を調査し、その正当性を検証することと、学術コミュニティをマッピングすること。39の評価指標をを調査し、3つが重要なものとして出てきた。
・人気:どのぐらいのリンクが張られているか、ジャーナルからのリンク、ジャーナルへのリンク、その数。
・最短経路:ネットワーク上の距離と強さ
・プレステージ:どれだけ一流の雑誌がリンクしているか。
http://public.lanl.gov/herbertv/papers/jcdl06_accepted_version.pdf

引用ベースの分析と比べると、かなり信用できるのではと考えている。こうした研究結果から図書館で使えるツールを提案したい。
→bX

bX は学術資源の新しいリコメンドサービス。OpenURLのフレームワークに基づいて開発されている。OpenURLのログを分析、データマイニングを行いリコメンドするもの。2009年5月にベータリリース。ホスティングサービス。既に170機関が購読中。呼んでいる論文に関連した論文をSFXのメニューとして出したり、Metalibの検索結果、それからxerxesから出すこともできる。もちろんPrimoのVer.3からもリコメンドを見る事ができる。

なぜリゾルバのログを使うのか。標準化された手順で利用者が求めるパスを提示できる。情報プロバイダ、機関を超えて提供されている。すべての機関で同じログが出てくる。そしてたくさんあるので、統合していく基礎となる。リゾルバの仕組みを復習するとリンクリゾルバはハブとして機能するものであるということ。利用者の動きを見てみると、たとえばebscoで何かを検索し、SFXでフルテキストを見る。次いでプロクエストから検索したり、 OCLC FirstSearchから検索をしたりする。SFXのログでは、同じセッションでどれをクリックしたかが記録されている。そのため、それを取り出すと関連性がわかる。つまり同じセッションで探した論文間には関連性があり、それがSFXのログからわかる。
多くの人の、多くの機関のログを集めて分析をすると非常に複雑なグラフが出てくる。これをarticle relationshipsと読んでいる。bXはOpenURLで探した論文の情報を ContextObjectで送る。そうするとそのグラフ(article relationshipsから関連性を見て一番近い論文を出してくる。bXへはAPIを通してリクエストする。結果はXML、TEXT、ATOM、 RSSで返す。

簡単にまとめるとOAI-PMHをつかってリンクリゾルバのログをハーベストする。するとそのログを元に、リレーションシップグラフを構築し、推奨文献リストを作成する。

bXはWeb2.0のサービス。関連性の高い、信頼性のあるリコメンドを提供する。引用と違って何年もかからない。最新の国際的で高品質なデータを元にしている。そしてSaaSとして提供されている。

最後に一つ紹介して終わりたい。
Jeffrey M. O'Brien "The race to create a 'smart' Google"
http://money.cnn.com/magazines/fortune/fortune_archive/2006/11/27/8394347/
webは検索から発見へ。検索は何かを探すものだが、発見は知らなかったものがやってくる。

More is differnt!

<質疑応答>
きんとうさん?@筑波大学:bx、ベータが取れるのはいつごろか。どれぐらいの規模のデータが集まっているか。

T:ベータだからうまく言ってないというものではない。もっと包括的なデータ、テストが必要と考えており、年末までデータ収集は行っている。進行中のプロジェクトである。Google Scholarは2004年から動いているが、まだベータである。ベータで続いていく場合もある。ユーザのクリック数は何千万と集まっている。 Boston Collegeなど。どれだけ使っているかというと、90%までいかないがよくなってきている。bXを使うだけでなくデータを提供するという貢献もできる。

新開さん:紀伊国屋書店
リコメンドのコントロールをどう考えているか。それとEL社の他のアプリケーションとの整理はどうなっているのか。

T:リコメンドとして表示できる数はデフォルトでは3つ。20まで同時に表示する事ができるが多ければよいというものではない。図書館側で決めればよい。bX はAPIで提供されており、リクエストがあればそれに返していくので、どのアプリを使うかはユーザが決めればよいことである。もしbXを使うアプリを作りたいということであれば、当然bXを買う必要がありますけど。

●感想等
情報としてそんなに目新しいことはなかったが、EL社のしたたかな戦略を感じたプレゼン。ちなみにアジアパシフィック担当のvice presidentのOdedも来ており、会場の反応をチェックしていた。

私の理解によればEL社の製品は
・安定したAleph。しかし作りは伝統的で古い。
・売れているSFX。
・Metalib。数は出ているかも知れないが、遅いなど評判は?
・その他いろいろあるが、インパクトはそんなにない。
・Primoは次世代製品として、ちょっと出遅れ?
→これまでは安定したコア製品であるAlephを中心にその周りにいろいろ作る事で、図書館のサービスをトータルにサポートできるような製品ラインナップを用意することで成長してきた。
といった感じ。
そうした課題や市場に対して打てる手を着実に打ってきているなあと。つまり
・古くなったAlephをデジタルの時代に向けてURMに移行させていこうと動き出す。
・売れ筋SFXを使った新しい(しかも時代のニーズみたいなものを取り込んだ)サービスbXの提供。
→売れ筋をベースにさらに売り上げを上げることをもくろむ
・評判?のMetalibはやはり横断検索の限界を示していそう。そこで次世代Primoを売りたいという思惑と、MetalibのフェードアウトをかねてPrimo Centralを立ち上げ。これによって蔵書とEJとかDBをシングルポイントで提供し、かつ性能もよくなるというメリットを売り込むか。

当然bXだって何年か前から開発していたんだろうし、先をみた開発等もしつつ、SFXベースで足元の商売もするという堅実さ。数年後の製品ラインナップは URMとPrimo(その2つと連携してSFXやbX、Verdeが動く。)という構成か。URMとPrimoの出来が今後を左右するのは間違いない。 Primoは現時点ではいまいちな感じだが、次のバージョンでどうなるか。

「海外のベンダーに依存するな」とかいう話もあったようですが、日本のベンダーにこうした戦略やある程度の展望を持った開発を行ってる、行えるところがどこまであるのだろうか。ベンダーに依存しきってしまうなら海外でも国内でも同じ事。ベンダーとどう協力して、どうやって図書館サービスをよくできるか、という事に役立つのであれば海外とか国内とか関係ない。そういう点で(別のエントリで書きますが)NTTデータ九州さんとかリコーさんには期待したい。


図書館総合展 2日目 その1

図書館総合展2日目その1

2日目は2つのフォーラムに参加。まず1つ目は「CLOKSS:学術コミュニティが運営する世界規模の電子ジャーナルアーカイブ」

都合により途中からの参加ですので、一部配布資料の情報も含めて書きます。講演者はVictoria Reich(Director LOCKSS Program)さん。スタンフォード大学の図書館の人でもあるようです。

<課題>
デジタルの学術コンテンツは失われるリスクが大きい
→アクセスを保証する長期間のアーカイビングが必要。
多くの長期間のアーカイビングがこの問題を解決するために設立されてきた。

CLOCKSSは他の取り組みがやっていない4つの重要なニーズを満たしている。
<CLOCKSSアーカイブの特徴>
次の4点が他とは違うCLOCKSSの特徴であり強みである。
・国際的なコミュニティによって運営されるアーカイブである。
・コンテンツは図書館によって、世界中で保持されている。
・出版者が提供しなくなってしまったコンテンツを無償でアクセスできるようにしている。
・参加者にかかるコストが低い。また寄付を受けている。

この4点を順に説明していく。

<運営体制>
CLOCKSSはアーカイブの受益者によって運営されている。理事会と諮問委員会。出版者と図書館とが、対等の立場で参加している。戦略的な決定や優先順位のつけかた等への発言権が同等 。

2007年にALAから賞をもらった。(2007 ALA ALCTS Outstanding Collaboration)この賞をもらったのはCLOKSSがはじめて。
●これ↓
http://www.ala.org/ala/mgrps/divs/alcts/awards/profrecognition/collaborationcite.cfm

Governing Boardには次のような出版者や図書館がいる。
●その内公開されるであろうスライドを参照。著名なところはほとんど入っているように見えるけど、EJ出版者事情はよく知らないので、どなたか補足を。
エルゼビア、シュプリンガーなど設立に関わってくれた出版社には感謝している。
●ここで安達先生@NIIの写真がスライドに登場。
また日本からはNIIに参加してもらっており、今日もNIIの招待でここに来る事ができて感謝している。

なぜ我々はこの図書館総合展に来たか。CLOCKSSはあなた方を必要としているからだ。皆が参加すればそれだけ発言力も増していく。CLOCKSSでは対等の立場でアーカイブの運営に発言権を持てる。是非参加してほしい。

その運営の様子を例として紹介したい。来週ニュージーランド、オーストラリアで諮問委員会がある。そこでの議題はある雑誌。OA誌だったが数年前に発刊をやめたものがある。現在ではそれを見るためには、別の有料のアーカイブサービスに参加しないといけない。つまり以前はOAタイトルで誰でも見ることができた。そして重要なタイトルだったのに、現在ではOAとしては提供されていない。今回審議対象なのはこのタイトルをCLOCKSSにいれてOAにすべきか、ということ。これを議論し投票によって決める。CLOCKSSは新しい取り組みなので、諮問委員会は電話会議やWEB会議で少なくとも年1回開催している。

<コンテンツの保存>
次にCLOCKSSでの実際のコンテンツの保存のされ方を説明したい。基盤となるテクノロジーとして LOCKSSと呼ばれるものを使っている。1998年にこの技術をはじめた。スタンフォードのデビットなんとかさん。今日も後ろに座っている。この LOCKSSはよくできたテクノロジーで、スタンフォードの教授陣に勝って、19th ACMシンポジウムで賞をもらっている。

具体的には、まず出版社からコンテンツが図書館に送られる。つまりアーカイブの完全なコピーをそれぞれの図書館が持つことになる。ライブラリーは記憶を保存する機関だし、何千年もそれをやってきている。この仕組みの中でも図書館が、自分が持っているものを保持するという点は変わらない。しかしそれぞれがコンテンツを置いておくだけでは十分ではない。CLOCKSSではそれぞれのコンテンツが置いてある場所はすべて監査されている。デジタルコンテンツは、ご承知のとおり、0と1でできているわけだが、例えばそれがひっくり返るなどして壊れることがある。1111が1110になってしまう。そうするとそのコンテンツは壊れて読めなくなってしまう。私はこれをbit rot(ビットが腐る)と呼んでいるが、正しくはdigital degradation(データの劣化)と呼ぶべきかもしれない。それぞれの場所で持っているものに対しての監査を随時やっている。それによって壊れたものが修復されることになる。つまりコンテンツが保持されている場所が世界各地に分散し冗長化されていることが重要である。そのため例えばどこかで地震などがあっても大丈夫なようになっている。集中型の保存システムだとメインの保存コンテンツが壊れるとそれがバックアップにまで広がってしまうことがある。蜘蛛の糸で例えると集中型はシングルスパイダー、つまり蜘蛛の糸1本なのに対して、我々はSpider Webである。現在の参加メンバーはアメリカ、カナダ、イギリス、オーストラリア、香港、日本にいる。今年中にヨーロッパで2つ追加される予定である。日本はコンテンツを保存している数少ないノードの一つであり大変重要である。

<無償でのアクセスの提供>
CLOCKSSでは出版社から提供されなくなったタイトル(これをトリガーと呼んでいる)について出版者から提供をうけ、無償で提供するという事をやっている。現時点で3タイトルがOAで提供中である。これらはいずれも以前は購読型のモデルで提供されていた。そのためこれらの雑誌は2箇所で見ることができる。1つはは有料で1つは CLOCKSS。CLOCKSSに入らないと、OAだったものでも見られなくなってしまうことがある。PubMed Centralは例外だが。この3誌だが、2つはSage、1つはOUPのものである。
●"Graft"、"Auto/Biography"、"Brief Treatment & Crisis Intervention"の3誌

実はCLOCKSSに来るアクセスの10パーセントはこのOUPのタイトルへのものである。実際に今アクセスしている人には、もともとこのタイトルを購読していた人もそうでない人もいる。1つ問題点として、フォーマットが変わったときにどうなるか。というのがあるが、必要ならばCLOCKSSのテクノロジーがフォーマットをマイグレーションするので、それは心配いらない。OAのコンテンツはCreativeCommonsのライセンスで提供することが可能である。

●ここでCC知ってますか、と言われたのだが、会場の反応が薄かったので、日本ではCCは知られていない、とか思われたかも知れない。これはちょっと残念。

もしあなた方が出版社とやり取りをすることがあったら是非CCを検討してほしい。いったんCCを使って、コミュニティとして保存を認めると、それ以降また交渉する必要がなくなる。つまり何か変更があった時に、また改めて交渉する必要がない。

<コスト>
CLOCKSSが法人化したのはまだ先月のこと。しかし時間をかけてコストを下げていくことを定款で決めている。実は2週間前に小規模出版からもらう料金は引き下げた。
●ここで料金表や参加している出版者のリスト等のスライド
(その出版者のリストのうち)グレーの文字のところはまだ交渉中で参加が決まっていない。ただしその中でACM(Association of Computing Machinery)は今週メンバーになった。料金を引き下げるにあたって日本の学協会が参加することに非常に期待している。

図書館のサポーティングフィーについて。他のアーカイブと比べるときわめて割安だと思う。しかしCLOCKSSはただのサービスを受けるだけでなく、参加したら運営にもかかわっていく必要がある。日本のNIIには技術的な活動をかなりしてもらっている。またコンソーシアムとして参加するとさらにディスカウントがある。

<まとめ>
CLOCKSSの4つの特徴。
・図書館と出版者が対等意参加してコミュニティを運営
・コンテンツが出版社から入手できない場合にCLOCKSSを通じて無償で提供する。
・図書館がコンテンツを保存するという役割は図書館が担うものということを再認識している。
・コストが低い。誰でも参加できる。それは特に今のような景気が悪いときに料金が高すぎて維持できなくならないようにということも考えているからである。

<質疑応答>
後藤先生@日本女子大学 が司会

高橋さん@エルゼビア:実際にOAになっている例があったが、なぜ出版社が自身でOAにしないでCLOCKSSを使っているのか。

R:出版社に聞いてほしい(笑)。OUPのものはエディターが亡くなったから続けられなかったと聞いている。OUPの方も会場にいるようなので後で補足があれば。Sageは定期購読収入では採算が取れなかったということのようである。我々としてはこの2つが大手の出版者のものであるということに驚いた。トリガーとなるものはもっと中小の出版者のコンテンツだと思っていた。

なんとかさん@文科省:図書館や出版社はどのようにこの費用負担をしているのか。

R:図書館の場合は保存の予算あるいは資料費から出していることが多い。アメリカの場合は会費のための費用をつんでいるところがあるのでそこから出している場合もある。日本は?

なんとかさん@文科省:個々の例はわからないが、聞きたいのは図書館と出版社がどのような形で経費を分担しているのかということ。

R:我々が経費をどう積算しているかというと、構築にどれぐらいかかるかとどれぐらいの支持を受けられそうか=何社の出版者、どれぐらいの数の図書館が参加しそうか。参加している出版者、図書館の頭割なので、だからもっと参加者が増えればコストが下がる。CLOCKSSのコストが安い理由としては、新しいインフラ構築をしているわけではないということがある。既存のインフラを活用しているものである。技術開発(LOCKSS)にかかったものはすべて回収済みという点もある。
どう責任分担しているかという点だが、議題を参加者に提示し議論し投票で決めている。例えばアーカイビングそのものに関する方針決定。先ほど説明したような、あるタイトルをCLOCKSSに入れるかどうかといったことは参加メンバーが決めている。

OUPの人:OUPは自分でサーバを持っていない。7割が学会誌で学会側が出版しないとしたものを運営していく金がない。Highwire Pressで運営しているので、維持していくには金がかかる。あとOUPの雑誌と言っていたが正確には学会名が入るべきだと思う。

R:もともとHighwireにも関わっていたのでにはHighwireには感謝している。

安達先生@NII:仕組みはすごく巧妙にできている。disasterに強い。しかしそういう災害もあるが、システムへの影響としては、ヒューマンエラーとかバグとかフォーマットのエラーとかもあるし、そういうものの方が大きい。フォーマットについては全てが標準化されているというものでもない。そのあたりをどうしているか。

R:一般にデジタルコンテンツへの脅威としては次の2つがあげられる。すなわちstupid humanと資金切れである。サンディエゴのスパコンのセンターでは20年間のエラーのうち75%がオペレータエラーだったという調査がある。

David:HTML やPDFの多くはスタンダードを満たしていないというのはそのとおりだが、だからといってブラウザとかは読めない表示をしてしまうということにはなっていない。なので、出版社が出した形で保存しておけば読者は読めるだろうと考えている。読めなければ出版社に文句を言えばよい。この点についてはブログで議論しているので、そちらも見ていただきたい。
http://blog.dshr.org/

早川さん@東洋大学図書館:日本の大学の学部生は英語論文を読める人が少ない。何か考えているか

R:Science Directは購読しているか。
早:yes

R:あれは全部英語でしょう。それにあえて購読料を払っているということは、それが重要だと思っているということだ。CLOCKSSはそれに対してのアクセスを担保していくことを可能にするものだ。先ほど見せたような出版者が参加しているが、この出版社リストにどこが足りないのかというと、日本の学協会出版社も同じレベルがあるのではと思っている。日本のコンテンツを保存したいという思いもある。
それから今回来日するにあたって日本語の名刺が必要だろうと思って、Googleで名刺の翻訳をした。それをスタンフォードの日本語のできるスタッフに見せてみたら正しくて驚かれた。googleで翻訳すればよいのでは(笑)翻訳の質は低いかもしれないが5年前にはこうしたものはなかった。

小野さん@一橋大学
一橋は小さい図書館だが、そうした小さい図書館でもCLOCKSSに貢献できるか。例えばこのために保存のサーバを置くようなことはできないが。

R:NIIが技術的なことはやっている。まずは参加料金が出せるのか、払えないのかどうかを教えてほしい。いったん参加すると同じ発言権を持つ。アメリカでも小規模な単科大学も入っている。その個々の参加が重要である。

小野さん@一橋大学:日本の大学は機関リポジトリもやっているが、IRのコンテンツもCLOCKSSの枠組みで保存できるか。紀要とか査読の無いものもある。

R:現時点でCLOCKSSではIRのコンテンツの保存サービスはやっていない。アメリカの人はLOCKSSの技術を使ってコミュニティベースでそれをやっているところがある。図書館が集まってやっている。IRに対しても保存をやってほしいという声もあるが、CLOCKSSはまだ若いのでまずは成長拡大してからと考えている。

R:紀要とかを出しているのであれば出版社として参加するということもできる。小さいところの出版社が出しているものこそ、保存する必要があると考えている。小さいところのコンテンツのほうがはるかに失われるリスクが高い。この出版者リストのうち、Sageをのぞくすべての出版社はいずれもスタンフォード大より長い歴史を持っている。なので日本語、小さい学協会をどうするかが関係する問題だと思う。

小野:もし非営利の団体として(商業出版者ではないものとして)参加するとすると参加料金は一番安いものになるか。

R:yes

吉田さん@東大情報基盤センター
先ほどの例だとHighwireからCLOCKSSにある時点で移ることになるが、その周知というのは?何かルールがあるか。

R:先ほどの3タイトルは全部Highwire Pressで出されていた。Highwireはスタンフォードの一部。どういう形でトリガーがかかったかということがある。この3タイトルはもともとコンテンツ自体はCLOCKSSのアーカイブにあった。出版社のほうからこれはやめるという通知を受け、それを受けて無償で提供するかどうかを理事会で検討した。CCで提供するというのは大きな転換で引き換えせない重要な決定である。CLOCKSSのルールで無償で提供するためには75%の賛成と反対が3メンバー以内でないといけない。

R:それからCrossrefへの通知も行う。利用者への通知という点では、まずは出版社のほうが通知するし、CLOCKSSのほうでもアナウンスをするしCrossrefも使うし。利用者がOAのコンテンツをどうやって入手するかというと検索エンジンか図書館のERMSということになり、あまり意識しなくても大丈夫なものだと思う。
●ERMSと言ってましたが、文脈的にはリゾルバですね。

検索フォーム
アクセスカウンター
RSSリンクの表示
リンク
ブクログ
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。