研究会

機械学習、データベース、分散システム、その他技術的なことを書く研究会です

webrtc-chord を利用した分散型の学術論文検索エンジン Scholar Ninja の紹介

概要

以前公開した WebRTC を用いた Chord 実装である webrtc-chord を利用した分散型の学術論文検索エンジン Scholar Ninja を開発したという知らせを開発者の方から頂いたのでその紹介記事です。

An open distributed search engine for science

Scholar Ninja

Scholar Ninja ※ 画像はブログより引用

WebRTC で分散ハッシュテーブルの一種である Chord を実装したものを GitHub公開していたところ、Jure Triglav さんという方からそれを利用した学術論文検索エンジンである Scholar Ninja を開発したという知らせを頂きました。

ブログによると、開発の動機としては以下のようなものです。

  1. 世の中には様々な科学技術ソフトウェアがあるが、それらの中から真に「良い」もの (被リンク数、CI の実施等) を検索することは簡単ではない。
  2. それらを検索できるようにするためには例えばどのような論文からどんなソフトウェアが引用されているかに関する大量のデータが必要である
  3. Google Scholar のような論文検索サービスには API が用意されていないか、検索頻度の上限等の制限がある場合が多い
  4. そのような制限のない、 オープンでフリーな API を用意したい

Scholar Ninja は Web ブラウザーのエクステンションであり、Chrome ウェブストアで公開されています

Scholar Ninja をインストールしたブラウザーはそれら自身によって構成される Chord ネットワークに参加し、学術論文を公開している Web サイト (PLOS や eLife, PeerJ, ScienceDirect 等) を訪れ論文を読むとその論文に関する情報が Chord ネットワークにインデックスされます。

なお、インデックスされる情報はタイトルやキーワード、アブストラクト等の情報のみで、フルテキストはインデックスされないとあります。

そして Scholar Ninja の検索枠にキーワードを入力すると、Chord ネットワークからそのキーワードに関連する論文の情報を取得し表示します。

開発は GitHub行われています

まとめ