これから伸びる研究の芽を探し出す
オルトメトリクスと引用ネットワークによるリサーチフロント成長の定量的評価

研究の概要

背景と課題

政府や研究機関が自らの研究の強みの把握し、有望な研究者を見つけ、効果的に予算を分配するには、萌芽的な研究領域を見つけ出す必要がある。その方法として挙げられるのが、リサーチフロントと呼ばれる、コアペーパー(特に過去5年間でよく引用された論文)によって形成される論文群の探索である。

しかしながら、リサーチフロントには衰退傾向にあるものや、成長傾向にあるものが存在する。そこで、リサーチフロントの定量的な評価を行い、どのようなリサーチフロントならば論文数が増加(成長)するのか、という条件を求めることが重要となる。

古くから被引用数を用いた定量的な研究の評価が行われてきたが、分野間に差があることや即時的な評価が困難といった課題があった。そこで、代替的、補完的な定量的評価手法として、ウェブ上での閲覧数やSNS上での言及数などの測定可能な多様なデータ、オルトメトリクスに注目が集まっている。

ところで、リサーチフロントの探索は、引用ネットワークに対するクラスタリング(グループ分け)として行われる。引用ネットワークとは、論文などをノードとし、それらの間の引用関係をエッジとすることで構成される構造(グラフ構造)である。

ここで注目すべきなのは、あるノードがクラスタ(ノードの集合)においてどのような機能(ハブ的な機能、他のクラスターとの接続的な機能など)を果たしているかというノードの構造的役割である。

これまで、リサーチフロントとオルトメトリクスの関連を明らかにした研究は行われていない。また、ネットワークにおける構造的役割との関連を定量的に分析した研究は見られない。

本研究では、論文数の増加をリサーチフロントの成長と定義し、リサーチフロントに含まれる論文のオルトメトリクス(ウェブ上での閲覧数や保存数、SNS上での言及数など)と、引用ネットワークからリサーチフロントの定量的評価を行い、成長するリサーチフロントの特徴を明らかにする。

使用データ

本研究では、まず、オンラインジャーナルPLOS ONEにおいて2010年から2016年までに出版された論文158732本から、本研究において不要なデータや不適切なデータを削除し、出版年ごとの被引用数上位1%を抽出した。

それらを2010年から2014年までに出版された論文、2011年から2015年までに出版された論文、2012年から2016年までに出版された論文と、期間に重複のある5年間の3データセットに分割した。それぞれ、データ2014(1057本)、データ2015(1283本)、データ2016(1381本)とする。

論文ごとに出版年、キーワード、引用文献と、出版されてから2019年11月26日までの累計の被引用数とオルトメトリクス(閲覧数、ブックマーク数、SNS言及数)を取得した。

本研究では既存手法を用いて引用ネットワークを作成した。書誌結合(同じ論文Aを引用する論文Bと論文Cの関係)を用いた引用ネットワークをデータセットそれぞれに作成し、各エッジに対して、出版年の差、引用文献の類似度、キーワードの類似度の3指標に基づいて重み付けを行った。

Newman法(階層的凝集型クラスタリング手法の1つ)を用いて、各データセットにおいて20程度のリサーチフロントを求めた。次に、期間が連続するデータセットにおいてリサーチフロントの重複する論文の割合を求め、それが閾値以上のものを連続するリサーチフロントと定義した。

使用したデータセットからは、連続するリサーチフロントが8つ求められた。このうち全期間にまたがって存在する(すべてのデータセットから探索された)6つを用いる。

データ分析

初めに、リサーチフロントの成長とオルトメトリクスとの関係を分析した。

リサーチフロントの成長を論文数の増加と定義し、被引用数およびオルトメトリクスの値を用いてSpearmanの順位相関係数(2変数間の相関係数を求める統計的手法の1つ)を算出した。しかしながら、論文数の増加と有意な相関は見られなかった(表1)。

表1: リサーチフロントの成長とオルトメトリクスのSpearman順位相関係数

次に、リサーチフロントの成長と引用ネットワークにおける構造的役割との関係を分析した。

いずれのデータセットの引用ネットワークにおいても、ほぼすべてのエッジがそのノードが属するクラスター内で張られている(Ultra-peripheral)ノード(図1-左)、もしくはおよび多くのエッジがそのノードが属するクラスター内で張られている(Peripheral)ノード(図1-右)に分類される論文が95%以上を占めた。

図1: Ultra-peripheralノードとPeripheralノードの特徴

まず、データごとに出版年別のUltra-peripheralノード、Peripheralノードの割合を算出した。いずれのデータにおいても出版年が新しくなるほどUltra-peripheralノードの割合が低くなり、反対にPeripheralノードの割合が高くなった。

次に、被引用数およびオルトメトリクスと、リサーチフロントごとのUltra-peripheralノード、Peripheralノードの割合との関係を、Spearmanの順位相関係数より求めた。データ2016を用いた場合のみ、被引用数とUltra-peripheralノードの割合に有意な負の相関が見られ、反対にPeripheralノードの割合とは有意な正の相関が見られた。

また閲覧数、保存数、言及数においても同様の傾向が見られ、Peripheralノードの割合と保存数、言及数との有意な正の相関が見られた。

さらに、成長率と、リサーチフロントごとのUltra-peripheralノード、Peripheralノードの割合との関係を、Spearmanの順位相関係数より求めた。データ2014からデータ2016への成長率に関して、Peripheralノードの割合との間に正の相関関係があった(表2)。

表2: リサーチフロントの成長とUltra-peripheral、Peripheralノードの割合のSpearman順位相関係数

すなわち、出版年の新しい論文ほど属するリサーチフロントに含まれる論文以外にもエッジを張る傾向があり、出版年の新しい論文では、Peripheralノードに分類される論文を多く含むリサーチフロントほど被引用数やオルトメトリクスの値が高いことが分かった。

成果と提案

本研究で扱ったオルトメトリクス(閲覧数、保存数、言及数)が、リサーチフロントの成長に寄与するとは結論付けられなかった

閲覧数や保存数は一般の人々を含めた論文の活用情報を表すため、その多さは研究者の注目の高さを意味せず、また、言及数に関しては多くの論文がSNS上で全くもしくはほとんど言及されないため、論文数の増加の要因とはなりえなかったことが、その理由であると考える。

リサーチフロント内部の論文間だけでなく、他のリサーチフロントに含まれる論文に対してもエッジが張られている論文を多く含むリサーチフロントは論文数が増加する傾向にあることが分かった。引用ネットワークにおける構造的役割がリサーチフロントの成長に影響を与えることが示唆された。

他のリサーチフロントに属する論文に対するエッジが存在する論文は、学際的な(複数の分野に関わる)論文である可能性がある。そのようなリサーチフロントは学際的な研究領域であり、複数の分野の研究者が執筆した論文が含まれやすいため論文数が増加したのではと考える。

この記事は、下記の論文を要約したものです

岩永 健太郎(2020)オルトメトリクスを用いたリサーチフロントの定量的評価、2019年度 筑波大学 大学院 博士課程 システム情報工学研究科 修士論文。

後記

  • この研究は2010年から2016年までに出版された論文が対象で、SNS言及数など、研究論文を定量化する新たな指標が、リサーチフロントの成長に寄与するとは結論付けられませんでした。ただし、構造的役割(ネットワーク内でのノードの位置)とリサーチフロントの成長には関係が見られました
  • 2020年に急速に増加した、新型コロナウィルス関連の研究論文は、SNSで多く言及され、筆者自らが解説したり、議論する場面も多く見られます。また、SNSの利用人口も増加し、コンテンツも多様化しています。オルトメトリクス指標とリサーチフロントの成長は、今後ますます注目されるのではないでしょうか。
アタッチメント

分析に用いたデータ

No.作成者タイトルデータコード参考資料掲載日備考欄
1工藤晃太ランダムな揺らぎで必要な変数を探す2021.04.01Creative Commons
2岩永健太郎これから伸びる研究の芽を探し出す○※※※データサイズ大きいためリンク貼れません2021.04.01Creative Commons
3水上印刷株式会社複数モデルの組み合わせによる作業時間予測2021.08.01再配布不可