TensorFlowを使った機械学習を論文抽出に適用、ヒントは大学入試問題対策の裏ワザ：ディープラーニングでテキストマイニング（2/2 ページ）

» 2017年12月21日 05時00分公開

共通一次試験対策裏ワザ本のヒントとは

　そこで神田氏は、話題になることの増えてきた機械学習／ディープラーニングに着目。テキストマイニングで文献のレコメンデーションができないかと考えた。疫学も専門であり、統計学に親しみのある神田氏は、自ら機械学習の活用に取り組むことにした。

システマティックレビューの手間がかかる作業を、機械化できる余地が大きいと考えた

　では、どういう戦略で進めるべきか。そこで神田氏が思い出したのは、大学入試共通一次試験対策の裏ワザ本の内容。国語で回答の選択肢として文章が示される問題の場合、「多くの選択肢に共通するフレーズを最も多く含んだ選択肢が正解」である可能性が高いとされていた。

　神田氏は、これを論文の1次スクリーニングに応用。人間が選択する論文（のアブストラクト）の多くに頻出する言葉を含む論文を抽出することで、選ぶべき論文のレコメンデーションができると考えた。つまり、人間が選択する論文のアブストラクトの内容を訓練データとして、ディープラーニングを実行することになる。

人間が選択したアブストラクトの内容から、多くの論文で共通に用いられているキーワードを含む論文アブストラクトを判別する

　神田氏は機械学習フレームワークにWindows版のTensorFlowを利用し、100の訓練データに基づいて作成した機械学習モデルを、972の論文アブストラクトに適用した。

　神田氏は各種のニューラルネットワークモデルを比較。CNN（Convolutional Neural Network：畳み込みニューラルネットワーク）の幾つかのバリエーションに比べ、RNN（Recurrent Neural Network：再帰型ニューラルネットワーク）や、その派生形LTSM（Long Short-Term Memory）のバリエーションであるGRU（Gated Recurrent Unit）を使うことで、より高い精度が得られることを見いだした。

複数のニューラルネットワークモデルを比較した

　今回の検証では、クリニカルクエスチョンとして、前出の「患者教育は透析回避に効果があるか」を使用した。機械学習によるレコメンデーションを「第3の査読者」として採用することで、人によるスクリーニングでは18の論文に絞り込まれていたが、新たに妥当と思われる論文を10件追加できたという。

　このクリニカルクエスチョンは、例えば「ビタミンD製剤はCKDに推奨されるか？」に比べると抽象的であるため、人による論文スクリーニングは手間がかかる。こうした場合に、上記の裏ワザ本をヒントにした機械学習／ディープラーニングは有用性が特に高いと、神田氏は話している。また、人による選択との比較で学習を積み重ねることにより、今後の改訂版に向けてさらに精度を高められるメリットがあるという。