【概要】
4つのアンサンブルモデル(Random forests, extreme randomized trees, adaptive boosting and gradient boosting)の予測精度と解釈可能性を比較した。
また、異なるアンサンブルモデルをブレンドすることにより、モデルの予測可能性と解釈可能性が向上した。

内容
NN や SVM は予測精度は高いが解釈可能性が低い。
線形回帰や決定木は解釈可能性は高いが予測精度は低い。
解釈可能性をあまり失わずに精度を高めるため、複数の解釈可能なモデルを組み合わせた「アンサンブル学習」を利用する。

モデル
(アンサンブル学習についてはこちら

・Random forests (RF)
ブートストラップサンプリングと入力変数のランダム選択という2種類のランダム性を使用して、互いに類似していないDTを複数作成する。
DTの各ノードでは不純度が最小化されるポイントで分割される。
各DTのアンサンブルは、単一のDTと比較して予測精度が高く、モデルをデータセットのノイズに対してロバストにできる。

・Extremely randomized trees (ExtraTrees)
バギングに基づく別のアンサンブル学習モデル。
RFと同様に、ブートストラップサンプリングと入力変数のランダム選択という2種類のランダム性を使用して、互いに類似していないDTを複数作成する。
ただし、DTの各ノードでの最適な分割ポイントはランダム化される。
ExtraTreesはRFと比較してバリアンスを下げることができ、RFと同等またはそれ以上のパフォーマンスを発揮する。

・Adaptive boosting (AdaBoost)
AdaBoostは弱学習器をトレーニングした後、そこで誤分類されたサンプルの重みを増やし、次の弱学習器のトレーニングセットの大部分を占めるようにします。
したがって、AdaBoostは多様性が大きく予測精度が高い。

・Gradient boosting (GBM)
GBMは、AdaBoostのように反復ごとにインスタンスの重みを微調整する代わりに、勾配降下法を使用して前の弱学習器のエラーを最小限に抑える。

・均一ブレンド
予測結果と特徴の重要性を平均する(メタ学習なし)。

・線形ブレンド
複数の線形回帰を使用して情報を要約する(線形メタ学習)。

・任意ブレンド
GBM回帰を使用して情報を要約する(非線形メタ学習)。

説明変数
QSAR / QSPRモデルを解釈するためには、解釈可能なモデルと解釈可能な記述子を利用する必要がある。
解釈可能な記述子は、明確な構造的または化学的意味を持っている必要がある。


Case study 1: fluorescence dataset

データ
公開論文から入手した413データ。

説明変数
・2143個のDragon 7分子記述子(0次元から2次元の分子情報まで。3次元は解釈困難なため不使用。)
・25個のGaussian09で計算された量子化学記述子
・溶媒種(溶媒効果は蛍光の過程で重要な役割を果たすため)

目的変数
色素化合物の最大蛍光波長。

モデル
・Random forests (RF)
・Extremely randomized trees (ExtraTrees)
・Adaptive boosting (AdaBoost)
・Gradient boosting (GBM)
・Uniform blending
・Linear blending
・Any blending

結果
・4種のアンサンブルモデルの予測精度に大きな差はなかった。
・4種のアンサンブルモデルの説明変数の重要度にはモデルの特徴に由来する差が見られた。
・全体的にHOMO-LUMOギャップが最も重要な説明変数であり、特にRFは顕著だった。
・ExtraTreesでは、トレーニングデータセットに多数のシアニン色素があるため、シアニン色素の説明変数の重要度が高かった。
・AdaBoostでは量子化学記述子の重要度が高かった。
・GBMは唯一溶媒効果の重要度が高かった。
・均一ブレンド、線形ブレンド、任意ブレンドのいずれのブレンドモデルも、元のモデルより予測精度が向上した。

Training datasetTest dataset
R2RMSE (nm)R2RMSE (nm)
RF0.96622.250.90434.42
ExtraTrees0.99111.150.90833.71
AdaBoost0.98116.220.90434.45
GBM0.98812.920.90534.26
Uniform blending0.98813.260.92131.35
Linear blending0.99210.250.92231.05
Any blending0.9967.840.93129.11


Case study 2: liquid crystal dataset

データ
LiqCrystデータベースから取得した棒状芳香族化合物のデータ。
液晶性を示す2780化合物と液晶性を示さない1006化合物との計3786データ。

説明変数
・初期構造から84、構造分割後のメソゲンとウィング1、2からそれぞれ72と46、48のRDKits記述子(合計250)

目的変数
液晶性/非液晶性の分類

モデル
・Random forests (RF)
・Extremely randomized trees (ExtraTrees)
・Adaptive boosting (AdaBoost)
・Gradient boosting (GBM)
・Uniform blending
・Linear blending
・Any blending

結果
・4種のアンサンブルモデルの予測精度に大きな差はなかったが、同じ化合物で異なる予測となるケースが102あった。
・4種のアンサンブルモデルの説明変数の重要度にはモデルの特徴に由来する差が見られた。
・バギングモデルのRFとExtraTreesでは、2つのウィング記述子の重要度が高かった。
・GBMでは、重原子数や回転可能結合数の重要度が高かった。
・均一ブレンド、線形ブレンド、任意ブレンドのいずれのブレンドモデルも、元のモデルより予測精度が顕著に向上する様子はなかった。
・一方、ブレンドモデルは記述子の重要度が経験則と近くなった。

【引用】
Chia-Hsiu Chen, Kenichi Tanaka, Masaaki Kotera & Kimito Funatsu 
Journal of Cheminformatics volume 12, Article number: 19 (2020)