file01:モデル vs データ

自然界からなるべくシンプルなルールを見つけ出し、演繹的に答えを導こうというのが「モデル」構築的な考え方なんですね。初期条件、境界条件などを与えて計算を進め、科学的な知の発見を目指す「シミュレーション」はその代表例です。

この方法のよさは、予測する力を持っていること。今日のしくみがわかれば、明日、明後日がある程度わかる。また対象のダイナミクスを捉えていますから、私たちは「モデル」を通じて、対象がなぜそのように変化するのかを理解することもできます。ちなみに、これを「モデルの可読性」といいます。

ところが現実の世界には、必ず不確実な部分があるわけです。シミュレーションは、基本的には閉ざされた理想的な世界を想定し、その中で計算を進めていくシステムですから、外から何らかの影響が入ってくると、それによって大きく変わってしまいます。かといって、すべてのケースを考えてシミュレーションすることは、もちろん不可能です。不確実性が大きければ、予測と実際のデータが合わないということにもなります。

これに対してデータ駆動型の手法は、逆問題的に読み解くアプローチです。データという「答え」から逆に「問題」へとさかのぼり、関係性を読み解いてモデルをつくる。つまりは帰納法であり、データマイニング機械学習などが得意とする手法だと言えるでしょう。

この方法のよいところは、基本原理等の何の出発点がなくともモデルをつくれる点です。さらには新しいデータを追加し、経験を活かすことで、不確実性をより減少させることができます。たとえばスーパーの売り上げ予測などでは、この方法をうまく採り入れることによって、さまざまなコスト削減に大きく貢献しています。

しかしながら帰納法というのは、本質的に「今までこうだった」という経験的な推論ですから、一度も起こったことのないものを基本的には予測することはできない─これが大きな弱みなんです。そしてデータから現象を支配している関係式や経験則を導き、その機能を自体を模倣しているだけなので、多くの場合、明確な可読性がありません。

現実世界は不確実性だらけだから、なんでもデータ駆動で計算すればいいかというと、やはり「モデル」の推論力も必要なんですね。そこで1980年代半ば頃から、さまざまな情報を「つなぐ」技術の重要性が指摘されるようになりました。2つの方法を系統的にどのように統合し、統合のプロセスをいかにデザインするかが、今後ますますキーになると考えています。

TEXT : Tomoyuki Higuchi, Rue Ikeya  DATE : 2010/09/03