人間は五感を使って、外界を認識しています。その中でも外界の理解に重要な役割を果たしているのが「視覚」で、これを使って人が外界を認識するやりかたを工学的に実現しようというのが、コンピュータビジョンのゴールです。ところが、たとえば実世界の物体を認識するというのはコンピュータビジョンの重要課題のひとつですが、これを制限なしに行うというのは非常に難しく、「えっ! そんなのもできないの?」と言われかねない面が、まだまだあります。
たとえば椅子の画像を見て、私たち人間はなぜ「椅子だ」と思うのか? 形も色も千差万別です。すると椅子とは、座面があって、脚があって……と、定義していけばよさそうですが、では座面とは何かといった新しい問題も生じてしまいます。さらに私たちは、場合によっては大きな石を恰好の椅子だと思うこともあるのです。この例でもわかるように、どんな場合でも人が椅子と思うものを椅子として認識する、ということは非常に多くの「問い」を投げかける課題だと言えます。
ではコンピュータを使って、このような物体認識をどのように行うのかというと、現在広く採用されているのは、ほとんどが統計的な方法です。画像から何らかのパターンを抽出して、統計的に処理していきます。少し詳しく言うと、まず解析したい画像をあらかじめ特徴量というものに変換する「前処理」を行います。この特徴量の計算のしかたには、さまざまなものがありますので、どんな特徴量を使ったら狙った性能が出るかというところで、やはりノウハウが問われます。画像データの感触を確かめながら小規模なデータから試行錯誤し、見通しがついたら、大量の画像を集めてきて性能を上げていきます。
コンピュータビジョンという分野は、実は最近、デジカメの顔認識など、実用化できるものが増えてきて、ちょっとした活況を呈しています。この急速な発達の理由は、解析のアルゴリズムが発達しただけでなく、コンピュータの高速化や、メモリーの大容量化といったこととも無関係ではありません。特に、インターネットのおかげで使えるデータの量が飛躍的に増えた、その量の変化がかなり利いているのです。この変化がさらに進んでいくと、解ける問題がもっと増えていくのではないかと、期待がかかります。