私たち人間の言葉の使用例を広く収集したデータを「コーパス(corpus)」という。言語学や自然言語処理などの分野では、研究の基礎とも言える言語資源だ。このコーパス、通常は「書き言葉」を中心に作られるが、音声データによる「話し言葉」を集めたら、どんなことがわかってくるだろう?──そこで今回は、世界的にも先駆的な音声コーパス『日本語話し言葉コーパス(CSJ)』を設計・開発した国立国語研究所の前川喜久雄教授に、お話をうかがった。
私が若い時から興味を持っていたことのひとつは、「話し言葉と書き言葉の違い」ということでした。ところが教科書を見るとどれも、話し言葉は音声を、書き言葉は文字を媒体としているとしか書いていない! しかし書き言葉というのは記号が並んだ一次元の情報なんですね。一方、話し言葉には言い間違いもあれば、言いよどみもあるし、「あー」とか「えー」とか、語尾のちょっとした音の高低なども、何かを豊富に伝えている。つまり文字が表現している情報と同時に、韻律的な特徴も情報として運んでいるわけですね。だから書き言葉だけでは抜け落ちてしまうものがある、とずっと思っていました。 一方で、はっきりと結論の出る研究がしたい、とも思っていました。たとえば文法の問題などについて何が正しいかということになると、悪くすると水掛け論になりかねないわけです。その点、音声は物理的に見ることもでき、比較的客観的なデータがとれる可能性がある。たまたま統計的なアプローチにも興味を持っていたので、最初に音声のコーパスを作ろうと思い立ったのは、実は大学院に入ったばかりの1980年でした。 ただ当時、コンピュータに大量の音を入れるのは費用の点で難しかった。そこで音はあきらめ、音声記号で入力しようとしました。擬似的な音声記号をアルファベットの大文字・小文字を組み合わせて作ってみたらどうかと考えました。ところが……当時在籍していた上智大学の大型コンピュータの入力装置はパンチカードで──そう、小文字が扱えなかったんです(笑)。これはプログラミング言語としてFORTRANしか想定されていなかったからです。上智には数年後に当時最新のコンピュータ・システムが導入されましたが、そのとき私はもう鳥取大学の助手になっていました。そして鳥取大の大型コンピュータはまたFORTRAN用でした! それから20年、コンピュータの性能は何万倍になって、価格は何百分の1になった。音声認識の5年間プロジェクトとして、自然な音声の大規模コーパスを作る『日本語話し言葉コーパス(CSJ)』が始まったのは、1999年でした。
ページトップへ
ラッセルによれば……
CSJの基本には、まず音声認識のアプリケーションを作るという目的がありました。研究プロジェクトそのものが、東京工業大学の古井貞煕先生を総括代表者とする国立国語研究所と情報通信研究機構との共同研究です。当時音声認識にはすでに30年以上の蓄積があったのですが、これらはすべて実験室で書いてある文章を人間が読み上げた「朗読音声」を対象としたもの。でも考えてみれば……書いてあるなら音声認識する必要はないですよね? 対象とするなら「自発音声」と呼ばれる、人が発する自然な話し言葉でなければならない。しかも雑談よりはむしろ学会の講演や自己紹介のスピーチのように、意味的にまとまった内容のあるものが認識できれば役に立つだろう、と考えました。 そこで音声認識という目的に沿ってモノローグ(独話)を中心とし、さらにこれと比較できるよう少量のダイアローグ(対話)と朗読音声も加え、結果的に全体で約752万語・約662時間の音声を集めました。コーパスがある程度まとまったところで、古井先生の研究室や京都大の河原達也先生の研究室が音声認識システムを学習させ、学会講演の音声をテストしたところ、既存のシステムでは40%ぐらいだった認識率が、いきなり70%近くまで上昇し、最終的には約80%まで上げることができたんです。自分の研究が情報処理でも役立つことを目の当たりにできた貴重な経験でした。 また、コアと呼ばれるCSJの一部分、約50万語分には、飛躍的に詳しい付加情報(アノテーション)をつけました。これは韻律的な特徴、談話的な区切りなど、さまざまな言語学的な特徴をラベル化し、言語学的な分析に利用できるようにしたものです。講演を聞いて感じる印象を詳しく記録した「印象評定データ」も付いており、実際に分析してみると、思いもかけないような結果が見つかることがあります。
老博士の口癖
金田一春彦氏は時間的に見た動作・作用の観点から日本語の動詞を4つに分類して、たとえば「聳える」という動詞は必ず「聳えている」の形で状態を表すのに用いられ、「聳える」単独では使われないと書き(『日本語動詞のアスペクト』)、これには言語学者もみんな納得して、現在でも定説になっています。ところがコーパスで調べると、「山が聳える」というのが何例も出てくるんです。まさかこんな言い方はしないだろうと思っても、実際には出てくることがある。すると──ある言い方が正しいかどうか、人は本当に判断できるのだろうか? 別の例として「見れる」「来れる」などの「ら抜き言葉」も、近年、不適切な例としてよく話題になりますね。これが単なる言葉の乱れではなく日本語の大きな変化の一端だと指摘したのはやはり金田一春彦氏でしたが、では大勢としてどの世代あたりで逆転したのか? アンケートへの回答(「国語に関する世論調査」文化庁国語課, 2001)を見ると1971-80年生まれの世代で逆転が生じています。ところがCSJでは戦前の1940-49年生まれの世代ですでに逆転が始まっている。自分は「ら抜き言葉」を使わないと言っている30年にわたる世代が、実際には使っている。それはつまり、自分自身の言語行動を内省することの難しさの表れだろうと思うんです。 少なくとも音声言語は、100%伝達できるシステムではない。言った・言わないがあとで問題になるような、相当いい加減なシステムだと考えられるわけなんです。言語は、法律学・哲学など他の学問にとっても道具ですから、もちろん推敲して厳密に使うことはできます。ところが言語学は、言語そのものを研究しなければいけない。では言語とは何だろうか──たとえばチョムスキーの理論は、言語をすべて意識化できるものとして扱っています。しかし意識化できるのは、実際の言語活動のかなり限られた部分に過ぎません。私はもっと表面的なところにある言語行動としての現象を見ており、それを説明したいと考えています。
ご意見や感想をおくる
私の音声学の原点