その他の話

おまけのページです。

音声認識の外側

音声認識の話ばかりをしてきましたが、
音声認識ばかりが音声工学ではありません。
ほかにもいろいろとあります。

まず、同じ認識つながりでいえば、
「話者認識」という研究があります。
これは話者をいかに判別するか、という技術です。
将来、セキュリティに使えるのではないかといわれています。
また、犯罪捜査などにも使えるでしょう。

それから、音声認識の逆の技術に、
「音声合成」があります。
機械に人間の声を出させようという研究です。
この研究が進んでいたら、
ドラえもんは声優を交替せずに済んだでしょう。

そのほかにも、
ある人の音声を別の人の音声に変えたり、
音声が来た方向を自動的に推定させたり、
英語の発音の良し悪しを測ったり、
そもそも音声とはなんなのかを考えたり、
などなど、いろいろとあります。

雑音

音声認識が抱えている大きな問題の一つに、
「雑音」の問題があります。

今の音声認識のシステムというのは、
少し雑音が混じっただけで、正常に動作しなくなります。
この問題に対して、様々な人が様々なアプローチで頑張っています。

  • マイクの本数を増やす。
    性能は飛躍的に上がるのですが、
    マイクが増やせないときはどうするのか、という問題があります。
  • 雑音を引く。
    かなり多くの人がこの方法で雑音の問題に取り組んでいます。
    最大の問題は、引くべき雑音をうまく推定することができるかどうかです。
  • 音声の成分を探す。
    意外にも、わりと少数派です。
    音声の性質をどうやって記述するのかという部分が鍵です。
  • 学習の段階で雑音を混ぜておく。
    この方法論を用いている研究者も多いです。
    混入する雑音の種類などが考えどころです。
  • 音声と雑音の関係性を利用する。
    複数のマイクが使える状況では、かなりの性能になります。
    問題は、一つのマイクしか使えない状況でどうするかです。

inserted by FC2 system inserted by FC2 system