HMMについて

HMMについて語り出すと、かなり長くなるので、
ものすごく簡単なところまででやめておきます。

例えば、「音声(onse)」という単語があったとします。
人間の発音というのは時間的に伸び縮みしているので、
onnsseeeeeとなったり、ooonnssssseeeeeeeeeeeとなったりします。
これらを一つの時間伸縮するテンプレートで扱う必要があります。
そこで考え出されたのがHMMでした。

ものすごく概念的な話になりますが、
下の図のように、円で示した「状態」と
状態と状態との「遷移」で表されたテンプレートを考えます。
ここで、「o」の音に近いものが来続けたら、
「o」の状態をくるくるとずっと回り続けます。
「o」から「n」に移ったと思ったら、
「n」の状態に遷移します。
そんなふうにすると、どう伸び縮みした「onse」が来ても、
表現することができることがなんとなく分かると思います。

これがHMMの概略です。

このHMMを単語の数だけ用意しておいて、
どのHMMに入力音声が最も当てはまるかを計算し、
一番よく当てはまったHMMを認識結果とします。

こんな感じに、音声認識は行われています。

inserted by FC2 system inserted by FC2 system