データ量の話

音声のデータにいろいろと付加情報をつけたものを
「コーパス」
と呼びます。
(付加情報というのは、
「ここからここまではなんの音」とか
「ここは誰が喋っている」とか
「ここはこういう雑音」とか
そういうやつです。)

で、音声認識をするためには、
どれくらいの量のコーパスが必要なのかという話になります。
結論からいってしまえば、
八割くらいの正答率でよければ、
三十分くらいの音声があれば大丈夫です。

でも、今のところ、コーパスの量が豊富なら豊富なほど
音声認識の性能が上がるということになっているので、
数千人、数十万時間の規模のコーパスが、
市場に出回っている製品には使われているようです。
(実際どれくらいなのか、私もよく知りません。)

inserted by FC2 system inserted by FC2 system