一言でフーリエ変換と書いてしまいましたが、
実はいろいろなことをしています。
分析対象が上のような音声の断片だとします。
(フレーム分析をしています。)
まずはこれに、ハミング窓と呼ばれる「窓」をかけます。
ハミング窓は、下のような形をしています。
この窓をかけると、下の図のように左右がすぼまります。
これを下の式に従って、フーリエ変換します。
フーリエ変換後は複素数なので、
各周波数ごとに絶対値をとります。
そうすると、下の図のようになります。
高周波成分がほとんど見えないことが分かると思います。
でも、高周波成分にもちゃんと情報はあるので、
対数をとって扱いやすい形にします。
なぜそんなことをしていたのかは説明しませんが、
まあ、こういうことをしていたわけです。