Harmonic and Individual Lines plus NoiseHarmonic and Individual Lines plus Noise、あるいは HILN は、MPEG-4 オーディオ(MPEG-4 Part 3)で採用された低ビットレートの符号化方式である。音楽を対象とし、正弦波とノイズの組み合わせとしてパラメトリックに符号化する。 MPEG-4 のパラメトリック音声符号化ツールである MPEG-4 HVXC と同様、MPEG-4 AAC などの汎用的な符号化方式では十分な音質が得られない非常に低いビットレートをカバーするためのもので、デジタル放送、携帯電話、インターネット電話、音声データベースなどの様々な用途に使うことができる。 概要HILN は MPEG-4 オーディオでの音楽など一般オーディオ向け符号化方式の1つで、MPEG-4 Audio バージョン 2(ISO/IEC 14496-3:1999/Amd 1:2000)で追加され [1][2]、 現在は ISO/IEC 14496-3 Subpart 7 で定義されている [3]。 音声以外の一般オーディオ用としては、MPEG-4 オーディオで最も低いビットレートでの符号化を受けもち、音楽などの波形を直接符号化するのではなく少数のパラメータで表現することで、4 kbps より上のビットレートで符号化する [4]。 パラメータ化して符号化するためデコード時に再生速度や全体のピッチを独立して変えることができる。 入力信号は以下の異なった成分に分離され、それぞれのモデルに合わせてパラメータ化が行われる [5]。
スペクトルエンベロープの表現には線形予測係数を用いる。 HILN がターゲットとする 6 ~ 16 kbps(帯域幅 8 kHz)程度のビットレートに抑えるため、符号化の対象となる成分は知覚的に重要なもののみである。また、周波数や振幅の量子化は人間の聴覚心理学上の特性を考慮し、違いを知覚できる最小の値(丁度可知差異、just noticeable difference)を基準に行う[5]。 量子化された各パラメータはエントロピー符号化で圧縮された後にまとめられ、最終的な符号化結果となる。 符号化ビットストリームは階層的な構成にすることもでき、コアとなる基本層とそれに追加されたいくつかの拡張層に分けられる。基本層は復号に必要な最低限の情報を表し、拡張層はそれに対する追加情報を表現する。同じ符号化結果から用途に応じて音質の異なる複数のビットストリームを取り出すことができる。 HILN の特徴は以下の通りである[1]。 通常よく使われる帯域幅 8 kHz(サンプリング周波数 16 kHz)の場合、典型的なフレーム長は 32 ms 、ビットレートは 6 ~ 16 kbps 程度である。 MPEG-4 オーディオでの位置付けMPEG-4 オーディオは多くのツールの組み合わせからなり、音声符号化ツール(speech coding tools)とオーディオ符号化ツール(audio coding tools)に分かれる。 HILN はオーディオ符号化ツールの1つであるパラメトリックオーディオ符号化ツール(parametric audio coding tools)に分類され、MPEG-4 AAC などの汎用オーディオ符号化ツール(general audio coding tools)が不得意とする超低ビットレートでの音楽などの符号化を担当する。 また、HILN が音楽などのオーディオ信号をサポートするのに対し、音声のみをさらに低いビットレート(2 kHz-4 kHz)でパラメトリックに符号化/復号するツールとして MPEG-4 HVXC(Harmonic Vector eXcitation Coding)がある。HILN と同様 HVXC もデコード時に音声の速度とピッチ(音声の基本周波数)を変更できる[4]。音楽と音声を含む信号の低ビットレート符号化には、HVXC と HILN とを信号の内容に応じ切り替えながら使うこともできる。 さらに低ビットレートでの音楽表現が必要な場合、デコーダー側で音楽信号を合成するツールである MPEG-4 Structured Audio を使用することで、非常に表現力の高い音楽を 2~3 kbps 以下のビットレートで符号化することができる[4]。 アルゴリズムHILN のパラメータ抽出アルゴリズムは、大まかには以下の3ステップのプロセスで表現できる [6]。
この後、各パラメータの量子化と符号化が行われ、最終的なビットストリームが構成される。 ビットレートを抑えるため、パラメータ化の対象となる正弦波成分は知覚的に重要なもののみである。他の正弦波によるマスキング効果などの聴覚心理学上の特性を考慮し、知覚されるエネルギーが大きいものから順に正弦波成分の取り出しとパラメータ化が行われる。それ以外の成分は特定のスペクトルエンベロープを持つノイズ成分としてまとめて表現する。 量子化も人間の聴覚心理学的特性に合わせて行う。振幅の量子化は対数スケールで行い、周波数の量子化はバークスケールを用いる。 符号化はエントロピー符号化とフレーム内/フレーム間の予測符号化とを組み合わせ符号化効率を高める。 符号化と比べると復号の処理は単純で、符号化ビットストリームからハーモニック成分、独立正弦波成分、ノイズ成分に相当する各パラメータを取り出して合成し、それらを足し合わせる。ハーモニック成分や独立正弦波成分を合成する際、位相がフレーム間で不連続にならないように行う。 再生速度を変えたい場合、各パラメータを時間軸方向に補間しながら合成する。 脚注
参考文献
関連項目外部リンク
|