「音」は、物の動きによって発生する振動が耳に届いて聞こえるもので、音を波形として表したとき、高い音は周波数が高く、低い音は周波数が低い波として表され、人間の場合、い一般的に音として認識できるのは、下限が20Hz、上限が20,000Hz程度と言われています。

音をコンピュータで扱うためには、一般には「パルス符号変調」(PCM)と言う手法でデジタルデータ化するのですが、これは波形を一定の間隔ごとの数値(離散信号)として取り込む「標本化」、いわゆるサンプリングと、元の波に近いデータとして表す「量子化」(アナログ→デジタルの変換=A/D変換)を組み合わせたもので、この離散信号を受け取る頻度を「サンプリング周波数」と言い、量子化したサンプリングデータに割り当てるデータの精度は「ビット数」で表すことができます。

ハイレゾ

連続した曲線である波形を、一定の間隔で切って、その瞬間の数値として表すのがPCM(パルス符号変換)で、1秒間の間に何回値を取るかを示すのが「サンプリング周波数」で、44.1kHzは1秒間に44100回、22.05kHzは22050回値を取るため、まったく同じ音でもデータは半分になり、サンプリング周波数が高いほど、PCMにおいて元の曲線の再現度が高くなることになります。

つまり、標本化と量子化の精度を高めていけば原音に近くなっていき、それだけデータも大きくなっていくことになり、仕組み上、量子化の際には必ず若干の欠損(量子化誤差)やノイズが生まれてしまうことになります。

つまりコンピュータに取り込んだ原音の再現度は、サンプリング周波数と量子化ビット数に依存しているわけで、音楽CDはリニア(非圧縮)PCM形式のデジタルデータとして音を記録しており、その精度は44.1kHz/16bitであり、「1秒間に44100回のサンプリング周波数で標本化し、量子化ビット数は16ビット(=65536段階)」ということであり、現在、デジタル音源はこれを基準にしています。

また、デジタル音楽として流通しているMP3やAACといった非可逆圧縮音源では、サンプリング周波数や量子化ビットは元のデータのものが使われ、元のデータに対して圧縮をかけてビットレート(=1秒あたりのデータサイズ)を下げていくことになり、CD音源の場合、44.1kHz・16bitなので、「44.1×16=705.6kbps」が非圧縮のビットレートになり、ステレオではその2倍になります。

つまり、64kbpsのMP3なら、705.6/64=11.025分の1に圧縮されたということになります。

ここで、非可逆圧縮とはことについて、これはデータを圧縮し元に戻したときに元のデータに戻せない方式のことで、いろいろなやり方があるのですが、音声ファイルの場合は人間が聴こえない(聴きにくい)周波数帯をカットしデータサイズを小さくするというのが一般的となっています。

ハイレゾ音源の定義

電子情報技術産業協会の定義では「16bit/48kHzよりも高い解像度のリニアPCMデータ」で、日本オーディオ協会は「24bit/96kHz以上のリニアPCMデータやDSDフォーマットデータ」となっていて、差はあるのですが、いずれにしても基本的には「CDより高音質」という基準になっているのですが、元の音源が音楽CDであれば44.1kHz/16bitと音質は同じであり、本気で「ハイレゾ」なデータを扱うのであれば、CDにする前のマスター音源の時点で、より高い水準でのサンプリングが行われている必要があります。

つまり、CDからハイレゾ音源は作れないわけです。

現在流通しているハイレゾ配信のデータは、そのほとんどがマスター音源からサンプリングし直されたものとなっているので、CDやMP3/AACでは聴こえなくなっている響きや空気感を楽しめるようんあっており、この「空気感」につながるデータ量の差が、ハイレゾ音源の「高音質」さであり、醍醐味と言えます。

ハイレゾ
Tagged on: