KWave - Příručka: 3. Základy o digitálním zvuku

3. Základy o digitálním zvuku

Tato kapitola by měla podat krátký úvod do základů digitálního zpracování zvuku, aniž by zacházela do přílišných podrobností. Samozřejmě může být trochu neúplná, ale jestliže máte otázky, můžete je vznést na Kwave seznamu s adresami nebo se poradit s nějakou další literaturou.

Svět analogu

Nejprve si uvědomme, že svět je postaven na analogu - ale počítače pracují digitálně. A taj je několik způsobů, jak převést analogový zvuk na digitální a zase zpátky. Jelikož cesta z digitálu na analog je obvykle obrácením způsobu, jakým se převádí analogový zvuk na digitální, popíšeme si pouze způsob převodu z analogu na digitál.
Převod ze zvuku na bity
Převod ze zvuku na bity
Před pokračováním se musí analogový zvuk přeměnit na elektronické signály, aby se tak mohl dostat do počítače. Jedním z obvyklých způsobů, jak se to provádí, je použití mikrofonu a zesilovače. Jejich propojením se získá zvuk (změny tlaku vzduchu) na vstupu a napětí na výstupu. Větší rozkmit změn tlaku bude představován větším napětím na výstupu zesilovače. Tento výstup je taktéž nazýván 'signál'. Místo mikrofonu si můžete samozřejmě představit i jiné zdroje zvuku. A "zesilovač" může být začleněn ve vaší zvukové kartě, kde jej normálně nemůžete vidět.
Přeměna na elektronický signál
Přeměna na elektronický signál
Na tomto stupni má elektronický signál tři omezení, jež je třeba mít na mysli:
  1. Rozkmit (hlasitost) je omezen na určitou nejvyšší možnou úroveň, což je následek používání elektronických zesilovačů, jež jsou schopny zvládnout napětí v rámci určitého stanoveného rozsahu. Není to žádný problémem, pokud není zvuk příliš hlasitý. V tom případě by byl signál zastřižený, což znamená, že elektrický signál poběží proti svým okrajům a výsledek tak bude narušený.
  2. Kmitočtový rozsah je také omezený. Kvůli mechanickým omezením mikrofonů a omezenému kmitočtovému rozsahu zesilovačů je kmitočtový rozsah signálu omezený. Nejsou pevné hranice, za nimiž zvuk znenadání zmizí, ale pod některými nízkými a nad některými vyššími kmitočty se rozkmit signálu začíná více a více snižovat. Bytí nejveššího možného kmitočtu lze snadno chápat jako omezenou rychlost elektrického signálu při stoupání a klesání. Používáním vysoce kvalitních zesilovačů a mikrofonů mohou být tato omezení rozšířena až po rozsah, kdy lidské ucho již dále není schopno uslyšet jejich výsledky a tím se o ně přestává zajímat. Lidské ucho obyčejně není schopné zaslechnout zvuk s kmitočtem nad 20 kHz.
  3. Signál obsahuje šum. Šum je nejošklivějším nepřítelem každému, kdo musí jakkoli zpracovávat audio signál. Šum je typickým účinkem anologu, který vede k tomu, že audio signál je "neostrý" a nevyrovnaný. Je vždy přítomen a nelze se mu vyhnout. Člověk může akorát tak používat vysoce kvalitní součástky, které vytvářejí šum nízký natolik, až jak je to vůbec možné, takže jej již nelze slyšet. Obyčejně má šum určitou hlasitost, takže poutavý zvuk by měl být mnohem hlasitější ve srovnání se šumem. Říká se tomu poměr signálu a šumu (SNR; signal to noise ratio). Čím je poměr vyšší, tím lepší je kvalita zvuku. Zvuky, u nichž je jejich hlasitost nižší než hlasitost šumu, nelze slyšet.

Digitalizace

Když chceme ukládat a přehrávat zvuk v počítači, musíme nejprve převést analogový zvuk na digitální data. Tomuto procesu převodu se říká digitalizace. Dochází při něm k převodu elektronického signálu na sled číslicových hodnot (digitálních).
Digitalizace elektronického signálu
Digitalizace elektronického signálu
Převod lze chápat jako v určitém čase se opakující měření hodnoty elektronického signálu, čímž se získává vzorek signálu. Výsledek se pak zakóduje jako číslicová hodnota.
Vzorkování lze provádět v libovolných vzdálenostech nebo ve stálých rozmezích (intervalech). Posledně jmenovaný způsob se dá provést mnohem snadněji, a proto se obvykle používá, se stálým kmitočtem (rychlostí) - tzv. vzorkovací kmitočet (rychlost). Obyvyklými vzorkovacími kmitočty (rychlostmi) jsou 8000, 11025, 22050, a 44100 vzorků za sekundu. V provozu se vzorkovací kmitočty udávají jako kmitočty (frekvence) v Hz nebo kHz.
Vzorkovací kmitočet omezuje nejvyšší kmitočet, který může představovat signál převedený do číslicové podoby (zdigitalizovaný). Podle Shannonovy poučky je nejvyšší použitelný kmitočet polovinou vzorkovacího kmitočtu, takže se vzorkovacím kmitočtem 44.1 kHz nemůžete vzorkovat signály s více než 22 kHz. Aby se předešlo porušení pravidla o polovině vzorkovacího kmitočtu má již vaše zvuková karta zabudovány filtry, které odfiltrují kmitočty, které jsou vyšší než polovina používaného vzorkovacího kmitočtu.
Vzorkovaný signál
Vzorkovaný signál

Kódování vzorku

Výsledkem číslicového vzorkovacího procesu je sled jednoduchých vzorků. Jeden vzorek je číslicovým zachycením hodnoty signálu v určitý čas.
Hodnota vzorku může být vykládána a zakódována několika způsoby. Nejjednodušším je přímočaré zakódování. Znamená to, že každá hodnota vzorku přímo vyjadřuje hodnotu analogového signálu násobenou stálým násobkem. Dobře se s tím dá zacházet, ale nevýhodou je, že šum je slyšitelný obzvláště při nízkých rozkmitech, kde ruší nejvíce, a méně slyšitelný u vysokých rozkmitů, kde je to méně slyšet.
Jedním ze způsobů, jak omezit vliv šumu je nepřímočaré zakódování. Znamená to, že nižší rozkmity jsou zesíleny před zpracováním. Když jsou nižší rozkmity zesíleny, jejich vzdálenost od šumu se zvětší a kvalita zlepší. Nejběžnějšími metodami pro provedení tohoto způsobu jsou zakódování podle pravidla A a pravidla U - standardizované křivky logaritmického zesílení používané při digitálním telefonování (ITU G.711 standard).
Nepřímočaré zakódování
Nepřímočaré zakódování

Vzorkovací formáty

Vzorky se dají ukládat do různých formátů a s různou přesností. Nejběžnější jsou formáty celočíselné (s pevnou desetinnou čárkou), které ukládají hodnoty s pevným kvantováním. V závislosti na tom, kde je určena nulová čára, musí se rozlišovat mezi celočíselnými formáty jsoucí bez znaménka (pouze kladné hodnoty), "nulová čára" je v polovině číselného rozsahu), a se znaménkem (kladné a záporné hodnoty)
Formát se znaménkem
Formát se znaménkem
Formát bez znaménka
Formát bez znaménka
Protože kvantování ztrácí určitou přesnost, vytváří šum, tzv. šum z kvantování. Tento druh šumu má větší účinek na nízké rozkmity, proto tento způsob ukládání vzorků není nejlepší, ale je docela snadný a velmi rychlý na zvládnutí (počítače jsou rychlé při výpočtech s čísly s pevnou desetinnou čárkou).
Druhým způsobem je zakódování vzorků s čísly v pohyblivé desetinné čárce. S čísly v pohyblivé desetinné čárce je šum rozprostřen téměř rovnoměrně po všech rozsazích rozkmitů a výhodně obzvláště u nízkých rozkmitů. Avšak tento formát je mnohem pomalejší, je-li použit při zpracovávání (počítače jsou mnohem pomalejší při výpočtech s hodnotami s pohyblivou desetinnou čárkou, srovnáme-li je s výpočty s čísly s pevnou desetinnou čárkou).

Note

Kwave vnitřně používá formát celého čísla se znaménkem s přesností 24 bitů ukládaný v 32 bitových celých číslech. Nevýhodou je větší spotřeba paměti při zpracování souborů s nižší přesností (např. 8 bitových), ale zpracování 32 bitových čísel je velmi rychlé a také ponechává určité zálohy pro vnitřní výpočty, protože obyčejně se používá pouze 24 bitů.