Obrnuto masteriranje: je li moguće povećati dinamički raspon komprimiranih snimaka? Dinamička kompresija Dinamički raspon komprimiran ili standardan

Ova skupina metoda temelji se na činjenici da odaslani signali podliježu nelinearnim transformacijama amplitude, au odašiljačkom i prijamnom dijelu nelinearnosti su recipročne. Na primjer, ako se nelinearna funkcija Öu koristi u odašiljaču, u 2 se koristi u prijamniku. Dosljedna primjena recipročnih funkcija osigurat će da ukupna transformacija ostane linearna.

Ideja nelinearnih metoda kompresije podataka je da odašiljač može uz istu amplitudu izlaznih signala prenijeti veći raspon promjena u odaslanom parametru (odnosno veći dinamički raspon). Dinamički raspon- ovo je omjer najveće dopuštene amplitude signala prema najmanjoj, izražen u relativnim jedinicama ili decibelima:

;	(2.17)
.	(2.18)

Prirodna želja za povećanjem dinamičkog raspona smanjenjem U min ograničena je osjetljivošću opreme i sve većim utjecajem interferencije i vlastitog šuma.

Najčešće se kompresija dinamičkog raspona provodi pomoću para recipročnih funkcija logaritma i potenciranja. Prva operacija promjene amplitude zove se kompresija(kompresijom), drugi - proširenje(istezanje). Odabir ovih posebnih funkcija povezan je s njihovim najvećim mogućnostima kompresije.

U isto vrijeme, ove metode imaju i nedostatke. Prva od njih je da je logaritam malog broja negativan i u granici:

odnosno osjetljivost je vrlo nelinearna.

Kako bi se smanjili ti nedostaci, obje su funkcije modificirane pomakom i aproksimacijom. Na primjer, za telefonske kanale aproksimirana funkcija ima oblik (tip A):

s A=87,6. Dobitak od kompresije je 24 dB.

Kompresija podataka nelinearnim postupcima provodi se analognim putem s velikim pogreškama. Korištenje digitalnih alata može značajno poboljšati točnost ili brzinu pretvorbe. Istovremeno, izravno korištenje sredstava računalna tehnologija(to jest, izravno izračunavanje logaritama i eksponenata) neće dati najbolje rezultate zbog niske izvedbe i gomilanja računskih pogrešaka.

Zbog ograničenja točnosti, kompresija podataka pomoću kompresije koristi se u nekritičnim slučajevima, na primjer, za prijenos govora preko telefonskih i radijskih kanala.

Učinkovito kodiranje

Učinkovite kodove predložili su K. Shannon, Fano i Huffman. Bit kodova je da su neparni, odnosno s nejednakim brojem bitova, a duljina koda je obrnuto proporcionalna vjerojatnosti njegovog pojavljivanja. Još jedna velika značajka učinkovitih kodova je da ne zahtijevaju graničnike, tj. posebni znakovi, odvajajući susjedne kombinacije kodova. To se postiže slijedeći jednostavno pravilo: kraći kodovi nisu početak dužih. U ovom slučaju, kontinuirani tok bitova je jedinstveno dekodiran jer dekoder prvo otkriva kraće kodne riječi. Učinkoviti kodeksi dugo su bili čisto akademski, ali U zadnje vrijeme uspješno se koriste u stvaranju baza podataka, kao iu sažimanju informacija u modernim modemima i softverskim arhivatorima.

Zbog neravnomjernosti uvodi se prosječna duljina koda. Prosječna duljina - matematičko očekivanje duljine koda:

štoviše, l av teži H(x) odozgo (to jest, l av > H(x)).

Ispunjenje uvjeta (2.23) postaje jače kako N raste.

Postoje dvije vrste učinkovitih kodova: Shannon-Fano i Huffman. Pogledajmo kako ih dobiti pomoću primjera. Pretpostavimo da vjerojatnosti simbola u nizu imaju vrijednosti dane u tablici 2.1.

Tablica 2.1.

Vjerojatnosti simbola

N
p i	0.1	0.2	0.1	0.3	0.05	0.15	0.03	0.02	0.05

Simboli su rangirani, odnosno prikazani u nizu silaznim redoslijedom vjerojatnosti. Nakon toga se metodom Shannon-Fano periodički ponavlja sljedeći postupak: cijela grupa događaja dijeli se u dvije podskupine s istim (ili približno istim) ukupnim vjerojatnostima. Postupak se nastavlja sve dok u sljedećoj podskupini ne ostane jedan element, nakon čega se taj element eliminira, a navedene radnje nastavljaju s preostalima. To se događa sve dok u posljednje dvije podskupine ne ostane samo jedan element. Nastavimo s našim primjerom, koji je sažet u tablici 2.2.

Tablica 2.2.

Shannon-Fano kodiranje

N	P i
4	0.3		ja
	0.2	ja	II
6	0.15		ja	ja
	0.1			II
1	0.1			ja	ja
9	0.05	II			II
5	0.05		II		ja
7	0.03			II	II	ja
8	0.02					II

Kao što je vidljivo iz tablice 2.2, prvi simbol s vjerojatnošću p 4 = 0,3 sudjelovao je u dva postupka podjele na skupine i oba puta završio u skupini broj I. U skladu s tim, kodiran je dvoznamenkastim kodom II. Drugi element u prvoj fazi podjele pripadao je skupini I, u drugoj - skupini II. Stoga je njegov kod 10. Kodovi preostalih simbola ne trebaju dodatne komentare.

Tipično, neuniformni kodovi su prikazani kao kodna stabla. Stablo koda je grafikon koji pokazuje dopuštene kombinacije kodova. Smjerovi rubova ovog grafa su unaprijed postavljeni, kao što je prikazano na slici 2.11 (izbor smjerova je proizvoljan).

Oni se kreću grafom na sljedeći način: kreiraju rutu za odabrani simbol; broj bitova za njega jednak je broju rubova u ruti, a vrijednost svakog bita jednaka je smjeru odgovarajućeg ruba. Ruta se crta od početne točke (na crtežu je označena slovom A). Na primjer, ruta do vrha 5 sastoji se od pet rubova, od kojih svi osim posljednjeg imaju smjer 0; dobivamo kod 00001.

Izračunajmo entropiju i prosječnu duljinu riječi za ovaj primjer.

H(x) = -(0,3 log 0,3 + 0,2 log 0,2 + 2 0,1 log 0,1+ 2 0,05 log 0,05+

0,03 log 0,03 + 0,02 log 0,02) = 2,23 bita

l prosj. = 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 +0,05 4+

0.03 6 + 0.02 6 = 2.9 .

Kao što vidite, prosječna duljina riječi je blizu entropije.

Huffmanovi kodovi konstruirani su pomoću drugačijeg algoritma. Postupak kodiranja sastoji se od dvije faze. U prvoj fazi, pojedinačne kompresije abecede provode se uzastopno. Jednokratna kompresija - zamjena posljednja dva simbola (s najmanjom vjerojatnošću) s jednim, s ukupnom vjerojatnošću. Kompresije se provode sve dok ne ostanu dva znaka. Istodobno se popunjava tablica kodiranja u koju se unose dobivene vjerojatnosti i prikazuju rute po kojima se kreću novi simboli u sljedećoj fazi.

U drugoj fazi dolazi do stvarnog kodiranja, koje počinje od posljednje faze: prvom od dva simbola dodjeljuje se kod 1, drugom - 0. Nakon toga prelaze na prethodnu fazu. Simbolima koji u ovoj fazi nisu sudjelovali u kompresiji dodjeljuju se šifre iz sljedeće faze, a šifra simbola dobivena lijepljenjem se dva puta dodjeljuje posljednja dva simbola i dodaje kodu vrhunski lik 1, donji - 0. Ako simbol nije dalje uključen u lijepljenje, njegov kod ostaje nepromijenjen. Postupak se nastavlja do kraja (odnosno do prve faze).

Tablica 2.3 prikazuje Huffmanovo kodiranje. Kao što se može vidjeti iz tablice, kodiranje je provedeno u 7 faza. S lijeve strane su vjerojatnosti simbola, s desne međukodovi. Strelice pokazuju kretanje novonastalih simbola. U svakoj fazi posljednja dva simbola razlikuju se samo u najmanje značajnom bitu, što odgovara tehnici kodiranja. Izračunajmo prosječnu duljinu riječi:

l prosj. = 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + +0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 = 2,7

Ovo je još bliže entropiji: kod je još učinkovitiji. Na sl. Slika 2.12 prikazuje Huffmanovo kodno stablo.

Tablica 2.3.

Huffmanovo kodiranje

N	p i	kodirati	ja	II	III	IV	V	VI	VII
	0.3		0.3 11	0.3 11	0.3 11	0.3 11	0.3 11	0.4 0	0.6 1
	0.2		0.2 01	0.2 01	0.2 01	0.2 01	0.3 10	0.3 11	0.4 0
	0.15		0.15 101	0.15 101	0.15 101	0.2 00	0.2 01	0.3 10
	0.1		0.1 001	0.1 001	0.15 100	0.15 101	0.2 00
	0.1		0.1 000	0.1 000	0.1 001	0.15 100
	0.05		0.05 1000	0.1 1001	0.1 000
	0.05		0.05 10011	0.05 1000
	0.03		0.05 10010
	0.02

Oba koda zadovoljavaju zahtjev jednoznačnog dekodiranja: kao što se može vidjeti iz tablica, kraće kombinacije nisu početak dužih kodova.

Kako se broj znakova povećava, učinkovitost kodova raste, pa se u nekim slučajevima kodiraju i veći blokovi (npr. ako je riječ o tekstovima, mogu se kodirati neki od najčešćih slogova, riječi, pa čak i fraza).

Učinak uvođenja takvih kodova određuje se usporedbom s jedinstvenim kodom:

(2.24)

gdje je n broj bitova uniformnog koda koji se zamjenjuje efektivnim.

Modifikacije Huffmanovih kodova

Klasični Huffmanov algoritam je algoritam s dva prolaza, tj. zahtijeva prvo prikupljanje statistike o simbolima i porukama, a zatim gore opisane postupke. To je u praksi nezgodno jer povećava vrijeme potrebno za obradu poruka i prikupljanje rječnika. Češće se koriste metode s jednim prolazom, u kojima se kombiniraju postupci akumulacije i kodiranja. Takve metode se također nazivaju adaptivna kompresija prema Huffmanu [46].

Bit adaptivne kompresije prema Huffmanu svodi se na konstrukciju početnog kodnog stabla i njegovu sekvencijalnu modifikaciju nakon dolaska svakog sljedećeg simbola. Kao i prije, stabla su ovdje binarna, tj. Iz svakog vrha grafa stabla izlaze najviše dva luka. Uobičajeno je da se izvorni vrh zove roditelj, a dva slijedeća vrha povezana s njim kao djeca. Uvedimo pojam težine vrha - ovo je broj znakova (riječi) koji odgovaraju danom verteksu, dobivenih ubacivanjem izvornog niza. Očito je da je zbroj težine djece jednak težini roditelja.

Nakon uvođenja sljedećeg simbola ulazne sekvence, stablo koda se revidira: težine vrhova se ponovno izračunavaju i, ako je potrebno, vrhovi se preuređuju. Pravilo za permutiranje vrhova je sljedeće: težine nižih vrhova su najmanje, a vrhovi koji se nalaze lijevo od grafa imaju najmanje težine.

Istodobno, vrhovi su numerirani. Numeriranje počinje od donjih (visećih, tj. bez djece) vrhova s lijeva na desno, zatim se pomiče do vrhunska razina itd. prije numeriranja zadnjeg, originalnog vrha. U ovom slučaju postiže se sljedeći rezultat: što je manja težina vrha, manji je njegov broj.

Permutacija se provodi uglavnom za viseće vrhove. Prilikom permutiranja mora se uzeti u obzir gore formulirano pravilo: vrhovi s većom težinom imaju veći broj.

Nakon prolaska niza (također se naziva kontrola ili test), svim visećim vrhovima se dodjeljuju kodne kombinacije. Pravilo za dodjelu kodova je slično gornjem: broj bitova koda jednak je broju vrhova kroz koje ruta prolazi od izvora do zadanog visećeg vrha, a vrijednost pojedinog bita odgovara smjeru od roditelja do "dijeteta" (recimo, ide lijevo od roditelja odgovara vrijednosti 1, desno - 0).

Rezultirajuće kombinacije kodova pohranjuju se u memoriju uređaja za kompresiju zajedno sa svojim analozima i tvore rječnik. Upotreba algoritma je sljedeća. Komprimirani niz znakova dijeli se na fragmente u skladu s postojećim rječnikom, nakon čega se svaki od fragmenata zamjenjuje svojim kodom iz rječnika. Fragmenti koji se ne nalaze u rječniku formiraju nove viseće vrhove, dobivaju težinu i također se unose u rječnik. Na taj način se formira adaptivni algoritam za nadopunjavanje rječnika.

Da bi se povećala učinkovitost metode, poželjno je povećati veličinu rječnika; u ovom slučaju povećava se omjer kompresije. U praksi je veličina rječnika 4 - 16 KB memorije.

Ilustrirajmo navedeni algoritam primjerom. Na sl. Slika 2.13 prikazuje izvorni dijagram (također se naziva Huffmanovo stablo). Svaki vrh stabla prikazan je pravokutnikom u koji su kroz razlomak upisana dva broja: prvi označava broj vrha, drugi njegovu težinu. Kao što vidite, podudarnost između težina vrhova i njihovih brojeva je zadovoljena.

Pretpostavimo sada da se simbol koji odgovara vrhu 1 pojavljuje drugi put u nizu testova. Težina vrha se promijenila kao što je prikazano na sl. 2.14, zbog čega se krši pravilo numeriranja vrhova. U sljedećoj fazi mijenjamo mjesto visećih vrhova, za koje mijenjamo vrhove 1 i 4 i ponovno numeriramo sve vrhove stabla. Rezultirajući grafikon prikazan je na sl. 2.15. Zatim se postupak nastavlja na isti način.

Treba imati na umu da svaki viseći vrh u Huffmanovu stablu odgovara određenom simbolu ili skupini simbola. Roditelj se razlikuje od djece po tome što je skupina simbola koja mu odgovara jedan simbol kraća od skupine njegovih potomaka, a ta se djeca razlikuju po posljednjem simbolu. Na primjer, simboli "auto" odgovaraju roditelju; tada djeca mogu imati nizove "kara" i "karp".

Navedeni algoritam nije akademski i aktivno se koristi u programima za arhiviranje, uključujući i komprimiranje grafičkih podataka (o njima će se raspravljati u nastavku).

Lempel–Ziv algoritmi

Ovo su danas najčešće korišteni algoritmi kompresije. Koriste se u većini programa za arhiviranje (npr. PKZIP. ARJ, LHA). Suština algoritama je da se određeni skup simbola tijekom arhiviranja zamjenjuje svojim brojem u posebno generiranom rječniku. Na primjer, izraz "Odlazni broj za vaše pismo...", koji se često nalazi u poslovnoj korespondenciji, može zauzeti mjesto 121 u rječniku; tada, umjesto prijenosa ili pohranjivanja spomenute fraze (30 bajtova), možete pohraniti broj fraze (1,5 bajta u binarnom decimalnom obliku ili 1 bajt u binarnom obliku).

Algoritmi su nazvani po autorima koji su ih prvi predložili 1977. godine. Od njih, prvi je LZ77. Za arhiviranje se kreira tzv. klizni prozor poruka koji se sastoji od dva dijela. Prvi dio, većeg formata, služi za formiranje rječnika i veličine je oko nekoliko kilobajta. Drugi, manji dio (obično veličine do 100 bajtova) prihvaća trenutne znakove teksta koji se gleda. Algoritam pokušava pronaći skup znakova u rječniku koji odgovara onima primljenim u prozoru za pregled. Ako je ovo uspješno, generira se kod koji se sastoji od tri dijela: pomak u rječniku u odnosu na početni podniz, duljina ovog podniza i znak koji slijedi nakon ovog podniza. Na primjer, odabrani podniz sastoji se od znakova "app" (ukupno 6 znakova), sljedeći znak je "e". Zatim, ako podniz ima adresu (mjesto u rječniku) 45, tada unos u rječniku izgleda kao “45, 6. e”. Nakon toga, sadržaj prozora se pomiče po poziciji i pretraga se nastavlja. Tako nastaje rječnik.

Prednost algoritma je lako formalizirani algoritam za sastavljanje rječnika. Osim toga, moguće je raspakirati bez izvornog rječnika (preporučljivo je imati testni niz) - rječnik se formira tijekom raspakiranja.

Nedostaci algoritma pojavljuju se s povećanjem veličine rječnika - povećava se vrijeme pretraživanja. Osim toga, ako se u trenutnom prozoru pojavi niz znakova koji nije u rječniku, svaki znak je napisan kodom od tri elementa, tj. Rezultat nije kompresija, već istezanje.

Najbolje karakteristike ima LZSS algoritam, predložen 1978. godine. Ima razlike u potpori kliznog prozora i izlaznim kodovima kompresora. Osim prozora, algoritam generira binarno stablo slično Huffmanovom stablu kako bi se ubrzalo traženje podudaranja: svaki podniz koji izlazi iz trenutnog prozora dodaje se stablu kao jedan od potomaka. Ovaj algoritam omogućuje dodatno povećanje veličine trenutnog prozora (poželjno je da je njegova veličina jednaka potenciji dva: 128, 256 itd. bajtova). Sekvencijski kodovi također se formiraju drugačije: uveden je dodatni 1-bitni prefiks za razlikovanje nekodiranih znakova od parova "pomak, duljina".

Još veći stupanj kompresije postiže se korištenjem algoritama poput LZW. Prethodno opisani algoritmi imaju fiksnu veličinu prozora, što onemogućuje unos izraza dužih od veličine prozora u rječnik. U algoritmima LZW (i njihovom prethodniku LZ78), prozor za pregled ima neograničenu veličinu, a rječnik akumulira fraze (a ne zbirku znakova, kao prije). Rječnik ima neograničenu duljinu, a koder (dekoder) radi u načinu čekanja izraza. Kada se formira fraza koja odgovara rječniku, izdaje se šifra podudaranja (tj. šifra te fraze u rječniku) i šifra znaka koji slijedi. Ako se, dok se simboli gomilaju, formira nova fraza, ona se također unosi u rječnik, poput one kraće. Rezultat je rekurzivna procedura koja omogućuje brzo kodiranje i dekodiranje.

Dodatna prilika kompresija omogućuje komprimirano kodiranje ponovljenih znakova. Ako u nizu neki znakovi slijede u nizu (na primjer, u tekstu to mogu biti znakovi "razmak", u nizu brojeva - uzastopne nule itd.), tada ih ima smisla zamijeniti parom "znak; duljina" ili "znak, duljina". U prvom slučaju kod označava predznak kojim će niz biti kodiran (obično 1 bit), zatim kod znaka koji se ponavlja i duljinu niza. U drugom slučaju (za znakove koji se najčešće pojavljuju), prefiks jednostavno označava znak ponavljanja.

, Media playeri

Ploče, posebno one starije koje su snimljene i proizvedene prije 1982., bile su puno manje vjerojatno da će se miksati kako bi snimka bila glasnija. Oni reproduciraju prirodnu glazbu s prirodnim dinamičkim rasponom koji je sačuvan na snimci i izgubljen u većini standardnih digitalnih formata ili formata visoke razlučivosti.

Postoje iznimke od ovoga, naravno - poslušajte nedavni album Stevena Wilsona iz MA Recordings ili Reference Recordings i čut ćete koliko dobar digitalni zvuk može biti. Ali to je rijetko; većina modernih zvučnih zapisa je glasna i komprimirana.

Glazbena kompresija je u zadnje vrijeme na meti dosta kritika, ali spreman sam se kladiti da su gotovo sve vaše omiljene snimke komprimirane. Neki od njih su manje, neki više, ali ipak komprimirani. Kompresija dinamičkog raspona je žrtveni jarac za glazbu koja loše zvuči, ali visoko komprimirana glazba nije ništa novo: poslušajte albume Motowna iz 60-ih. Isto se može reći i za klasične radove Led Zeppelina ili mlađe albume Wilca i Radioheada. Kompresija dinamičkog raspona smanjuje prirodni odnos između najglasnijeg i najtišeg zvuka u snimci, tako da šapat može biti jednako glasan kao i vrisak. Prilično je teško pronaći pop glazbu iz posljednjih 50 godina koja nije komprimirana.

Nedavno sam lijepo popričao s osnivačem i urednikom časopisa Tape Op Larryjem Craneom o dobrim, lošim i ružnim aspektima kompresije. Larry Crane je radio s bendovima i umjetnicima kao što su Stefan Marcus, Cat Power, Sleater-Kinney, Jenny Lewis, M. Ward, The Go-Betweens, Jason Little, Eliot Smith, Quasi i Richmond Fontaine. Također vodi studio za snimanje Jackpot! u Portlandu, Oregon, gdje su nastupili The Breeders, The Decemberists, Eddie Vedder, Pavement, R.E.M., She & Him i mnogi, mnogi drugi.

Kao primjer iznenađujuće neprirodnog zvuka, ali ipak odličnih pjesama, navodim Spoonov album They Want My Soul iz 2014. godine. Crane se smije i kaže da to sluša u autu jer tamo zvuči super. Što nas dovodi do još jednog odgovora na pitanje zašto je glazba komprimirana: jer kompresija i dodatna "čistoća" olakšavaju slušanje na bučnim mjestima.

Larry Crane na poslu. Fotografirao Jason Quigley

Kad ljudi kažu da im se sviđa zvuk audio snimke, mislim da im se sviđa glazba, kao da su zvuk i glazba neodvojivi pojmovi. Ali za sebe razlikujem te pojmove. Iz perspektive audiofila, zvuk može biti grub i sirov, ali većini slušatelja to neće biti važno.

Mnogi brzo optužuju mastering inženjere za pretjeranu upotrebu kompresije, ali kompresija se primjenjuje izravno tijekom snimanja, tijekom miksanja, a tek onda tijekom masteringa. Osim ako niste bili osobno prisutni u svakoj od ovih faza, nećete moći reći kako su instrumenti i vokalne dionice zvučali na samom početku procesa.

Crane je bio u igri: "Ako glazbenik namjerno želi zvučati ludo i iskrivljeno poput ploča Guided by Voices, onda u tome nema ništa loše - želja uvijek nadjačava kvalitetu zvuka." Glas izvođača je gotovo uvijek komprimiran, a isto se događa s basom, bubnjevima, gitarama i sintesajzerima. Uz kompresiju, glasnoća vokala ostaje na željenoj razini tijekom cijele pjesme ili je malo podignuta u odnosu na pozadinu drugih zvukova.

Ispravno izvedena kompresija može učiniti da bubnjevi zvuče živahnije ili namjerno čudnije. Kako bi glazba zvučala izvrsno, morate biti u mogućnosti koristiti potrebne alate. Zbog toga su potrebne godine da se shvati kako koristiti kompresiju bez pretjerivanja. Ako inženjer miksa previše komprimira dionicu gitare, inženjer masteringa više neće moći u potpunosti obnoviti frekvencije koje nedostaju.

Kad bi glazbenici htjeli da slušate glazbu koja nije prošla kroz faze miksanja i masteringa, pustili bi je na police trgovina ravno iz studija. Crane kaže da ljudi koji stvaraju, uređuju, miksaju i masteriraju snimljenu glazbu nisu tu da stanu na put glazbenicima – oni pomažu umjetnicima od samog početka, više od sto godina.

Ti su ljudi dio kreativnog procesa koji rezultira nevjerojatnim umjetničkim djelima. Crane dodaje: "Ne želite verziju 'Dark Side of the Moon' koja nije miksana i masterirana." Pink Floyd je pustio pjesmu kakvu su željeli čuti.

Razina zvuka je ista kroz cijelu kompoziciju, ima nekoliko pauza.

Sužavanje dinamičkog raspona

Sužavanje dinamičkog raspona ili jednostavnije rečeno kompresija, neophodan je u razne svrhe, od kojih su najčešći:

1) Postizanje ujednačene razine glasnoće kroz cijelu kompoziciju (ili instrumentalni dio).

2) Postizanje ujednačene razine glasnoće za pjesme tijekom cijelog albuma/radijskog emitiranja.

2) Povećana razumljivost, uglavnom kod komprimiranja određenog dijela (vokali, bas bubanj).

Kako dolazi do sužavanja dinamičkog raspona?

Kompresor analizira razinu zvuka na ulazu uspoređujući je s korisnički određenom vrijednošću praga.

Ako je razina signala ispod vrijednosti Prag– tada kompresor nastavlja analizirati zvuk bez promjene. Ako razina zvuka prijeđe vrijednost praga, tada kompresor počinje raditi. Budući da je uloga kompresora sužavanje dinamičkog raspona, logično je pretpostaviti da on ograničava najveću i najmanju vrijednost amplitude (razinu signala). U prvoj fazi ograničene su najveće vrijednosti, koje se smanjuju određenom silom, koja se naziva omjer(Stav). Pogledajmo primjer:

Zelene krivulje prikazuju razinu zvuka; što je veća amplituda njihovih oscilacija od X osi, to je veća razina signala.

Žuta linija je prag (Threshold) za rad kompresora. Povećavanjem vrijednosti praga, korisnik je odmiče od osi X. Snižavanjem vrijednosti praga, korisnik je približava osi Y. Jasno je da što je niža vrijednost praga, kompresor će češće djeluju i obrnuto, što je veći, to rjeđe. Ako je vrijednost omjera vrlo visoka, nakon što se dosegne razina signala praga, kompresor će potisnuti sve sljedeće signale do tišine. Ako je vrijednost omjera vrlo mala, ništa se neće dogoditi. O odabiru vrijednosti praga i omjera bit će riječi kasnije. Sada bismo se trebali zapitati sljedeće: Koja je svrha potiskivanja svih naknadnih zvukova? Doista, ovo nema smisla, samo se trebamo riješiti vrijednosti amplitude (vrhova) koje prelaze vrijednost praga (označenu crvenom bojom na grafikonu). Za rješavanje ovog problema postoji parametar Otpuštanje(Attenuation), koji postavlja trajanje kompresije.

Primjer pokazuje da prvo i drugo prekoračenje praga traju kraće od trećeg prekoračenja praga. Dakle, ako je parametar Release postavljen na prva dva vrha, tada prilikom obrade trećeg može ostati neobrađeni dio (budući da prekoračenje praga Threshold traje duže). Ako je parametar Release postavljen na treći vrh, tada se pri obradi prvog i drugog vrha iza njih stvara neželjeno smanjenje razine signala.

Isto vrijedi i za parametar Ratio. Ako je parametar Omjer podešen na prva dva vrha, tada treći neće biti dovoljno potisnut. Ako je parametar Omjer konfiguriran za obradu trećeg vrha, tada će obrada prva dva vrha biti pretjerana.

Ovi se problemi mogu riješiti na dva načina:

1) Postavljanje parametra napada (Attack) - djelomično rješenje.

2) Dinamička kompresija - cjelovito rješenje.

Parametar Ai dalje (napad) namijenjen je postavljanju vremena nakon kojeg će kompresor početi s radom nakon prekoračenja praga praga. Ako je parametar blizu nule (jednak nuli u slučaju paralelne kompresije, pogledajte odgovarajući članak) - tada će kompresor odmah početi potiskivati signal i radit će onoliko vremena koliko je određeno parametrom Release. Ako je brzina napada visoka, tada će kompresor započeti s radom nakon određenog vremenskog razdoblja (ovo je potrebno radi jasnoće). U našem slučaju, možemo podesiti parametre praga (Threshold), prigušenja (Release) i razine kompresije (Ratio) kako bismo obradili prva dva vrha, te postavili Attack vrijednost blizu nule. Tada će kompresor potisnuti prva dva pika, a prilikom obrade trećeg će ga potisnuti sve dok se prag ne prijeđe (Threshold). Međutim, to ne jamči visokokvalitetnu obradu zvuka i blizu je ograničenja (grubi rez svih vrijednosti amplitude, u ovom slučaju kompresor se naziva limiter).

Pogledajmo rezultat obrade zvuka pomoću kompresora:

Vrhovi su nestali, napominjem da su postavke obrade bile prilično nježne i potisnuli smo samo najistaknutije vrijednosti amplitude. U praksi se dinamički raspon znatno više sužava i taj trend samo napreduje. U glavama mnogih skladatelja oni čine glazbu glasnijom, ali u praksi je potpuno lišavaju dinamike za one slušatelje koji je možda slušaju kod kuće, a ne na radiju.

Samo moramo uzeti u obzir posljednji parametar kompresije, ovo dobitak(Dobitak). Gain je dizajniran za povećanje amplitude cijele kompozicije i, zapravo, ekvivalentan je drugom alatu za uređivanje zvuka - normalizaciji. Pogledajmo konačni rezultat:

U našem slučaju, kompresija je bila opravdana i poboljšala je kvalitetu zvuka, budući da je istaknuti vrh vjerojatnije slučajan nego namjeran rezultat. Osim toga, jasno je da je glazba ritmična, dakle ima uzak dinamički raspon. U slučajevima kada su visoke vrijednosti amplitude namjerne, kompresija može biti pogreška.

Dinamička kompresija

Razlika između dinamičke i nedinamičke kompresije je u tome što kod prve razina potiskivanja signala (Ratio) ovisi o razini ulaznog signala. Dinamički kompresori nalaze se u svim modernim programima; parametri omjera i praga kontroliraju se pomoću prozora (svaki parametar ima svoju os):

Ne postoji jedinstveni standard za prikaz grafikona, negdje duž Y osi prikazuje se razina dolaznog signala, negdje naprotiv, razina signala nakon kompresije. Negdje je točka (0,0) u gornjem desnom kutu, negdje u donjem lijevom. U svakom slučaju, kada pomaknete kursor miša preko ovog polja, mijenjaju se vrijednosti brojeva koji odgovaraju parametrima Omjer i Prag. Oni. Vi postavljate razinu kompresije za svaku vrijednost praga, što omogućuje vrlo fleksibilne postavke kompresije.

Bočni lanac

Kompresor bočnog lanca analizira signal jednog kanala, a kada razina zvuka prijeđe prag (prag), primjenjuje kompresiju na drugi kanal. Side chaining ima svoje prednosti rada s instrumentima koji se nalaze u istom frekvencijskom području (aktivno se koristi kombinacija bas-kick), ali ponekad se koriste i instrumenti koji se nalaze u različitim frekvencijskim područjima, što dovodi do zanimljivog side-chain efekta.

Drugi dio – Faze kompresije

Postoje tri stupnja kompresije:

1) Prva faza je kompresija pojedinačnih zvukova (singleshoots).

Zvuk bilo kojeg instrumenta ima sljedeće karakteristike: Attack, Hold, Decay, Delay, Sustain, Release.

Faza kompresije pojedinih zvukova podijeljena je u dva dijela:

1.1) Sažimanje pojedinih zvukova ritmičkih instrumenata

Često komponente ritma zahtijevaju zasebnu kompresiju kako bi im se dala jasnoća. Mnogi ljudi obrađuju bas bubanj odvojeno od ostalih ritmičkih instrumenata, kako u fazi kompresije pojedinih zvukova tako iu fazi kompresije pojedinih dijelova. To je zbog činjenice da se nalazi u niskofrekventnom području, gdje je osim njega obično prisutan samo bas. Čistoća bas bubnja znači prisutnost karakterističnog klika (bas bubanj ima vrlo kratko vrijeme napada i zadržavanja). Ako nema klika, trebate ga obraditi kompresorom, postavljajući prag na nulu i vrijeme napada od 10 do 50 ms. Opuštanje (Realese) kompresora mora završiti prije sljedećeg udarca bubnja. Posljednji problem može se riješiti pomoću formule: 60 000 / BPM, gdje je BPM tempo skladbe. Tako npr.) 60 000/137=437,96 (vrijeme u milisekundama do novog niza 4-dimenzionalne kompozicije).

Sve navedeno vrijedi i za druge ritmičke instrumente s kratkim vremenom napada - oni bi trebali imati naglašeni klik koji kompresor ne bi trebao potisnuti ni u jednoj fazi kompresijskog stupnja.

1.2) Kompresijapojedinačne zvukoveharmonijski instrumenti

Za razliku od ritmičkih instrumenata, dijelovi harmonijskih instrumenata rijetko su sastavljeni od pojedinačnih zvukova. Međutim, to ne znači da ih ne treba obrađivati na razini kompresije zvuka. Ako koristite uzorak sa snimljenim dijelom, tada je to druga razina kompresije. Samo sintetizirani harmonijski instrumenti primjenjuju se na ovu razinu kompresije. To mogu biti sampleri, sintisajzeri koji koriste različite metode sinteze zvuka (fizičko modeliranje, FM, aditivno, subtraktivno itd.). Kao što ste vjerojatno već pogodili, govorimo o programiranju postavki sintesajzera. Da! Ovo je također kompresija! Gotovo svi sintesajzeri imaju programabilni parametar envelope (ADSR), što znači envelope. Pomoću omotnice postavljate vrijeme napada, opadanja, održavanja i oslobađanja. A ako mi kažeš da to nije kompresija svakog pojedinog zvuka - doživotni si mi neprijatelj!

2) Drugi stupanj – kompresija pojedinih dijelova.

Pod kompresijom pojedinačnih dijelova mislim na sužavanje dinamičkog raspona niza kombiniranih pojedinačnih zvukova. Ova faza također uključuje snimke dijelova, uključujući vokale, koji zahtijevaju obradu kompresije kako bi se dobila jasnoća i razumljivost. Kada obrađujete dijelove kompresijom, morate uzeti u obzir da se prilikom dodavanja pojedinačnih zvukova mogu pojaviti neželjeni vrhovi, kojih se trebate riješiti u ovoj fazi, jer ako se to ne učini sada, slika se može pogoršati u fazi miješanje cijelog sastava. Kod stupnja sažimanja pojedinih dijelova potrebno je voditi računa o sažimanju stupnja obrade pojedinih zvukova. Ako ste postigli jasnoću bas bubnja, tada netočna ponovna obrada u drugoj fazi može sve pokvariti. Nije potrebno kompresorom obrađivati sve dijelove, kao što nije potrebno obrađivati sve pojedinačne zvukove. Savjetujem vam da za svaki slučaj instalirate analizator amplitude kako biste utvrdili prisutnost neželjenih nuspojava kombiniranja pojedinačnih zvukova. Osim kompresije u ovoj fazi, potrebno je osigurati da su serije, ako je moguće, različite frekvencijski rasponi da bi došlo do kvantizacije. Također je korisno zapamtiti da zvuk ima takvu karakteristiku kao maskiranje (psihoakustika):

1) Tiši zvuk je maskiran glasnijim zvukom koji dolazi ispred njega.

2) Tiši zvuk na niskoj frekvenciji maskiran je glasnijim zvukom na visokoj frekvenciji.

Tako, na primjer, ako imate dio sintesajzera, onda često note počinju svirati prije nego što prethodne note završe zvučati. Ponekad je to potrebno (stvaranje harmonije, stil sviranja, polifonija), ali ponekad uopće nije - možete im odrezati kraj (Delay - Release) ako se čuje u solo modu, ali se ne čuje u modu reprodukcije svih dijelova . Isto vrijedi i za efekte, kao što je reverb - ne bi trebao trajati dok se izvor zvuka ponovno ne pokrene. Rezanjem i uklanjanjem nepotrebnog signala činite zvuk čišćim, a to se također može smatrati kompresijom - jer uklanjate nepotrebne valove.

3) Treća faza – Sažimanje kompozicije.

Kada sažimate cijelu kompoziciju, morate uzeti u obzir činjenicu da su svi dijelovi kombinacija mnogih pojedinačnih zvukova. Stoga, kod njihove kombinacije i naknadne kompresije, moramo paziti da konačna kompresija ne pokvari ono što smo postigli u prve dvije faze. Također morate odvojiti skladbe u kojima je važan širok ili uski raspon. kod sažimanja kompozicija sa širokim dinamičkim rasponom dovoljno je ugraditi kompresor koji će zgnječiti kratkotrajne pikove koji su nastali kao rezultat zbrajanja dijelova. Kod komprimiranja kompozicije u kojoj je bitan uzak dinamički raspon sve je puno kompliciranije. Ovdje su kompresori nedavno nazvani maksimizatorima. Maximizer je dodatak koji kombinira kompresor, limiter, grafički ekvilizator, enhyzer i druge alate za transformaciju zvuka. Istodobno, mora imati alate za analizu zvuka. Maksimiziranje, završna obrada kompresorom, uvelike je neophodna za borbu protiv grešaka učinjenih u prethodnim fazama. Greške - ne toliko u kompresiji (međutim, ako u posljednjoj fazi napravite ono što ste mogli u prvoj fazi, to je već greška), već u početnom odabiru dobrih uzoraka i instrumenata koji ne bi smetali svakom ostalo (govorimo o frekvencijskim područjima) . Upravo zbog toga dolazi do korekcije frekvencijskog odziva. Često se događa da je kod jake kompresije na masteru potrebno promijeniti parametre kompresije i miksanja u ranijim fazama, jer kod jakog sužavanja dinamičkog raspona izlaze tihi zvukovi koji su prethodno bili maskirani, a zvuk pojedinih komponenti promjena sastava.

U ovim dijelovima namjerno nisam govorio o specifičnim parametrima kompresije. Smatrao sam potrebnim pisati o tome da je kod kompresije potrebno obratiti pozornost na sve zvukove i sve dijelove u svim fazama stvaranja skladbe. To je jedini način na koji ćete na kraju dobiti harmoničan rezultat ne samo sa stajališta glazbene teorije, već i sa stajališta zvučne tehnike.

Donja tablica daje praktične savjete za obradu pojedinačnih serija. Međutim, u kompresiji brojevi i unaprijed postavljene postavke mogu samo predložiti željeno područje u kojem treba pretraživati. Idealne postavke kompresije ovise o svakom pojedinačnom slučaju. Parametri Gain i Threshold pretpostavljaju normalnu razinu zvuka (logično korištenje cijelog raspona).

Treći dio - Parametri kompresije

Kratke informacije:

Prag – određuje razinu zvuka dolaznog signala, nakon čijeg dostizanja kompresor počinje raditi.

Attack – određuje vrijeme nakon kojeg će kompresor početi raditi.

Razina (omjer) – određuje stupanj smanjenja vrijednosti amplitude (u odnosu na izvornu vrijednost amplitude).

Otpuštanje – definira vrijeme nakon kojeg će kompresor prestati raditi.

Dobitak – određuje razinu povećanja dolaznog signala nakon obrade kompresorom.

Tablica kompresije:

Alat	Prag	Napad	omjer	Otpuštanje	dobitak	Opis
vokal	0 dB	1-2 ms 2-5 mS 10 ms 0,1 ms 0,1 ms	manji od 4:1 2,5: 1 4:1 – 12:1 2:1 -8:1	150 ms 50-100 mS 150 ms 150 ms 0,5 s		Kompresija tijekom snimanja trebala bi biti minimalna; zahtijeva obaveznu obradu u fazi miksanja kako bi se dobila jasnoća i razumljivost.
Puhački instrumenti		1 – 5 ms	6:1 – 15:1	0,3s
Barel		10 do 50 ms 10-100 mS	4:1 i više 10:1	50-100 ms 1 ms		Što je niži prag i veći omjer i duži napad, to je klik na početku bubnja izraženiji.
Sintisajzeri						Ovisi o vrsti vala (ADSR omotnice).
Mali bubanj:		10-40 mS 1-5 ms	5:1 5:1 – 10:1	50 mS 0,2s
Hi-Hat		20 mS	10:1	1 ms
Mikrofoni iznad glave		2-5 mS	5:1	1-50 mS
bubnjevi		5ms	5:1 – 8:1	10 ms
Bas gitara		100-200 mS 4ms do 10ms	5:1	1 ms 10 ms
Žice		0-40 mS	3:1	500 mS
Sint. bas		4ms – 10ms	4:1	10 ms		Ovisi o kuvertama.

Udaraljke		0-20 mS	10:1	50 mS
Akustična gitara, klavir		10-30 mS 5 – 10 ms	4:1 5:1 -10:1	50-100 mS 0,5 s
Elektro-nitara		2 – 5 ms	8:1	0,5 s

Konačna kompresija		0,1 ms 0,1 ms	2:1 od 2:1 do 3:1	50 ms 0,1 ms	0 dB izlaz	Vrijeme napada ovisi o svrsi - trebate li ukloniti vrhove ili učiniti stazu glatkijom.
Limiter nakon završne kompresije		0 ms	10:1	10-50 mS	0 dB izlaz	Ako vam je potreban uzak dinamički raspon i grubi "rez" valova.

Informacije su preuzete iz različitih izvora na koje se pozivaju popularni resursi na Internetu. Razlika u parametrima kompresije objašnjava se različitim preferencijama zvuka i radom s različitim materijalima.

U vrijeme kada su istraživači tek počinjali rješavati problem stvaranja govornog sučelja za računala, često su morali izrađivati vlastitu opremu koja bi omogućila unos audio informacija u računalo i njihov izlaz iz računala. Danas takvi uređaji mogu biti samo od povijesnog interesa, budući da se moderna računala mogu lako opremiti audio ulaznim i izlaznim uređajima, kao što su zvučni adapteri, mikrofoni, slušalice i zvučnici.

Nećemo ulaziti u detalje unutarnje strukture ovih uređaja, ali ćemo govoriti o tome kako rade i dati neke preporuke za odabir audio računalnih uređaja za rad sa sustavima za prepoznavanje i sintezu govora.

Kao što smo već rekli u prethodnom poglavlju, zvuk nije ništa više od vibracija zraka, čija je frekvencija u rasponu frekvencija koje ljudi percipiraju. Točne granice zvučnog frekvencijskog raspona mogu varirati od osobe do osobe, ali se vjeruje da zvučne vibracije leže u rasponu od 16-20 000 Hz.

Posao mikrofona je pretvaranje zvučnih vibracija u električne vibracije, koje se zatim mogu pojačati, filtrirati kako bi se uklonile smetnje i digitalizirati za unos. audio informacije na računalo.

Prema principu rada najčešći mikrofoni se dijele na karbonske, elektrodinamičke, kondenzatorske i elektretne. Neki od ovih mikrofona za svoj rad zahtijevaju vanjski izvor struje (na primjer, ugljik i kondenzator), drugi, pod utjecajem zvučnih vibracija, mogu samostalno generirati izmjenični električni napon (to su elektrodinamički i elektretni mikrofoni).

Također možete odvojiti mikrofone prema njihovoj namjeni. Postoje studijski mikrofoni koji se mogu držati u ruci ili montirati na stalak, postoje radio mikrofoni koji se mogu pričvrstiti na odjeću i tako dalje.

Tu su i mikrofoni dizajnirani posebno za računala. Takvi mikrofoni obično se montiraju na stalak postavljen na površinu stola. Računalni mikrofoni mogu se kombinirati sa slušalicama, kao što je prikazano na sl. 2-1.

Riža. 2-1. Slušalice sa mikrofonom

Kako možete izabrati iz mnoštva mikrofona koji su najprikladniji za sustave prepoznavanja govora?

U principu, možete eksperimentirati s bilo kojim mikrofonom koji imate, sve dok se može spojiti na audio adapter vašeg računala. Međutim, programeri sustava za prepoznavanje govora preporučuju kupnju mikrofona koji će tijekom rada biti na stalnoj udaljenosti od usta govornika.

Ako se udaljenost između mikrofona i usta ne promijeni, tada se ni prosječna razina električnog signala koji dolazi iz mikrofona neće previše promijeniti. To će imati pozitivan učinak na performanse modernih sustava za prepoznavanje govora.

U čemu je problem?

Osoba može uspješno prepoznati govor čija glasnoća varira u vrlo širokom rasponu. Ljudski mozak može filtrirati tihi govor od smetnji, poput buke automobila koji prolaze ulicom, vanjskih razgovora i glazbe.

Što se tiče modernih sustava za prepoznavanje govora, njihove sposobnosti u ovom području ostavljaju mnogo za poželjeti. Ako je mikrofon na stolu, tada kada okrenete glavu ili promijenite položaj tijela, udaljenost između vaših usta i mikrofona će se promijeniti. To će promijeniti razinu izlaza mikrofona, što će zauzvrat smanjiti pouzdanost prepoznavanja govora.

Stoga, kada radite sa sustavima za prepoznavanje govora, najbolji rezultati će se postići ako koristite mikrofon priključen na slušalice, kao što je prikazano na sl. 2-1. Kada koristite takav mikrofon, udaljenost između usta i mikrofona bit će konstantna.

Također vam skrećemo pozornost na činjenicu da je sve eksperimente sa sustavima za prepoznavanje govora najbolje provoditi u privatnosti u tihoj prostoriji. U tom će slučaju utjecaj smetnji biti minimalan. Naravno, ako trebate odabrati sustav za prepoznavanje govora koji može raditi u uvjetima jakih smetnji, tada se testovi moraju provesti drugačije. Međutim, koliko je autorima knjige poznato, otpornost sustava za prepoznavanje govora na buku još uvijek je vrlo, vrlo niska.

Mikrofon umjesto nas pretvara zvučne valove u vibracije. električna struja. Ove fluktuacije se mogu vidjeti na ekranu osciloskopa, ali nemojte žuriti u trgovinu da kupite ovaj skupi uređaj. Sve oscilografske studije možemo izvesti pomoću običnog računala opremljenog zvučnim adapterom, na primjer, Sound Blaster adapterom. Kasnije ćemo vam reći kako to učiniti.

Na sl. 2-2 prikazali smo oscilogram zvučni signal, koji nastaje izgovaranjem dugog glasa a. Ovaj valni oblik dobiven je pomoću programa GoldWave, o kojem ćemo govoriti kasnije u ovom poglavlju knjige, kao i korištenjem Sound Blaster audio adaptera i mikrofona sličnog onom prikazanom na sl. 2-1.

Riža. 2-2. Oscilogram audio signala

Program GoldWave omogućuje vam rastezanje oscilograma duž vremenske osi, što vam omogućuje da vidite najmanje detalje. Na sl. 2-3 prikazali smo razvučeni fragment gore spomenutog oscilograma zvuka a.

Riža. 2-3. Fragment oscilograma audio signala

Imajte na umu da se veličina ulaznog signala koji dolazi iz mikrofona povremeno mijenja i poprima pozitivne i negativne vrijednosti.

Ako je u ulaznom signalu prisutna samo jedna frekvencija (to jest, ako je zvuk "čist"), valni oblik primljen od mikrofona bio bi sinusni val. Međutim, kao što smo već rekli, spektar zvukova ljudskog govora sastoji se od skupa frekvencija, zbog čega je oblik oscilograma govornog signala daleko od sinusoidnog.

Nazvat ćemo signal čija se veličina kontinuirano mijenja tijekom vremena analogni signal. Upravo takav signal dolazi iz mikrofona. Za razliku od analognog, digitalni signal je skup numeričkih vrijednosti koje se diskretno mijenjaju tijekom vremena.

Da bi računalo obradilo audio signal potrebno ga je pretvoriti iz analognog u digitalni oblik, odnosno prikazati kao skup numeričkih vrijednosti. Taj se proces naziva analogna digitalizacija signala.

Digitalizacija audio (i bilo kojeg analognog) signala vrši se pomoću posebnog uređaja tzv analogno-digitalni pretvarač ADC (analogno-digitalni pretvarač, ADC). Ovaj uređaj nalazi se na ploči zvučnog adaptera i mikro krug je običnog izgleda.

Kako radi analogno-digitalni pretvarač?

Povremeno mjeri razinu ulaznog signala i ispisuje numeričku vrijednost rezultata mjerenja. Ovaj proces je ilustriran na sl. 2-4. Ovdje sivi pravokutnici označavaju vrijednosti ulaznog signala izmjerene u nekom konstantnom vremenskom intervalu. Skup takvih vrijednosti je digitalizirani prikaz ulaznog analognog signala.

Riža. 2-4. Mjerenja amplitude signala u odnosu na vrijeme

Na sl. 2-5 smo pokazali spajanje analogno-digitalnog pretvarača na mikrofon. U ovom slučaju, analogni signal se dovodi na ulaz x 1, a digitalni signal se uklanja iz izlaza u 1 -u n.

Riža. 2-5. Analogno-digitalni pretvarač

Analogno-digitalne pretvarače karakteriziraju dva važna parametra - frekvencija pretvorbe i broj razina kvantizacije ulaznog signala. Ispravan odabir ovih parametara ključan je za postizanje odgovarajuće digitalne reprezentacije analognog signala.

Koliko često trebate mjeriti amplitudu ulaznog analognog signala kako se podaci o promjenama u ulaznom analognom signalu ne bi izgubili kao rezultat digitalizacije?

Čini se da je odgovor jednostavan - ulazni signal treba mjeriti što je češće moguće. Doista, što češće analogno-digitalni pretvarač vrši takva mjerenja, to će bolje moći pratiti i najmanje promjene u amplitudi ulaznog analognog signala.

Međutim, prečesta mjerenja mogu dovesti do neopravdanog povećanja protoka digitalnih podataka i rasipanja računalnih resursa prilikom obrade signala.

srećom, pravi izbor frekvencije pretvorbe (frekvencije uzorkovanja) vrlo je jednostavno napraviti. Da biste to učinili, dovoljno je obratiti se na Kotelnikovljev teorem, poznat stručnjacima u području digitalne obrade signala. Teorem kaže da frekvencija pretvorbe mora biti dvostruko veća od maksimalne frekvencije spektra pretvorenog signala. Stoga, za digitalizaciju bez gubitka kvalitete audio signala čija je frekvencija u rasponu od 16-20 000 Hz, morate odabrati frekvenciju konverzije ne manju od 40 000 Hz.

Međutim, imajte na umu da je u profesionalnoj audio opremi frekvencija pretvorbe odabrana nekoliko puta veća od navedene vrijednosti. Ovo se radi kako bi se postiglo vrlo Visoka kvaliteta digitalizirani zvuk. Ova kvaliteta nije relevantna za sustave za prepoznavanje govora, stoga nećemo fokusirati vašu pozornost na ovaj izbor.

Koja je frekvencija pretvorbe potrebna za digitalizaciju zvuka ljudskog govora?

Budući da zvukovi ljudskog govora leže u frekvencijskom rasponu od 300-4000 Hz, minimalna potrebna frekvencija pretvorbe je 8000 Hz. Međutim, mnogi računalni programi za prepoznavanje govora koriste standardnu frekvenciju pretvorbe od 44 000 Hz za konvencionalne audio adaptere. S jedne strane, takva učestalost pretvorbe ne dovodi do pretjeranog povećanja protoka digitalnih podataka, as druge strane, osigurava dovoljno kvalitetnu digitalizaciju govora.

Još u školi su nas učili da pri bilo kakvom mjerenju nastaju pogreške koje se ne mogu u potpunosti eliminirati. Takve pogreške nastaju zbog ograničene rezolucije mjernih instrumenata, kao i zbog činjenice da sam proces mjerenja može unijeti neke promjene u izmjerenu vrijednost.

Analogno-digitalni pretvarač predstavlja ulazni analogni signal kao niz brojeva ograničenog kapaciteta. Konvencionalni audio adapteri sadrže 16-bitne ADC blokove koji mogu prikazati amplitudu ulaznog signala kao 216 = 65536 različitih vrijednosti. ADC uređaji u vrhunskoj audio opremi mogu biti 20-bitni, omogućujući veću točnost u predstavljanju amplitude audio signala.

Moderni sustavi i programi za prepoznavanje govora stvoreni su za obična računala, opremljen konvencionalnim zvučnim adapterima. Stoga, da biste proveli eksperimente s prepoznavanjem govora, ne morate kupiti profesionalni audio adapter. Adapter kao što je Sound Blaster sasvim je prikladan za digitalizaciju govora u svrhu njegovog daljnjeg prepoznavanja.

Zajedno s korisnim signalom, u mikrofon obično ulaze različiti šumovi - buka s ulice, buka vjetra, strani razgovori itd. Buka ima negativan utjecaj na performanse sustava za prepoznavanje govora, pa se s njom treba pozabaviti. Već smo spomenuli jedan od načina - današnje sustave za prepoznavanje govora najbolje je koristiti u tihoj prostoriji, nasamo s računalom.

Međutim, nije uvijek moguće stvoriti idealne uvjete, pa je potrebno koristiti posebne metode za uklanjanje smetnji. Za smanjenje razine šuma koriste se posebni trikovi pri projektiranju mikrofona i posebni filtri koji uklanjaju frekvencije iz spektra analognog signala koje ne prenose korisna informacija. Osim toga, koristi se tehnika kao što je kompresija dinamičkog raspona razina ulaznog signala.

Razgovarajmo o svemu ovome redom.

Frekvencijski filter je uređaj koji pretvara frekvencijski spektar analognog signala. U tom se slučaju tijekom procesa pretvorbe oslobađaju (ili apsorbiraju) vibracije određenih frekvencija.

Ovaj uređaj možete zamisliti kao neku vrstu crne kutije s jednim ulazom i jednim izlazom. U odnosu na našu situaciju, na ulaz frekvencijskog filtra bit će spojen mikrofon, a na izlaz analogno-digitalni pretvarač.

Postoje različiti frekvencijski filteri:

· niskopropusni filtri;

visokopropusni filtri;

· prijenosni pojasni filtri;

· band-stop filteri.

Niskopropusni filtri(low-pass filter) uklanja iz spektra ulaznog signala sve frekvencije čije su vrijednosti ispod određene granične frekvencije, ovisno o postavci filtera.

Budući da audio signali leže u rasponu od 16-20 000 Hz, sve frekvencije niže od 16 Hz mogu se odrezati bez pogoršanja kvalitete zvuka. Za prepoznavanje govora važan je frekvencijski raspon od 300-4000 Hz, tako da se frekvencije ispod 300 Hz mogu izrezati. U tom će slučaju sve smetnje čiji je frekvencijski spektar ispod 300 Hz biti izrezane iz ulaznog signala i neće ometati proces prepoznavanja govora.

Također, visokopropusni filtri(high-pass filter) iz spektra ulaznog signala izrezuje sve frekvencije iznad određene frekvencije praga.

Ljudi ne mogu čuti zvukove s frekvencijom od 20 000 Hz i višom, tako da se mogu izrezati iz spektra bez primjetnog pogoršanja kvalitete zvuka. Što se tiče prepoznavanja govora, ovdje možete izrezati sve frekvencije iznad 4000 Hz, što će dovesti do značajnog smanjenja razine visokofrekventnih smetnji.

Pojasni filtar(pojasni -propusni filtar) može se smatrati kombinacijom niskopropusnog i visokopropusnog filtra. Takav filter odgađa sve frekvencije ispod tzv niža frekvencija prolaza, a također i iznad frekvencija gornjeg prolaza.

Stoga je propusni filtar prikladan za sustav prepoznavanja govora, koji odgađa sve frekvencije osim frekvencija u rasponu od 300-4000 Hz.

Što se tiče band-stop filtera, oni vam omogućuju da iz spektra ulaznog signala izrežete sve frekvencije koje leže u određenom rasponu. Takav je filtar prikladan, na primjer, za suzbijanje smetnji koje zauzimaju određeni kontinuirani dio spektra signala.

Na sl. 2-6 smo pokazali spajanje propusnog pojasnog filtra.

Riža. 2-6. Filtriranje audio signala prije digitalizacije

Mora se reći da konvencionalni zvučni adapteri instalirani u računalu uključuju pojasni filtar kroz koji analogni signal prolazi prije digitalizacije. Prolazni pojas takvog filtra obično odgovara rasponu audio signala, naime 16-20 000 Hz (u različitim audio adapterima, vrijednosti gornje i donje frekvencije mogu varirati unutar malih granica).

Kako postići uži pojas od 300-4000 Hz, koji odgovara najinformativnijem dijelu spektra ljudskog govora?

Naravno, ako imate sklonost dizajniranju elektroničke opreme, možete napraviti vlastiti filtar od čipa operacijskog pojačala, otpornika i kondenzatora. Tako su otprilike radili prvi kreatori sustava za prepoznavanje govora.

Međutim, industrijski sustavi za prepoznavanje govora moraju biti sposobni raditi na standardu računalne opreme, pa način izrade posebnog pojasnog filtra ovdje nije prikladan.

Umjesto toga, u moderni sustavi obrada govora koristi tzv digitalni frekvencijski filtri, implementiran u softver. To je postalo moguće nakon što je središnji procesor računala postao dovoljno snažan.

Digitalni frekvencijski filtar, ugrađen u softver, pretvara ulazni digitalni signal u izlazni digitalni signal. Tijekom procesa pretvorbe, program na poseban način obrađuje tok numeričkih vrijednosti amplitude signala koji dolazi iz analogno-digitalnog pretvarača. Rezultat transformacije također će biti tok brojeva, ali će taj tok odgovarati već filtriranom signalu.

Govoreći o analogno-digitalnom pretvaraču, primijetili smo tako važnu karakteristiku kao što je broj razina kvantizacije. Ako je u zvučni adapter instaliran 16-bitni analogno-digitalni pretvarač, tada se nakon digitalizacije razine audio signala mogu prikazati kao 216 = 65536 različitih vrijednosti.

Ako postoji malo kvantizacijskih razina, tada tzv kvantizacijski šum. Kako bi se smanjio ovaj šum, visokokvalitetni sustavi za digitalizaciju zvuka trebaju koristiti analogno-digitalne pretvarače s maksimalnim brojem dostupnih razina kvantizacije.

Međutim, postoji još jedna tehnika za smanjenje utjecaja buke kvantizacije na kvalitetu audio signala, koja se koristi u digitalnim sustavima za snimanje zvuka. Kada se koristi ova tehnika, signal se prije digitalizacije propušta kroz nelinearno pojačalo, naglašavajući signale s niskom amplitudom signala. Ovaj uređaj više pojačava slabe nego jake signale.

To je ilustrirano grafom amplitude izlaznog signala u odnosu na amplitudu ulaznog signala prikazanog na slici. 2-7 (prikaz, ostalo).

Riža. 2-7 (prikaz, ostalo). Nelinearno pojačanje prije digitalizacije

U koraku pretvaranja digitaliziranog zvuka natrag u analogni (pogledat ćemo ovaj korak kasnije u ovom poglavlju), analogni signal ponovno prolazi kroz nelinearno pojačalo prije nego što se emitira u zvučnike. Ovaj put se koristi drugačije pojačalo koje naglašava signale visoke amplitude i ima karakteristiku prijenosa (ovisnost amplitude izlaznog signala o amplitudi ulaznog signala) inverznu onoj korištenoj tijekom digitalizacije.

Kako sve to može pomoći kreatorima sustava za prepoznavanje govora?

Osoba, kao što je poznato, prilično dobro prepoznaje govor izgovoren tihim šapatom ili prilično glasnim glasom. Možemo reći da je dinamički raspon razina glasnoće uspješno prepoznatog govora za osobu prilično širok.

Današnji računalni sustavi prepoznavanje govora se, nažalost, još ne može time pohvaliti. Međutim, kako biste malo proširili navedeni dinamički raspon, prije digitalizacije možete proći signal iz mikrofona kroz nelinearno pojačalo, čija je prijenosna karakteristika prikazana na Sl. 2-7 (prikaz, ostalo). Ovo će smanjiti razinu šuma kvantizacije pri digitalizaciji slabih signala.

Programeri sustava za prepoznavanje govora opet su prisiljeni prvenstveno se fokusirati na komercijalno proizvedene zvučne adaptere. Oni ne omogućuju gore opisanu nelinearnu konverziju signala.

Međutim, moguće je stvoriti softverski ekvivalent nelinearnog pojačala koje pretvara digitalizirani signal prije nego što ga proslijedi modulu za prepoznavanje govora. Iako takvo softversko pojačalo neće moći smanjiti šum kvantizacije, može se koristiti za naglašavanje onih razina signala koje nose najviše govornih informacija. Na primjer, možete smanjiti amplitudu slabih signala i tako osloboditi signal od šuma.

Dinamička kompresija(Dynamic range compression, DRC) - sužavanje (ili proširenje u slučaju ekspandera) dinamičkog raspona fonograma. Dinamički raspon, razlika je između najtišeg i najglasnijeg zvuka. Ponekad će najtiši zvuk u zvučnom zapisu biti malo glasniji od razine buke, a ponekad malo tiši od najglasnijeg. Hardverski uređaji i programi koji izvode dinamičku kompresiju nazivaju se kompresori, među kojima se razlikuju četiri glavne skupine: sami kompresori, limiteri, ekspanderi i vrata.

Cijevni analogni kompresor DBX 566

Kompresija prema dolje i prema gore

Kompresija prema dolje(Kompresija prema dolje) smanjuje glasnoću zvuka kada počne prelaziti određeni prag, ostavljajući tiše zvukove nepromijenjenima. Ekstremna verzija kompresije prema dolje je limiter. Pojačajte kompresiju Kompresija prema gore, s druge strane, povećava glasnoću zvuka ako je ispod praga bez utjecaja na glasnije zvukove. U isto vrijeme, obje vrste kompresije sužavaju dinamički raspon audio signala.

Kompresija prema dolje

Pojačajte kompresiju

Ekspander i vrata

Ako kompresor smanjuje dinamički raspon, ekspander ga povećava. Kada se razina signala podigne iznad razine praga, ekspander je dodatno povećava, čime se povećava razlika između glasnih i tihih zvukova. Uređaji poput ovog često se koriste pri snimanju kompleta bubnjeva za odvajanje zvukova jednog bubnja od drugog.

Vrsta ekspandera koja se ne koristi za pojačavanje glasnih zvukova, već za prigušivanje tihih zvukova koji ne prelaze razinu praga (na primjer, pozadinska buka) naziva se Vrata za buku. U takvom uređaju, čim razina zvuka postane manja od praga, signal prestaje prolaziti. Obično se vrata koriste za suzbijanje buke tijekom pauza. Na nekim modelima možete se pobrinuti da zvuk ne prestane naglo kada dosegne razinu praga, već postupno nestaje. U ovom slučaju, stopu slabljenja postavlja kontrola Decay.

Vrata, kao i druge vrste kompresora, mogu biti ovisno o frekvenciji(tj. drugačije tretirati određene frekvencijske pojaseve) i može raditi u njima bočni lanac(Pogledaj ispod).

Princip rada kompresora

Signal koji ulazi u kompresor dijeli se u dvije kopije. Jedna kopija se šalje u pojačalo, u kojem se stupanj pojačanja kontrolira vanjskim signalom, a druga kopija generira taj signal. On ulazi u uređaj koji se naziva bočni lanac, gdje se signal mjeri i na temelju tih podataka stvara omotnica koja opisuje promjenu njegovog volumena.
Ovako je dizajnirana većina modernih kompresora, to je takozvani feed-forward tip. U starijim uređajima (tip povratne veze), razina signala se mjeri nakon pojačala.

Postoje različite analogne tehnologije pojačanja s promjenjivim pojačanjem, svaka sa svojim prednostima i nedostacima: cijevna, optička koja koristi fotootpornike i tranzistor. Prilikom rada sa digitalni zvuk(u uređivaču zvuka ili DAW) može koristiti vlastite matematičke algoritme ili oponašati rad analognih tehnologija.

Glavni parametri kompresora

Prag

Kompresor smanjuje razinu audio signala ako njegova amplituda prijeđe određenu graničnu vrijednost (prag). Obično se navodi u decibelima, s nižim pragom (npr. -60 dB) što znači da će se obraditi više zvuka od višeg praga (npr. -5 dB).

omjer

Količina smanjenja razine određena je parametrom omjera: omjer 4:1 znači da će, ako je ulazna razina 4 dB iznad praga, izlazna razina biti 1 dB iznad praga.
Na primjer:
Prag = −10 dB
Ulaz = −6 dB (4 dB iznad praga)
Izlaz = -9 dB (1 dB iznad praga)

Važno je imati na umu da se potiskivanje razine signala nastavlja još neko vrijeme nakon što padne ispod razine praga, a to je vrijeme određeno vrijednošću parametra osloboditi.

Kompresija s maksimalnim omjerom ∞:1 naziva se ograničavajuća. To znači da se svaki signal iznad razine praga prigušuje na razinu praga (osim kratkog razdoblja nakon naglog povećanja ulazne glasnoće). Za više pojedinosti pogledajte "Limiter" u nastavku.

Primjeri različitih vrijednosti omjera

Napad i otpuštanje

Kompresor osigurava određenu kontrolu nad time koliko brzo reagira na promjene u dinamici signala. Parametar Attack određuje vrijeme koje je potrebno da kompresor smanji pojačanje na razinu određenu parametrom Ratio. Otpuštanje određuje vrijeme tijekom kojeg kompresor, naprotiv, povećava pojačanje ili se vraća u normalu ako razina ulaznog signala padne ispod vrijednosti praga.

Faze napada i oslobađanja

Ovi parametri pokazuju vrijeme (obično u milisekundama) koje će biti potrebno da se pojačanje promijeni za određenu količinu decibela, obično 10 dB. Na primjer, u ovom slučaju, ako je Attack postavljen na 1 ms, trebat će 1 ms da se pojačanje smanji za 10 dB, a 2 ms da se pojačanje smanji za 20 dB.

Na mnogim kompresorima parametri Attack i Release mogu se prilagoditi, ali na nekima su unaprijed postavljeni i ne mogu se podešavati. Ponekad se označavaju kao "automatski" ili "ovisni o programu", tj. promijeniti ovisno o ulaznom signalu.

Koljeno

Još jedan parametar kompresora: tvrdo/meko koljeno. Određuje hoće li početak kompresije biti nagao (tvrdo) ili postupan (mekano). Soft knee smanjuje primjetnost prijelaza sa suhog signala na komprimirani signal, posebno pri visokim vrijednostima omjera i naglim porastima glasnoće.

Kompresija tvrdog koljena i mekog koljena

Vrhunac i RMS

Kompresor može reagirati na vršne (kratkoročne maksimalne) vrijednosti ili na prosječnu razinu ulaznog signala. Korištenje vršnih vrijednosti može dovesti do oštrih fluktuacija u stupnju kompresije, pa čak i do izobličenja. Stoga kompresori primjenjuju prosječnu funkciju (obično RMS) na ulazni signal kada ga uspoređuju s vrijednošću praga. To daje ugodniju kompresiju, bližu ljudskoj percepciji glasnoće.

RMS je parametar koji odražava prosječnu glasnoću zvučnog zapisa. S matematičkog gledišta, RMS (Root Mean Square) je korijen srednje kvadratne vrijednosti amplitude određenog broja uzoraka:

Stereo povezivanje

Kompresor u načinu stereo povezivanja primjenjuje isto pojačanje na oba stereo kanala. Time se izbjegavaju stereo pomaci koji mogu proizaći iz pojedinačne obrade lijevog i desnog kanala. Ovaj pomak se događa ako se, na primjer, glasan element pomakne izvan središta.

Dobitak šminke

Budući da kompresor smanjuje ukupnu razinu signala, obično dodaje opciju fiksnog izlaznog pojačanja kako bi se postigla optimalna razina.

Gledati unaprijed

Funkcija predviđanja dizajnirana je za rješavanje problema povezanih s previsokim i preniskim vrijednostima Attack i Release. Predugo vrijeme napada ne dopušta nam učinkovito presretanje prijelaznih pojava, a prekratko vrijeme napada možda neće biti ugodno za slušatelja. Kada koristite funkciju gledanja unaprijed, glavni signal kasni u odnosu na kontrolni signal, što vam omogućuje početak kompresije unaprijed, čak i prije nego što signal dosegne vrijednost praga.
Jedini nedostatak ove metode je vremensko kašnjenje signala, što je u nekim slučajevima nepoželjno.

Korištenje dinamičke kompresije

Kompresija se koristi posvuda, ne samo u glazbenim zvučnim zapisima, već i svugdje gdje je potrebno povećati ukupnu glasnoću bez povećanja vršnih razina, gdje se koristi jeftina oprema za reprodukciju zvuka ili ograničeni kanal prijenosa (razglas i komunikacijski sustavi, amaterski radio, itd.) .

Kompresija se primjenjuje tijekom reprodukcije pozadinska glazba(u trgovinama, restoranima, itd.) gdje nisu poželjne značajnije promjene volumena.

Ali najvažnije područje primjene dinamičke kompresije je glazbena produkcija i emitiranje. Kompresija se koristi kako bi se zvuku dala "gustoća" i "pogon". najbolja kombinacija instrumenata međusobno, a posebno kod obrade vokala.

Vokali u rock i pop glazbi često su komprimirani kako bi se izdvojili iz pratnje i dodali jasnoću. Za potiskivanje sibilantnih fonema koristi se posebna vrsta kompresora podešenog samo na određene frekvencije - de-esser.

U instrumentalnim dijelovima, kompresija se također koristi za efekte koji nisu izravno povezani s glasnoćom, na primjer, brzo opadajući zvukovi bubnja mogu se produžiti.

Elektronička plesna glazba (EDM) često koristi side-chaining (vidi dolje) - na primjer, bas liniju može pokretati bubanj ili slično kako bi se spriječio sukob basa i bubnjeva i stvorilo dinamičko pulsiranje.

Kompresija se naširoko koristi u emitiranju (radio, televizija, internetsko emitiranje) za povećanje percipirane glasnoće uz smanjenje dinamičkog raspona izvornog zvuka (obično CD-a). Većina zemalja ima zakonska ograničenja za najveću trenutnu glasnoću koja se može emitirati. Obično se ova ograničenja provode stalnim hardverskim kompresorima u zračnom lancu. Uz to, povećanje percipirane glasnoće poboljšava "kvalitetu" zvuka iz perspektive većine slušatelja.

vidi također Rat glasnoće.

Dosljedno povećanje glasnoće iste pjesme remasterirane za CD od 1983. do 2000.

Bočno ulančavanje

Još jedan čest prekidač kompresora je "bočni lanac". U ovom načinu rada dolazi do kompresije zvuka ne ovisno o vlastitoj razini, već ovisno o razini signala koji ulazi u konektor, koji se obično naziva bočni lanac.

Postoji nekoliko upotreba za ovo. Na primjer, pjevač šuška i sva "s" odskaču od ukupne slike. Propuštate njegov glas kroz kompresor i dovodite isti zvuk u konektor bočnog lanca, ali prolazi kroz ekvilizator. S ekvilizatorom izrezujete sve frekvencije osim onih koje koristi pjevač kada izgovara slovo "s". Obično oko 5 kHz, ali može biti u rasponu od 3 kHz do 8 kHz. Ako zatim stavite kompresor u bočni lančani način rada, glas će biti komprimiran u onim trenucima kada se izgovara slovo "s". To je rezultiralo uređajem poznatim kao de-esser. Ovaj način rada naziva se "frekvencijski ovisan".

Druga uporaba ove funkcije naziva se "ducker". Na primjer, na radio postaji glazba prolazi kroz kompresor, a DJ-eve riječi dolaze kroz bočni lanac. Kada DJ počne razgovarati, glasnoća glazbe automatski se smanjuje. Ovaj efekt također se može uspješno koristiti u snimanju, na primjer, za smanjenje glasnoće dijelova klavijature tijekom pjevanja.

Ograničenje zidova od opeke

Kompresor i limiter rade približno na isti način, možemo reći da je limiter kompresor s visokim omjerom (od 10:1) i, obično, niskim Attack time.

Postoji koncept Brick wall limitiranja - limitiranje s vrlo visokim omjerom (20:1 i više) i vrlo brzim napadom. U idealnom slučaju, ne dopušta da signal uopće prijeđe razinu praga. Rezultat će biti neugodan za uho, ali to će spriječiti oštećenje opreme za reprodukciju zvuka ili prekomjerno propusnost kanal. Mnogi proizvođači integriraju limitatore u svoje uređaje upravo za tu svrhu.