Konfiguracja sprzętu i oprogramowania

Mastering w odwrotnej kolejności: czy można zwiększyć dynamikę skompresowanych nagrań? Korzystanie z kompresji dynamicznej.

Kompresja to jeden z najbardziej mitycznych tematów w produkcji dźwięku. Podobno Beethoven przestraszył nawet dzieci sąsiada:(

Okej, w rzeczywistości zastosowanie kompresji nie jest trudniejsze niż użycie zniekształceń, najważniejsze jest zrozumienie, jak to działa i dobra kontrola. Co teraz jesteśmy razem i upewnij się.

Co to jest kompresja dźwięku

Pierwszą rzeczą, którą należy zrozumieć przed przygotowaniem, jest to, że kompresja jest praca z dynamicznym zakresem dźwięku. A z kolei to nic innego jak różnica między najgłośniejszym i najcichszym poziomem sygnału:

Więc oto jest? kompresja to kompresja zakresu dynamicznego. Tak, po prostu kompresja zakresu dynamiki, czyli innymi słowy zmniejsz głośność głośnych części sygnału i zwiększ głośność tych cichych. Już nie.

Możesz całkiem rozsądnie zastanawiać się, jaki jest powód takiego szumu? Dlaczego wszyscy mówią o przepisach na właściwe strojenie kompresorów, a nikt ich nie udostępnia? Dlaczego pomimo ogromnej liczby fajnych wtyczek w wielu studiach wciąż używa się drogich, rzadkich modeli kompresorów? Dlaczego niektórzy producenci stosują kompresory w ekstremalnych ustawieniach, a inni w ogóle ich nie stosują? A który w końcu jest słuszny?

Problemy, które rozwiązuje kompresja

Odpowiedzi na takie pytania leżą na płaszczyźnie zrozumienia roli kompresji w pracy z dźwiękiem. I pozwala:

  1. Atak z naciskiem dźwięk, uwydatnij go;
  2. „Usadzaj” poszczególne partie instrumentów w miksie, dodając im mocy i „wagi”;
  3. Zwiększ spójność grup instrumentów lub całego miksu, taki pojedynczy monolit;
  4. Rozwiąż konflikty między narzędziami za pomocą łańcucha bocznego ;
  5. Popraw wady wokalisty lub muzyków, wyrównując ich dynamikę;
  6. Z pewnym ustawieniem działać jako efekt artystyczny.

Jak widać, jest to nie mniej istotny proces twórczy niż np. wymyślanie melodii czy granie ciekawych barw. W takim przypadku dowolne z powyższych zadań można rozwiązać za pomocą 4 głównych parametrów.

Główne parametry sprężarki

Pomimo ogromnej liczby modeli programowych i sprzętowych kompresorów, cała „magia” kompresji pojawia się, gdy prawidłowe ustawienie główne parametry: Threshold, Ratio, Attack i Release. Rozważmy je bardziej szczegółowo:

Próg lub próg, dB

Ten parametr pozwala ustawić wartość, przy której kompresor będzie działał (tj. kompresować sygnał audio). Tak więc, jeśli ustawimy próg na -12dB, kompresor włączy się tylko w tych miejscach w zakresie dynamiki, które przekraczają tę wartość. Jeśli cały nasz dźwięk jest cichszy niż -12 dB, kompresor po prostu przepuszcza go przez siebie, nie wpływając na niego w żaden sposób.

Współczynnik lub proporcje

Parametr ratio określa, jak bardzo sygnał zostanie skompresowany, jeśli przekroczy próg. Trochę matematyki, aby uzupełnić obraz: powiedzmy, że ustawiliśmy kompresor z progiem -12dB, stosunek 2:1 i podaliśmy mu pętlę perkusyjną z głośnością odbicia -4dB. Jaki będzie wynik działania kompresora w takim przypadku?

W naszym przypadku poziom wybicia przekracza próg o 8dB. Ta różnica zostanie skompresowana do 4 dB (8 dB / 2) zgodnie z proporcją. Razem z nieprzetworzoną częścią sygnału doprowadzi to do tego, że po przetworzeniu przez kompresor głośność kopnięcia wyniesie -8dB (próg -12dB + 4dB skompresowanego sygnału).

Atak, ms

Jest to czas, po którym sprężarka zareaguje na przekroczenie progu. Oznacza to, że jeśli czas ataku jest powyżej 0 ms − sprężarka zaczyna kompresować przekroczenie sygnału progowego nie jest natychmiastowe, lecz po określonym czasie.

Wydanie lub odzyskanie, ms

Przeciwieństwo ataku – wartość tego parametru pozwala określić, po jakim czasie poziom sygnału powróci poniżej progu sprężarka przestanie sprężać.

Zanim przejdziemy dalej, zdecydowanie polecam pobranie znanej próbki, podłączenie dowolnego kompresora do jej kanału i eksperymentowanie z powyższymi parametrami przez 5-10 minut, aby bezpiecznie zamocować materiał.

Wszystko inne parametry są opcjonalne. Mogą się one różnić między różnymi modelami kompresorów, częściowo dlatego producenci używają różnych modeli do określonych celów (na przykład jeden kompresor do wokalu, inny do grupy perkusyjnej, trzeci do kanału głównego). Nie będę się rozwodził nad tymi parametrami szczegółowo, ale tylko podam informacje ogólne aby zrozumieć, o co w tym wszystkim chodzi:

  • Kolano lub załamanie (twarde/miękkie kolano). Ten parametr określa, jak szybko zostanie zastosowany stopień kompresji (stosunek): twardy na krzywej lub gładki. Zwracam uwagę, że w trybie Soft Knee kompresor nie działa w linii prostej, ale uruchamia się płynnie (o ile to może być właściwe, gdy mówimy o milisekundach) do dokręcania dźwięku już przed wartością progu. Do przetwarzania grup kanałów i całego miksu częściej stosuje się miękkie kolano (ponieważ działa niezauważalnie), a twarde kolano służy do podkreślenia ataku i innych cech poszczególnych instrumentów;
  • Tryb reakcji: szczyt/RMS. Tryb Peak jest uzasadniony, gdy trzeba mocno ograniczyć wybuchy amplitudy, a także w przypadku sygnałów o złożonym kształcie, których dynamika i czytelność muszą być w pełni przekazane. tryb RMS jest bardzo delikatny dla dźwięku, pozwalając na jego skondensowanie, przy jednoczesnym utrzymaniu ataku;
  • Przezorność (Lookhead). To czas, w którym kompresor będzie wiedział, czego się spodziewać. Rodzaj wstępnej analizy nadchodzących sygnałów;
  • Makijaż lub zysk. Parametr, który pozwala zrekompensować ubytek głośności w wyniku kompresji.

Pierwszy i najważniejsza rada, który usuwa wszystkie dalsze pytania dotyczące kompresji: jeśli a) rozumiesz zasadę kompresji, b) dobrze wiesz, jak ten lub inny parametr wpływa na dźwięk, c) udało się wypróbować kilka różne modelenie potrzebujesz porady.

Jestem absolutnie poważna. Jeśli uważnie czytałeś ten wpis, eksperymentowałeś ze standardowym kompresorem twojego DAW i jedną lub dwiema wtyczkami, ale nie rozumiałeś w jakich przypadkach trzeba ustawić duże wartości ataku, jakiego współczynnika użyć i w jakim trybie przetworzyć oryginał sygnał, wtedy przeszukasz Internet w poszukiwaniu gotowych przepisów, stosując je bezmyślnie w dowolnym miejscu.

Przepisy dotyczące precyzyjnego dostrajania kompresora to trochę jak przepis na dopracowanie pogłosu lub refrenu – to nie ma sensu i nie ma nic wspólnego z kreatywnością. Dlatego uporczywie powtarzam jedyny prawdziwy przepis: uzbrój się w ten artykuł, dobre słuchawki monitorowe, wtyczkę do wizualnej kontroli przebiegu i spędź wieczór w towarzystwie kilku kompresorów.

Podejmij działanie!

Poziom dźwięku jest taki sam w całej kompozycji, występuje kilka pauz.

Zawężenie zakresu dynamicznego

Zawężenie zakresu dynamicznego, czyli prościej kompresja, jest niezbędny do różnych celów, najczęstsze z nich:

1) Osiągnięcie jednego poziomu głośności w całej kompozycji (lub części instrumentu).

2) Osiągnięcie jednego poziomu głośności kompozycji w całym albumie / audycji radiowej.

2) Zwiększenie zrozumiałości, głównie przy kompresji określonej partii (wokal, bęben basowy).

Jak następuje zawężenie zakresu dynamicznego?

Kompresor analizuje wejściowy poziom audio, porównując go z wartością progową zdefiniowaną przez użytkownika.

Jeśli poziom sygnału jest poniżej wartości Próg– wtedy kompresor kontynuuje analizę dźwięku bez jego zmiany. Jeśli poziom dźwięku przekroczy wartość Threshold, kompresor rozpocznie działanie. Ponieważ rolą kompresora jest zawężenie zakresu dynamiki, logiczne jest założenie, że ogranicza on największe i najmniejsze wartości amplitudy (poziom sygnału). W pierwszym etapie ograniczane są największe wartości, które maleją z pewną siłą, którą nazywamy Stosunek(Nastawienie). Spójrzmy na przykład:

Zielone krzywe pokazują poziom dźwięku, im większa amplituda ich oscylacji od osi X, tym wyższy poziom sygnału.

Żółta linia to próg (próg) działania sprężarki. Zwiększając wartość Threshold użytkownik odsuwa ją od osi X. Zmniejszając wartość Threshold przybliża ją do osi Y. Oczywiste jest, że im niższa wartość progowa, tym częściej kompresor będzie działają i odwrotnie, im wyżej, tym rzadziej. Jeśli wartość Ratio jest bardzo wysoka, to po osiągnięciu poziomu sygnału Threshold, cały kolejny sygnał zostanie stłumiony przez kompresor do wyciszenia. Jeśli wartość Ratio jest bardzo mała, nic się nie stanie. Dobór wartości Threshold i Ratio zostanie omówiony później. Teraz powinniśmy zadać sobie następujące pytanie: Jaki jest sens tłumienia wszystkich kolejnych dźwięków? Rzeczywiście, nie ma to sensu, wystarczy pozbyć się wartości amplitudy (pików), które przekraczają wartość Threshold (zaznaczoną na wykresie na czerwono). Aby rozwiązać ten problem, istnieje parametr Uwolnienie(Fade out), który określa czas trwania kompresji.

Przykład pokazuje, że pierwsze i drugie przekroczenie progu trwają krócej niż trzecie przekroczenie progu. Tak więc, jeśli parametr Release jest ustawiony na pierwsze dwa piki, to podczas przetwarzania trzeciego piku może pozostać nieprzetworzona część (ponieważ próg przekraczający próg trwa dłużej). Jeśli parametr Release jest ustawiony na trzeci szczyt, to podczas przetwarzania pierwszego i drugiego szczytu za nimi powstaje niepożądany spadek poziomu sygnału.

To samo dotyczy parametru Ratio. Jeśli parametr Ratio jest ustawiony na pierwsze dwa piki, to trzeci nie będzie wystarczająco tłumiony. Jeśli parametr Ratio jest ustawiony na przetwarzanie trzeciego piku, przetwarzanie pierwszych dwóch pików będzie zbyt wysokie.

Problemy te można rozwiązać na dwa sposoby:

1) Poprzez ustawienie parametru ataku (Atak) - rozwiązanie częściowe.

2) Kompresja dynamiczna to kompletne rozwiązanie.

Parametr anadal (atak) służy do ustawienia czasu, po którym sprężarka rozpocznie pracę po przekroczeniu progu Progu. Jeśli parametr jest bliski zeru (jest równy zero w przypadku kompresji równoległej, patrz odpowiedni artykuł) - wtedy kompresor zacznie natychmiast tłumić sygnał i będzie działał czas ustawiony przez parametr Release. Jeśli prędkość ataku jest wysoka, kompresor zacznie działać po pewnym czasie (jest to konieczne dla jasności). W naszym przypadku można ustawić parametry progu (próg), tłumienia (zwolnienia) i poziomu kompresji (współczynnik), aby przetworzyć dwa pierwsze szczyty, a wartość ataku (atak) ustawić bliską zeru. Wtedy kompresor wytłumi pierwsze dwa piki, a przetwarzając trzeci, wytłumi go aż do przekroczenia progu (Próg). Nie gwarantuje to jednak wysokiej jakości przetwarzania dźwięku i jest bliskie ograniczenia (zgrubne obcięcie wszystkich wartości amplitudy, w tym przypadku kompresor nazywany jest limiterem).

Spójrzmy na wynik przetwarzania dźwięku przez kompresor:

Piki zniknęły, zaznaczam, że ustawienia przetwarzania były dość delikatne i tłumiliśmy tylko najbardziej wystające wartości amplitudy. W praktyce zakres dynamiczny zawęża się znacznie bardziej i ten trend dopiero się rozwija. W świadomości wielu kompozytorów podbijają muzykę, ale w praktyce kompletnie pozbawiają ją dynamiki dla tych słuchaczy, którzy prawdopodobnie będą jej słuchać w domu, a nie w radiu.

Pozostaje nam rozważyć ostatni parametr kompresji, to Osiągać(Osiągać). Amplifikacja ma na celu zwiększenie amplitudy całej kompozycji i de facto jest odpowiednikiem innego narzędzia edytorów dźwięku – normalizacji. Spójrzmy na wynik końcowy:

W naszym przypadku kompresja była uzasadniona i poprawiła jakość dźwięku, ponieważ wydatny szczyt jest bardziej przypadkiem niż zamierzonym skutkiem. Dodatkowo widać, że muzyka jest rytmiczna, dlatego ma wąski zakres dynamiki. W przypadkach, w których wysokie wartości amplitudy zostały wprowadzone celowo, kompresja może stać się błędem.

Kompresja dynamiczna

Różnica między kompresją dynamiczną a kompresją niedynamiczną polega na tym, że pierwszy poziom tłumienia sygnału (stosunek) zależy od poziomu sygnału przychodzącego. Sprężarki dynamiczne są we wszystkich nowoczesnych programach, parametry Ratio i Threshold są sterowane za pomocą okna (każdy parametr ma swoją oś):

Nie ma jednego standardu wyświetlania wykresu, gdzieś wzdłuż osi Y wyświetlany jest poziom sygnału przychodzącego, a gdzie indziej poziom sygnału po kompresji. Gdzieś punkt (0,0) znajduje się w prawym górnym rogu, gdzieś w lewym dolnym rogu. W każdym razie przesunięcie kursora myszy nad to pole zmienia wartości liczb, które odpowiadają parametrom Ratio i Threshold. Tych. Ustawiasz poziom kompresji dla każdej wartości Threshold, dzięki czemu możesz ustawić kompresję bardzo elastycznie.

Łańcuch boczny

Kompresor łańcucha bocznego analizuje sygnał jednego kanału, a gdy poziom dźwięku przekracza próg (próg), stosuje kompresję na drugim kanale. Łańcuch boczny ma swoje zalety w pracy z instrumentami, które znajdują się w tym samym regionie częstotliwości (aktywnie używany jest bęben basowo-basowy), ale czasami używane są instrumenty zlokalizowane w różnych obszarach częstotliwości, co prowadzi do interesującego efektu łańcucha bocznego.

Część druga — etapy kompresji

Istnieją trzy etapy kompresji:

1) Pierwszym etapem jest kompresja poszczególnych dźwięków (pojedyncze strzały).

Barwa każdego instrumentu ma następujące cechy: Attack, Hold, Decay, Delay, Sustain, Release.

Etap kompresji poszczególnych dźwięków podzielony jest na dwie części:

1.1) Kompresja poszczególnych dźwięków instrumentów rytmicznych

Często elementy rytmu wymagają osobnej kompresji, aby nadać im klarowność. Wiele osób przetwarza bęben basowy oddzielnie od innych instrumentów rytmicznych, zarówno na etapie kompresji poszczególnych dźwięków, jak i na etapie kompresji poszczególnych partii. Wynika to z faktu, że znajduje się on w obszarze niskich częstotliwości, gdzie oprócz niego zwykle obecny jest tylko bas. Czystość bębna basowego rozumiana jest jako obecność charakterystycznego kliknięcia (bęben basowy ma bardzo krótki czas ataku i utrzymania). Jeśli nie ma kliknięcia, to trzeba go przetworzyć kompresorem, ustawiając próg na zero i czas ataku od 10 do 50 ms. Realese kompresora musi zakończyć się, zanim kopnięcie rozpocznie się ponownie. Ostatni problem można rozwiązać za pomocą wzoru: 60 000 / BPM , gdzie BPM to tempo utworu. Na przykład) 60 000/137 = 437,96 (czas w milisekundach do nowego taktu 4-metrowej kompozycji).

Wszystko to dotyczy innych instrumentów rytmicznych o krótkim czasie ataku – powinny one mieć uwydatniony klik, którego kompresor nie powinien wytłumiać na żadnym z poziomów kompresji.

1.2) Kompresjaposzczególne dźwiękiinstrumenty harmoniczne

W przeciwieństwie do instrumentów rytmicznych, partie instrumentów harmonicznych rzadko składają się z pojedynczych dźwięków. Nie oznacza to jednak, że nie powinny być przetwarzane na poziomie kompresji dźwięku. Jeśli używasz sampla z nagraną częścią, to jest to drugi poziom kompresji. Ten poziom kompresji dotyczy tylko zsyntetyzowanych instrumentów harmonicznych. Mogą to być samplery, syntezatory wykorzystujące różne metody syntezy dźwięku (modelowanie fizyczne, FM, addytywne, subtraktywne itp.). Jak zapewne zgadłeś, mówimy o programowaniu ustawień syntezatora. Tak! To też kompresja! Prawie wszystkie syntezatory posiadają programowalny parametr obwiedni (ADSR), co oznacza obwiednię. Za pomocą koperty ustawiany jest czas Ataku (Ataku), Zaniku (Zaniku), Poziomu Utrzymania (Utrzymanie), Zaniku (Uwolnienia). A jeśli powiesz mi, że to nie jest kompresja każdego pojedynczego dźwięku – jesteś moim wrogiem na całe życie!

2) Drugi etap - Kompresja poszczególnych części.

Przez kompresję poszczególnych partii rozumiem zawężenie zakresu dynamicznego szeregu połączonych pojedynczych dźwięków. Ten etap obejmuje również nagrania partii, w tym wokale, które wymagają obróbki kompresyjnej, aby nadać jej klarowność i zrozumiałość. Podczas przetwarzania partii przez kompresję należy wziąć pod uwagę fakt, że przy dodawaniu poszczególnych dźwięków mogą pojawić się niepożądane piki, których należy się pozbyć na tym etapie, ponieważ jeśli nie zostanie to zrobione teraz, obraz może się pogorszyć na etapie mieszania całej kompozycji. Na etapie kompresji poszczególnych części należy wziąć pod uwagę kompresję etapu przetwarzania poszczególnych dźwięków. Jeśli osiągnąłeś klarowność bębna basowego, nieprawidłowe ponowne przetwarzanie na drugim etapie może wszystko zepsuć. Nie jest konieczne przetwarzanie wszystkich części przez kompresor, ani przetwarzanie wszystkich pojedynczych dźwięków. Na wszelki wypadek radzę założyć analizator amplitudy w celu stwierdzenia występowania niepożądanych skutków ubocznych łączenia poszczególnych dźwięków. Oprócz kompresji, na tym etapie należy upewnić się, że partie są w miarę możliwości w różnych zakresach częstotliwości, aby przeprowadzić kwantyzację. Warto też pamiętać, że dźwięk ma takie cechy jak maskowanie (psychoakustyka):

1) Cichszy dźwięk jest maskowany przez głośniejszy dźwięk przed nim.

2) Cichszy dźwięk o niskiej częstotliwości jest maskowany przez głośniejszy dźwięk o wysokiej częstotliwości.

Na przykład, jeśli masz partię syntezatora, często nuty zaczynają grać zanim poprzednie skończą się grać. Czasem jest to konieczne (tworzenie harmonii, stylu gry, polifonia), ale czasem wcale – możesz skrócić ich koniec (Delay – Release) na wypadek, gdyby był słyszalny w trybie solo, ale nie słyszany w trybie wszystkich partii. To samo dotyczy efektów, takich jak pogłos – nie powinien trwać do momentu ponownego uruchomienia źródła dźwięku. Obcinając i usuwając niechciany sygnał, sprawiasz, że dźwięk jest czystszy, a to również można uznać za kompresję - ponieważ usuwasz niechciane fale.

3) Trzeci etap - Kompresja kompozycji.

Podczas kompresji całej kompozycji trzeba wziąć pod uwagę fakt, że wszystkie części są kombinacją wielu pojedynczych dźwięków. Dlatego łącząc je, a następnie kompresując należy uważać, aby finalna kompresja nie zepsuła tego, co osiągnęliśmy w pierwszych dwóch etapach. Trzeba też oddzielić kompozycje, w których ważny jest szeroki lub wąski zakres. przy kompresowaniu kompozycji o szerokim zakresie dynamicznym wystarczy założyć kompresor, który zmiażdży krótkotrwałe piki, które powstały w wyniku zsumowania części. Podczas kompresji kompozycji, w której ważny jest wąski zakres dynamiki, wszystko jest znacznie bardziej skomplikowane. Tutaj kompresory zostały ostatnio nazwane maksymalizatorami. Maximizer to wtyczka łącząca kompresor, limiter, korektor graficzny, wzmacniacz i inne narzędzia do transformacji dźwięku. Jednocześnie musi koniecznie dysponować narzędziami do analizy dźwięku. Maksymalizacja, końcowe przetwarzanie przez kompresor, jest w dużej mierze potrzebne do zwalczania błędów popełnionych na poprzednich etapach. Błędy - nie tyle kompresja (jednak jeśli robisz na ostatnim etapie to, co mogłeś zrobić na pierwszym etapie, to już jest pomyłka), ale w początkowym doborze dobrych sampli i instrumentów, które by ze sobą nie kolidowały (mówimy o zakresach częstotliwości) . Po to jest korygowana charakterystyka częstotliwościowa. Często zdarza się, że przy mocnej kompresji na masterze trzeba zmienić parametry kompresji i miksowania na wcześniejszych etapach, gdyż przy silnym zawężeniu zakresu dynamiki wychodzą ciche dźwięki, które wcześniej były maskowane, brzmienie poszczególnych składowych zmiany składu.

W tych częściach celowo nie mówiłem o konkretnych parametrach kompresji. Uznałem za konieczne napisanie o tym, że podczas kompresji należy zwracać uwagę na wszystkie dźwięki i wszystkie części na wszystkich etapach tworzenia kompozycji. Tylko w ten sposób ostatecznie uzyskasz harmonijny wynik, nie tylko z punktu widzenia teorii muzyki, ale także z punktu widzenia inżynierii dźwięku.

W dalszej części tabeli podano praktyczne porady przetwarzanie poszczególnych partii. Jednak w przypadku kompresji liczby i ustawienia wstępne mogą jedynie sugerować żądany obszar wyszukiwania. Idealne ustawienia kompresji zależą od indywidualnego przypadku. Parametry Gain i Threshold zakładają normalny poziom dźwięku (logiczne wykorzystanie całego zakresu).

Część trzecia - Opcje kompresji

Szybkie odniesienie:

Próg - określa poziom dźwięku przychodzącego sygnału, po osiągnięciu którego kompresor zaczyna pracować.

Attack (Attack) - określa czas, po którym kompresor zacznie działać.

Poziom (stosunek) - określa stopień redukcji wartości amplitudy (w stosunku do pierwotnej wartości amplitudy).

Zwolnienie (zwolnienie) - określa czas, po którym sprężarka przestanie działać.

Wzmocnienie – Określa, jak bardzo sygnał wejściowy zostanie wzmocniony po przetworzeniu przez kompresor.

Tabela kompresji:

Narzędzie Próg atak Stosunek Uwolnienie Osiągać Opis
wokale 0 dB 1-2ms

2-5ms

10 ms

0,1 ms

0,1 ms

mniej niż 4:1

2,5: 1

4:1 – 12:1

2:1 -8:1

150ms

50-100ms

150 ms

150ms

0,5s

Kompresja podczas nagrywania powinna być minimalna, wymaga to obowiązkowego przetwarzania na etapie miksowania, aby było jasne i zrozumiałe.
instrumenty dęte 1-5ms 6:1 – 15:1 0.3s
Beczka 10 do 50 ms

10-100ms

4:1 i więcej

10:1

50-100ms

1ms

Im niższy próg i im większy współczynnik i im dłuższy atak, tym wyraźniejszy klik na początku kopnięcia.
Syntezatory Zależy od typu fali (obwiednie ADSR).
Bęben roboczy: 10-40 ms

1-5ms

5:1

5:1 – 10:1

50ms

0,2s

Hi-hat 20ms 10:1 1ms
Mikrofony napowietrzne 2-5ms 5:1 1-50ms
bębny 5ms 5:1 – 8:1 10ms
Gitara basowa 100-200ms

4ms do 10ms

5:1 1ms

10ms

Smyczki 0-40ms 3:1 500ms
Syntezator. gitara basowa 4ms-10ms 4:1 10ms Zależy od kopert.
Perkusja 0-20ms 10:1 50ms
Gitara akustyczna, fortepian 10-30 ms

5 - 10ms

4:1

5:1 -10:1

50-100ms

0,5s

Elektronitara 2-5ms 8:1 0,5s
Końcowa kompresja 0,1 ms

0,1 ms

2:1

2:1 do 3:1

50ms

0,1 ms

Wyjście 0 dB Czas ataku zależy od celu - czy usunąć szczyty, czy wygładzić tor.
Limiter po końcowej kompresji 0 mS 10:1 10-50ms Wyjście 0 dB Jeśli potrzebujesz wąskiego zakresu dynamiki i surowego „cięcia” fal.

Informacje zostały zaczerpnięte z różnych źródeł, do których odwołują się popularne zasoby w Internecie. Różnicę w parametrach kompresji tłumaczy się różnicą w preferencjach brzmieniowych i pracy z innym materiałem.

Osoby zafascynowane domowym dźwiękiem wykazują ciekawy paradoks. Gotowi są odśnieżać pokój odsłuchowy, budować głośniki z egzotycznymi kaloryferami, ale w zakłopotaniu cofają się przed muzyczną puszką, jak wilk przed czerwoną flagą. Ale w rzeczywistości, dlaczego nie możesz stanąć w obronie flagi i spróbować ugotować coś bardziej jadalnego z konserw?

Od czasu do czasu na forum pojawiają się żałosne pytania: „Poleć dobrze nagrane albumy”. To jest niezrozumiałe. Choć specjalne audiofilskie wydania cieszą ucho od pierwszej minuty, nikt ich nie słucha do końca, repertuar jest boleśnie nudny. Jeśli chodzi o resztę muzycznej biblioteki, problem wydaje się oczywisty. Możesz zaoszczędzić lub nie możesz zaoszczędzić i puchnąć dużo pieniędzy na komponenty. Mimo to niewiele osób lubi słuchać swojej ulubionej muzyki na wysoka głośność a możliwości wzmacniacza nie mają z tym nic wspólnego.

Dziś, nawet w albumach Hi-Res, szczyty fonogramu są obcinane, a głośność jest przesterowana. Uważa się, że większość słucha muzyki na wszelkiego rodzaju śmieciach, dlatego konieczne jest „włączenie gazu”, dokonanie pewnego rodzaju cienkiej kompensacji.


Oczywiście nie robi się tego celowo, aby zdenerwować audiofilów. Niewiele osób w ogóle je pamięta. Zgadywali tylko, że dadzą im pliki wzorcowe, z których kopiowany jest główny obieg - płyty CD, MP3 i tak dalej. Oczywiście master już dawno został spłaszczony przez kompresor, nikt celowo nie przygotuje specjalnych wersji dla HD Tracks. Chyba, że ​​w przypadku nośnika winylowego stosuje się pewną procedurę, która z tego powodu brzmi bardziej humanitarnie. A w torze cyfrowym wszystko kończy się tak samo – z dużym, grubym kompresorem.

Tak więc obecnie wszystkie 100% wydanych fonogramów, z wyjątkiem muzyki klasycznej, poddawane jest podczas masteringu kompresji. Ktoś wykonuje tę procedurę mniej lub bardziej umiejętnie, a ktoś jest kompletnie głupi. W efekcie na forach mamy pielgrzymów z linią wtyczek DR na łonie, bolesne porównania wydań, lot na winyl, gdzie też trzeba kopać pierwsze wydania.

Najbardziej odmrożeni na widok tych wszystkich oburzenia dosłownie zamienili się w audio satanistów. Nie żartuj, czytają od tyłu święte pismo inżyniera dźwięku! Nowoczesne programy do edycji dźwięku mają narzędzie do przywracania obciętej fali dźwiękowej.

Początkowo funkcjonalność ta była przeznaczona dla studiów. Podczas miksowania zdarzają się sytuacje, gdy clipping trafia na płytę i z wielu powodów nie jest już możliwe przerobienie sesji, a tu na ratunek przychodzi arsenał edytora audio – declipper, dekompresor itp.

A teraz zwykli słuchacze, którzy krwawią z uszu po kolejnej nowości, coraz śmielej ściągają ręce do takiego oprogramowania. Ktoś woli iZotope, ktoś woli Adobe Audition, ktoś dzieli operacje między kilka programów. Celem przywrócenia poprzedniej dynamiki jest programowa korekcja obciętych szczytów sygnału, które przy 0 dB przypominają bieg.

Tak, nie ma mowy o 100% odrodzeniu kodu źródłowego, ponieważ istnieją procesy interpolacji przy użyciu algorytmów raczej spekulacyjnych. Jednak niektóre wyniki przetwarzania wydawały mi się interesujące i warte przestudiowania.

Na przykład album Lany Del Rey „Lust For Life”, stale brudne przekleństwa, ugh, mastering! Oryginalna piosenka „When the World Was at War We Kept Dancing” była taka.


A po serii dekliperów i dekompresorów stało się tak. Współczynnik DR zmienił się z 5 na 9. Możesz pobrać i odsłuchać próbkę przed i po przetworzeniu.


Nie mogę powiedzieć, że metoda jest uniwersalna i odpowiednia dla wszystkich zrujnowanych albumów, ale w tym przypadku wolałem zachować w kolekcji tę konkretną wersję, przetworzoną przez aktywistę rutrackera, zamiast oficjalnej 24-bitowej edycji.

Nawet jeśli sztuczne wydobywanie szczytów z mięsa mielonego nie przywróci prawdziwej dynamiki muzycznego występu, Twój DAC nadal będzie Ci wdzięczny. W końcu tak trudno było mu pracować bez błędów na poziomach granicznych, gdzie prawdopodobieństwo wystąpienia tzw. szczytów międzypróbkowych (ISP) jest wysokie. A teraz tylko rzadkie błyski sygnału skoczą do 0 dB. Ponadto wyciszona ścieżka dźwiękowa po skompresowaniu do formatu FLAC lub innego bezstratnego kodeka będzie teraz miała mniejszy rozmiar. Więcej „powietrza” w sygnale oszczędza miejsce na dysku twardym.

Spróbuj wskrzesić swoje najbardziej znienawidzone albumy zabite w „wojnie woluminów”. Aby uzyskać zapas zapasu, najpierw musisz obniżyć poziom toru o -6 dB, a następnie uruchomić odcinacz. Ci, którzy nie wierzą w komputery, mogą po prostu wsadzić studyjny ekspander między odtwarzacz CD a wzmacniacz. To urządzenie zasadniczo robi to samo - przywraca i rozciąga szczyty skompresowanego sygnału audio tak bardzo, jak to możliwe. Takie urządzenia z lat 80-90 nie są bardzo drogie i jako eksperyment będzie bardzo ciekawie je wypróbować.


Kontroler zakresu dynamiki DBX 3BX przetwarza sygnał oddzielnie w trzech pasmach - basie, średnicy i górze

Kiedyś korektory były w systemie audio rzeczą oczywistą i nikt się ich nie bał. Dziś nie jest wymagane niwelowanie blokady wysokie częstotliwości taśma magnetyczna, ale z tą brzydką dynamiką coś trzeba rozwiązać, bracia.

W czasach, gdy badacze dopiero zaczynali rozwiązywać problem tworzenia interfejsu głosowego dla komputerów, często musieli tworzyć własny sprzęt, który pozwala wprowadzać informacje dźwiękowe do komputera, a także wyprowadzać je z komputera. Dziś takie urządzenia mogą być interesujące tylko z historii, ponieważ współczesne komputery można łatwo wyposażyć w urządzenia wejścia i wyjścia dźwięku, takie jak adaptery dźwięku, mikrofony, słuchawki i głośniki.

Nie będziemy wchodzić w szczegóły wewnętrznej struktury tych urządzeń, ale porozmawiamy o tym, jak działają, i przedstawimy kilka zaleceń dotyczących wyboru dźwiękowych urządzeń komputerowych do pracy z systemami rozpoznawania i syntezy mowy.

Jak powiedzieliśmy w poprzednim rozdziale, dźwięk to nic innego jak wibracje powietrza, których częstotliwość mieści się w zakresie częstotliwości odbieranych przez człowieka. U różnych osób dokładne granice zakresu słyszalnych częstotliwości mogą się różnić, ale uważa się, że drgania dźwięku leżą w zakresie 16-20 000 Hz.

Zadaniem mikrofonu jest przekształcanie wibracji dźwięku w wibracje elektryczne, które można następnie wzmacniać, filtrować w celu usunięcia zakłóceń i przetwarzać na postać cyfrową. informacja dźwiękowa do komputera.

Zgodnie z zasadą działania najpopularniejsze mikrofony dzielą się na węglowe, elektrodynamiczne, pojemnościowe i elektretowe. Niektóre z tych mikrofonów wymagają do działania zewnętrznego źródła prądu (np. węglowego i kondensatorowego), inne zaś pod wpływem drgań dźwięku potrafią samodzielnie generować prąd przemienny. napięcie elektryczne(są to mikrofony elektrodynamiczne i elektretowe).

Możesz także rozdzielać mikrofony według celu. Są mikrofony studyjne, które można trzymać w dłoni lub zamontować na statywie, są mikrofony radiowe, które można przypiąć do ubrania i tak dalej.

Istnieją również mikrofony zaprojektowane specjalnie dla komputerów. Mikrofony te są zwykle montowane na statywie umieszczonym na powierzchni stołu. Mikrofony komputerowe można łączyć ze słuchawkami, jak pokazano na ryc. 2-1.

Ryż. 2-1. Słuchawki nagłowne z mikrofonem

Jak wybrać z całej gamy mikrofonów ten, który najlepiej nadaje się do systemów rozpoznawania mowy?

Zasadniczo możesz poeksperymentować z dowolnym posiadanym mikrofonem, o ile można go podłączyć do adaptera audio komputera. Jednak twórcy systemów rozpoznawania mowy zalecają zakup mikrofonu, który podczas pracy będzie znajdował się w stałej odległości od ust mówiącego.

Jeśli odległość między mikrofonem a ustami się nie zmienia, to średni poziom sygnał elektryczny dochodzące z mikrofonu również nie zmienią się zbytnio. Wpłynie to pozytywnie na jakość nowoczesnych systemów rozpoznawania mowy.

Jaki jest tutaj problem?

Osoba jest w stanie z powodzeniem rozpoznawać mowę, której głośność zmienia się w bardzo szerokim zakresie. Ludzki mózg jest w stanie odfiltrować cichą mowę z hałasu, takiego jak hałas samochodów jadących ulicą, obce rozmowy i muzyka.

Jeśli chodzi o nowoczesne systemy rozpoznawania mowy, ich możliwości w tym zakresie pozostawiają wiele do życzenia. Jeśli mikrofon stoi na stole, to gdy odwrócisz głowę lub zmienisz pozycję ciała, zmieni się odległość między ustami a mikrofonem. Zmieni to poziom wyjściowy mikrofonu, co z kolei obniży niezawodność rozpoznawania mowy.

Dlatego podczas pracy z systemami rozpoznawania mowy najlepsze efekty osiągniemy, jeśli użyjemy mikrofonu dołączonego do słuchawek, jak pokazano na ryc. 2-1. Podczas korzystania z takiego mikrofonu odległość między ustami a mikrofonem będzie stała.

Zwracamy również uwagę na fakt, że wszelkie eksperymenty z systemami rozpoznawania mowy najlepiej przeprowadzać w odosobnieniu, w cichym pokoju. W takim przypadku wpływ zakłóceń będzie minimalny. Oczywiście, jeśli trzeba wybrać system rozpoznawania mowy, który może działać w warunkach silnych zakłóceń, to testy trzeba wykonać inaczej. Jednak z tego, co wiedzą autorzy książki, odporność na zakłócenia systemów rozpoznawania mowy jest nadal bardzo, bardzo niska.

Mikrofon dokonuje dla nas transformacji drgań dźwiękowych na wibracje. prąd elektryczny. Te wahania można zobaczyć na ekranie oscyloskopu, ale nie spiesz się do sklepu, aby kupić to drogie urządzenie. Wszystkie badania oscylograficzne możemy przeprowadzić przy użyciu konwencjonalnego komputera wyposażonego w adapter dźwięku, np. adapter Sound Blaster. Później powiemy Ci, jak to zrobić.

Na ryc. 2-2 pokazaliśmy przebieg sygnał dźwiękowy, wynikające z wymowy długiego dźwięku a. Ten przebieg został uzyskany przy użyciu programu GoldWave, który omówimy w dalszej części książki, a także przy użyciu adaptera audio Sound Blaster i mikrofonu podobnego do pokazanego na ryc. 2-1.

Ryż. 2-2. Oscylogram sygnału audio

Program GoldWave pozwala na rozciągnięcie przebiegu wzdłuż osi czasu, co pozwala zobaczyć najdrobniejsze szczegóły. Na ryc. 2-3 pokazaliśmy rozciągnięty fragment oscylogramu dźwięku, o którym mowa powyżej.

Ryż. 2-3. Fragment oscylogramu sygnału audio

Zauważ, że wielkość sygnału wejściowego z mikrofonu zmienia się okresowo i przyjmuje zarówno wartości dodatnie, jak i ujemne.

Gdyby w sygnale wejściowym występowała tylko jedna częstotliwość (to znaczy, gdyby dźwięk był „czysty”), przebieg odbierany z mikrofonu byłby sinusoidalny. Jednak, jak już powiedzieliśmy, widmo dźwięków mowy ludzkiej składa się z zestawu częstotliwości, w wyniku czego kształt oscylogramu sygnału mowy jest daleki od sinusoidalnego.

Sygnał, którego wielkość zmienia się w sposób ciągły w czasie, nazwiemy sygnał analogowy. To jest sygnał pochodzący z mikrofonu. W przeciwieństwie do sygnału analogowego, sygnał cyfrowy to zestaw wartości liczbowych, które zmieniają się dyskretnie w czasie.

Aby komputer mógł przetworzyć sygnał audio, musi on zostać przekonwertowany z postaci analogowej na cyfrową, czyli przedstawiony jako zbiór wartości liczbowych. Proces ten nazywa się cyfryzacją analogową.

Digitalizacja sygnału audio (i dowolnego analogowego) odbywa się za pomocą specjalnego urządzenia zwanego Analogowy do cyfrowego konwertera ADC (przetwornik analogowo-cyfrowy, ADC). To urządzenie znajduje się na płytce adaptera dźwięku i jest zwyczajnie wyglądającym mikroukładem.

Jak działa konwerter analogowo-cyfrowy?

Okresowo mierzy poziom sygnału wejściowego i wyprowadza na wyjście wartość liczbową wyniku pomiaru. Proces ten ilustruje ryc. 2-4. Tutaj z prostokątami szary kolor zaznaczone są wartości sygnału wejściowego mierzone w pewnym stałym przedziale czasu. Zbiór takich wartości jest cyfrową reprezentacją wejściowego sygnału analogowego.

Ryż. 2-4. Pomiary zależności amplitudy sygnału od czasu

Na ryc. Na rysunku 2-5 pokazaliśmy podłączenie przetwornika analogowo-cyfrowego do mikrofonu. W takim przypadku sygnał analogowy jest podawany na wejście x 1, a sygnał cyfrowy jest usuwany z wyjść u 1 -u n.

Ryż. 2-5. Analogowy do cyfrowego konwertera

Przetworniki analogowo-cyfrowe charakteryzują się dwoma ważnymi parametrami - częstotliwością konwersji oraz liczbą poziomów kwantyzacji sygnału wejściowego. Właściwy dobór tych parametrów ma kluczowe znaczenie dla uzyskania odpowiedniej cyfryzacji sygnału analogowego.

Jak często trzeba mierzyć wartość amplitudy wejściowego sygnału analogowego, aby informacja o zmianach wejściowego sygnału analogowego nie została utracona w wyniku cyfryzacji?

Wydawałoby się, że odpowiedź jest prosta – sygnał wejściowy należy mierzyć jak najczęściej. Rzeczywiście, im częściej przetwornik analogowo-cyfrowy dokonuje takich pomiarów, tym lepiej będzie śledzić najmniejsze zmiany amplitudy analogowego sygnału wejściowego.

Jednak zbyt częste pomiary mogą prowadzić do nieuzasadnionego wzrostu przepływu danych cyfrowych i marnowania zasobów komputerowych w przetwarzaniu sygnałów.

Na szczęście wybór odpowiedniego współczynnika konwersji (współczynnika próbkowania) jest dość łatwy. Aby to zrobić, wystarczy odwołać się do twierdzenia Kotelnikowa, znanego specjalistom w dziedzinie cyfrowego przetwarzania sygnałów. Twierdzenie to mówi, że częstotliwość konwersji musi być dwukrotnością maksymalnej częstotliwości widma konwertowanego sygnału. Dlatego, aby zdigitalizować bez utraty jakości sygnału audio, którego częstotliwość mieści się w zakresie 16-20 000 Hz, należy wybrać częstotliwość konwersji nie mniejszą niż 40 000 Hz.

Należy jednak pamiętać, że w profesjonalnym sprzęcie audio częstotliwość konwersji jest wybierana kilkakrotnie powyżej podanej wartości. Odbywa się to w celu uzyskania cyfrowego dźwięku o bardzo wysokiej jakości. W przypadku systemów rozpoznawania mowy ta jakość nie ma znaczenia, więc nie będziemy zwracać Twojej uwagi na ten wybór.

A jaka częstotliwość konwersji jest potrzebna do digitalizacji dźwięku ludzkiej mowy?

Ponieważ dźwięki mowy ludzkiej leżą w zakresie częstotliwości 300-4000 Hz, minimalna wymagana częstotliwość konwersji wynosi 8000 Hz. Jednakże wiele programy komputerowe Rozpoznawanie mowy wykorzystuje standardową częstotliwość konwersji 44 000 Hz dla konwencjonalnych adapterów audio. Taki współczynnik konwersji z jednej strony nie prowadzi do nadmiernego wzrostu strumienia danych cyfrowych, a z drugiej zapewnia odpowiednią jakość digitalizacji mowy.

W szkole uczono nas, że przy każdym pomiarze pojawiają się błędy, których nie można całkowicie wyeliminować. Błędy takie wynikają z ograniczonej rozdzielczości przyrządów pomiarowych, a także z tego, że sam proces pomiarowy może wprowadzać pewne zmiany wartości mierzonej.

Przetwornik analogowo-cyfrowy przedstawia wejściowy sygnał analogowy jako strumień liczb o ograniczonej pojemności. Konwencjonalne adaptery audio zawierają 16-bitowe bloki ADC zdolne do reprezentowania amplitudy sygnału wejściowego jako 216 = 65536 różnych wartości. Urządzenia ADC w sprzęcie audio wysokiej klasy może być 20-bitowy, zapewniając dokładniejszą reprezentację amplitudy sygnału audio.

Nowoczesne systemy i programy rozpoznawania mowy zostały stworzone dla zwykłych komputerów wyposażonych w zwykłe adaptery dźwięku. Dlatego, aby przeprowadzać eksperymenty z rozpoznawaniem mowy, nie musisz kupować profesjonalnego adaptera audio. Adapter taki jak Sound Blaster doskonale nadaje się do digitalizacji mowy w celu dalszego rozpoznawania.

Wraz z użytecznym sygnałem do mikrofonu zwykle wchodzą różne odgłosy - hałas z ulicy, szum wiatru, obce rozmowy itp. Hałas ma negatywny wpływ na jakość systemów rozpoznawania mowy, dlatego należy się nim zająć. Jednym ze sposobów, o których już wspomnieliśmy, jest to, że dzisiejsze systemy rozpoznawania mowy najlepiej sprawdzają się w cichym pomieszczeniu, pozostając sam na sam z komputerem.

Jednak nie zawsze da się stworzyć idealne warunki, więc trzeba to wykorzystać metody specjalne pozbyć się zakłóceń. Aby zmniejszyć poziom hałasu, przy projektowaniu mikrofonów stosuje się specjalne sztuczki i specjalne filtry, które usuwają częstotliwości z widma sygnału analogowego, które nie przenoszą przydatna informacja. Ponadto stosowana jest taka technika, jak kompresja zakresu dynamicznego poziomów sygnału wejściowego.

Porozmawiajmy o tym wszystkim w kolejności.

filtr częstotliwości Nazywa się urządzenie, które przekształca widmo częstotliwości sygnału analogowego. W tym przypadku w procesie transformacji następuje selekcja (lub pochłanianie) oscylacji określonych częstotliwości.

Możesz myśleć o tym urządzeniu jako o rodzaju czarnej skrzynki z jednym wejściem i jednym wyjściem. W stosunku do naszej sytuacji do wejścia filtra częstotliwości zostanie podłączony mikrofon, a do wyjścia przetwornik analogowo-cyfrowy.

Filtry częstotliwości są różne:

filtry dolnoprzepustowe;

Filtry górnoprzepustowe

Przepuszczanie filtrów pasmowych

blokowanie filtrów pasmowych.

Filtry dolnoprzepustowe(filtr dolnoprzepustowy) usuwa z widma sygnału wejściowego wszystkie częstotliwości, których wartości są poniżej określonej częstotliwości progowej, w zależności od ustawienia filtra.

Ponieważ sygnały audio mieszczą się w zakresie 16-20 000 Hz, wszystkie częstotliwości poniżej 16 Hz można odciąć bez pogorszenia jakości dźwięku. W przypadku rozpoznawania mowy ważny jest zakres częstotliwości 300-4000 Hz, więc częstotliwości poniżej 300 Hz można wyciąć. W takim przypadku wszelkie szumy, których widmo częstotliwości leży poniżej 300 Hz, zostaną odcięte od sygnału wejściowego i nie będą zakłócać procesu rozpoznawania mowy.

Podobnie, filtry górnoprzepustowe(filtr górnoprzepustowy) wycina z widma sygnału wejściowego wszystkie częstotliwości powyżej określonej częstotliwości progowej.

Ludzie nie słyszą dźwięków o częstotliwości 20 000 Hz lub wyższej, więc można je wyciąć z widma bez zauważalnego pogorszenia jakości dźwięku. W przypadku rozpoznawania mowy można wyciąć wszystkie częstotliwości powyżej 4000 Hz, co doprowadzi do znacznego obniżenia poziomu zakłóceń wysokoczęstotliwościowych.

Filtr pasmowy(filtr pasmowy) można traktować jako połączenie filtra dolnoprzepustowego i filtra górnoprzepustowego. Taki filtr zatrzymuje wszystkie częstotliwości poniżej tzw częstotliwość dolnego przejścia, jak również powyżej górna częstotliwość przepustowa.

Tak więc dla systemu rozpoznawania mowy wygodny jest filtr pasmowoprzepustowy, który opóźnia wszystkie częstotliwości, z wyjątkiem częstotliwości z zakresu 300-4000 Hz.

Jeśli chodzi o filtry pasmowe (filtr pasmowy), pozwalają one wyciąć z widma sygnału wejściowego wszystkie częstotliwości, które leżą w danym zakresie. Taki filtr jest wygodny na przykład do tłumienia szumu, który zajmuje pewną ciągłą część widma sygnału.

Na ryc. 2-6 pokazaliśmy podłączenie filtra przelotowego.

Ryż. 2-6. Filtrowanie sygnału audio przed digitalizacją

Muszę powiedzieć, że zwykłe adaptery dźwiękowe instalowane w komputerze mają filtr pasmowy, przez który przechodzi sygnał analogowy przed cyfryzacją. Szerokość pasma takiego filtra odpowiada zwykle zakresowi sygnałów audio, czyli 16-20 000 Hz (w różnych adapterach audio wartości górnych i dolnych częstotliwości mogą się nieznacznie różnić).

Ale jak osiągnąć węższe pasmo 300-4000 Hz, odpowiadające najbardziej informacyjnej części spektrum mowy ludzkiej?

Oczywiście, jeśli masz upodobanie do projektowania sprzętu elektronicznego, możesz zrobić swój własny filtr z układu wzmacniacza operacyjnego, rezystorów i kondensatorów. Tak właśnie zrobili pierwsi twórcy systemów rozpoznawania mowy.

Jednak przemysłowe systemy rozpoznawania mowy muszą być zdolne do pracy na standardowym sprzęcie komputerowym, więc sposób wytwarzania specjalnego filtra pasmowoprzepustowego nie jest tutaj odpowiedni.

Zamiast tego w nowoczesne systemy przetwarzanie mowy wykorzystuje tzw cyfrowe filtry częstotliwości zaimplementowane w oprogramowaniu. Stało się to możliwe po procesor komputer stał się wystarczająco potężny.

Cyfrowy filtr częstotliwości zaimplementowany w oprogramowaniu przekształca wejściowy sygnał cyfrowy na wyjściowy sygnał cyfrowy. Podczas procesu konwersji program w szczególny sposób przetwarza strumień wartości liczbowych amplitudy sygnału pochodzącego z przetwornika analogowo-cyfrowego. Wynikiem konwersji będzie również strumień liczb, ale ten strumień będzie odpowiadał już przefiltrowanemu sygnałowi.

Mówiąc o przetworniku analogowo-cyfrowym, zauważyliśmy takie ważna cecha, jako liczba poziomów kwantyzacji. Jeśli w adapterze audio jest zainstalowany 16-bitowy przetwornik analogowo-cyfrowy, to po digitalizacji poziomy sygnału audio mogą być reprezentowane jako 216 = 65536 różnych wartości.

Jeśli jest kilka poziomów kwantyzacji, to tzw szum kwantyzacji. Aby zredukować ten szum, wysokiej jakości systemy cyfryzacji dźwięku powinny używać przetworników analogowo-cyfrowych z maksymalną dostępną liczbą poziomów kwantyzacji.

Jest jednak jeszcze jedna sztuczka, która zmniejsza wpływ szumu kwantyzacji na jakość sygnału audio, który jest używany w systemach cyfrowego nagrywania dźwięku. Stosując tę ​​technikę, sygnał jest przepuszczany przez nieliniowy wzmacniacz przed digitalizacją, która uwydatnia sygnały o małej amplitudzie sygnału. Takie urządzenie wzmacnia słabe sygnały bardziej niż silne.

Ilustruje to wykres amplitudy sygnału wyjściowego w funkcji amplitudy sygnału wejściowego pokazany na ryc. 2-7.

Ryż. 2-7. Wzmocnienie nieliniowe przed digitalizacją

Na etapie konwersji zdigitalizowanego dźwięku z powrotem na analogowy (który omówimy w dalszej części tego rozdziału), sygnał analogowy jest ponownie przepuszczany przez nieliniowy wzmacniacz, zanim zostanie wyprowadzony do głośników. Tym razem zastosowano inny wzmacniacz, który uwydatnia sygnały o dużej amplitudzie i ma odwrotną charakterystykę przenoszenia (zależność amplitudy sygnału wyjściowego od amplitudy sygnału wejściowego) niż przy digitalizacji.

Jak to wszystko może pomóc twórcom systemów rozpoznawania mowy?

Jak wiesz, osoba całkiem dobrze radzi sobie z rozpoznawaniem mowy wypowiadanej niskim szeptem lub dość głośnym głosem. Można powiedzieć, że dynamiczny zakres poziomów głośności pomyślnie rozpoznanej mowy dla osoby jest dość szeroki.

Dzisiejsze systemy komputerowe Rozpoznawanie mowy niestety nie może się jeszcze tym pochwalić. Aby jednak nieco rozszerzyć określony zakres dynamiki przed cyfryzacją, możliwe jest przepuszczenie sygnału z mikrofonu przez nieliniowy wzmacniacz, którego charakterystykę przenoszenia pokazano na ryc. 2-7. Zmniejszy to poziom szumu kwantyzacji podczas digitalizacji słabych sygnałów.

Twórcy systemów rozpoznawania mowy ponownie zmuszeni są skupić się przede wszystkim na dostępnych na rynku adapterach dźwięku. Nie zapewniają one opisanej powyżej nieliniowej konwersji sygnału.

Możliwe jest jednak stworzenie programowego odpowiednika nieliniowego wzmacniacza, który konwertuje zdigitalizowany sygnał przed przekazaniem go do modułu rozpoznawania mowy. I chociaż taki wzmacniacz programowy nie będzie w stanie zredukować szumu kwantyzacji, można go wykorzystać do podkreślenia tych poziomów sygnału, które przenoszą najwięcej informacji mowy. Na przykład możesz zmniejszyć amplitudę słabych sygnałów, pozbywając się w ten sposób sygnału szumu.

Kompresja dynamiczna(Kompresja dynamiki, DRC) - zawężenie (lub rozszerzenie w przypadku ekspandera) zakresu dynamiki fonogramu. Zakres dynamiczny, to różnica między najcichszym a najgłośniejszym dźwiękiem. Czasami najcichszy dźwięk na fonogramie będzie nieco głośniejszy niż poziom hałasu, a czasami nieco cichszy niż najgłośniejszy. Urządzenia sprzętowe i programy wykonujące kompresję dynamiczną nazywane są kompresorami, wyróżniając wśród nich cztery główne grupy: same kompresory, limitery, ekspandery i bramki.

Kompresor lampowy analogowy DBX 566

Kompresja w dół i w górę

dolna kompresja(Kompresja w dół) zmniejsza głośność dźwięku, gdy przekracza określony próg, pozostawiając cichsze dźwięki bez zmian. Ekstremalna wersja kompresji to ogranicznik. Kompresja w górę(Kompresja w górę), wręcz przeciwnie, zwiększa głośność dźwięku, jeśli jest on poniżej wartości progowej, bez wpływu na głośniejsze dźwięki. Jednocześnie oba rodzaje kompresji zawężają zakres dynamiczny sygnału audio.

dolna kompresja

Kompresja w górę

Ekspander i bramka

Jeśli kompresor zmniejsza zakres dynamiki, ekspander go zwiększa. Gdy poziom sygnału przekroczy poziom progowy, ekspander zwiększa go jeszcze bardziej, zwiększając w ten sposób różnicę między dźwiękami głośnymi i cichymi. Takie urządzenia są często używane podczas nagrywania zestawu perkusyjnego, aby oddzielić dźwięki jednego bębna od drugiego.

Rodzaj ekspandera, który nie służy do wzmacniania głośności, ale do tłumienia ciche dźwięki nieprzekraczanie poziomu progowego (np. szum) jest nazywany bramka szumów. W takim urządzeniu, gdy tylko poziom dźwięku spadnie poniżej progu, sygnał przestaje mijać. Zazwyczaj bramka służy do tłumienia szumów w przerwach. W niektórych modelach możesz upewnić się, że dźwięk nie zatrzymuje się nagle po osiągnięciu poziomu progowego, ale stopniowo zanika. W takim przypadku szybkość zaniku jest ustawiana przez kontrolkę Decay.

Brama, podobnie jak inne rodzaje sprężarek, może być zależny od częstotliwości(tj. traktować określone pasma częstotliwości inaczej) i może działać w łańcuch boczny(patrz poniżej).

Zasada działania sprężarki

Sygnał wchodzący do kompresora jest dzielony na dwie kopie. Jedna kopia jest wysyłana do wzmacniacza, w którym wzmocnienie jest kontrolowane przez sygnał zewnętrzny, druga kopia tworzy ten sygnał. Wchodzi do urządzenia zwanego łańcuchem bocznym, w którym mierzony jest sygnał i na podstawie tych danych tworzona jest obwiednia, która opisuje zmianę jego objętości.
Tak układa się większość nowoczesnych sprężarek, jest to tzw. typ feed-forward. W starszych urządzeniach (typu sprzężenia zwrotnego) poziom sygnału mierzony jest za wzmacniaczem.

Istnieją różne analogowe technologie kontrolowanego wzmocnienia (wzmocnienie o zmiennym wzmocnieniu), każda ma swoje zalety i wady: lampowa, optyczna z wykorzystaniem fotorezystorów i tranzystorów. Podczas pracy z dźwiękiem cyfrowym (w edytorze dźwięku lub DAW) można stosować zastrzeżone algorytmy matematyczne lub emulować technologie analogowe.

Główne parametry sprężarek

Próg

Kompresor obniża poziom sygnału audio, jeśli jego amplituda przekracza określoną wartość progową (próg). Zazwyczaj określa się go w decybelach, przy niższym progu (np. -60 dB), co oznacza, że ​​zostanie przetworzonych więcej dźwięku niż wyższy próg (np. -5 dB).

Stosunek

Wielkość redukcji poziomu jest określona przez parametr ratio: stosunek 4:1 oznacza, że ​​jeśli poziom wejściowy jest o 4 dB powyżej progu, poziom wyjściowy będzie o 1 dB powyżej progu.
Na przykład:
Próg = -10dB
Sygnał wejściowy = -6 dB (4 dB powyżej progu)
Sygnał wyjściowy = -9 dB (1 dB powyżej progu)

Należy pamiętać, że tłumienie poziomu sygnału trwa jeszcze przez pewien czas po jego spadku poniżej wartości progowej, a czas ten jest określany wartością parametru uwolnienie.

Kompresja o maksymalnym stosunku ∞:1 nazywana jest ograniczaniem. Oznacza to, że każdy sygnał powyżej poziomu progowego jest tłumiony do poziomu progowego (z wyjątkiem krótkiego okresu po nagłym wzroście głośności wejściowej). Zobacz „Limiter” poniżej, aby uzyskać szczegółowe informacje.

Przykłady różnych wartości współczynnika

Atak i uwolnienie

Kompresor zapewnia pewną kontrolę nad tym, jak szybko reaguje na zmianę dynamiki sygnału. Parametr Attack określa czas potrzebny kompresorowi na zmniejszenie wzmocnienia do poziomu określonego przez parametr Ratio. Zwolnienie określa czas potrzebny sprężarce na zwiększenie wzmocnienia lub powrót do stanu normalnego, jeśli poziom wejściowy spadnie poniżej progu.

Fazy ​​ataku i uwolnienia

Parametry te wskazują czas (zwykle w milisekundach) potrzebny do zmiany wzmocnienia o określoną liczbę decybeli, zwykle 10 dB. Na przykład w tym przypadku, jeśli Attack jest ustawiony na 1ms, zajmie 1ms, aby zmniejszyć wzmocnienie o 10dB, a 2ms o 20dB.

W wielu kompresorach parametry Attack i Release można regulować, ale w niektórych są one wstępnie ustawione i nie można ich regulować. Czasami określa się je jako „automatyczne” lub „zależne od programu”, tj. zmienić w zależności od sygnału wejściowego.

Kolano

Inna opcja kompresora: twarde/miękkie kolano. Decyduje o tym, czy rozpoczęcie stosowania kompresji będzie gwałtowne (twarde) czy stopniowe (miękkie). Miękkie kolano zmniejsza widoczność przejścia sygnału od suchego do skompresowanego, szczególnie przy wysokich współczynnikach i nagłym wzroście głośności.

Kompresja twardego kolana i miękkiego kolana

Szczyt i RMS

Kompresor może reagować na wartości szczytowe (krótkotrwałe maksymalne) lub na średni poziom sygnału wejściowego. Stosowanie wartości szczytowych może prowadzić do dużych wahań stopnia kompresji, a nawet zniekształceń. Dlatego sprężarki stosują funkcję uśredniania (zwykle RMS) sygnału wejściowego przy porównywaniu go z wartością progową. Daje to bardziej komfortową kompresję, która jest bliższa ludzkiej percepcji głośności.

RMS to parametr, który odzwierciedla średnią głośność fonogramu. Z matematycznego punktu widzenia RMS (Root Mean Square) jest średnią kwadratową wartością amplitudy pewnej liczby próbek:

łączenie stereo

Kompresor w trybie łączenia stereo stosuje to samo wzmocnienie do obu kanałów stereo. Pozwala to uniknąć przesunięcia panoramy stereo, które może wynikać z indywidualnego przetwarzania lewego i prawego kanału. Takie przesunięcie występuje, gdy na przykład jakiś głośny element zostanie przesunięty poza środek.

przyrost makijażu

Gdy sprężarka zmniejsza się poziom ogólny sygnału zwykle dodaje się możliwość stałego wzmocnienia na wyjściu, co pozwala uzyskać optymalny poziom.

Patrz przed siebie

Funkcja antycypowania ma na celu rozwiązanie problemów związanych zarówno ze zbyt dużymi, jak i zbyt małymi wartościami Attack i Release. Zbyt długi czas ataku nie pozwala na skuteczne przechwytywanie transjentów, a zbyt krótki czas ataku może nie być wygodny dla słuchacza. Podczas korzystania z funkcji antycypowania główny sygnał jest opóźniony w stosunku do sygnału kontrolnego, co pozwala na rozpoczęcie kompresji z wyprzedzeniem, nawet zanim sygnał osiągnie wartość progową.
Jedyną wadą tej metody jest opóźnienie czasowe sygnału, co w niektórych przypadkach jest niepożądane.

Korzystanie z kompresji dynamicznej

Kompresja jest stosowana wszędzie, nie tylko w fonogramach muzycznych, ale także wszędzie tam, gdzie konieczne jest zwiększenie ogólnej głośności bez zwiększania poziomów szczytowych, gdzie używany jest niedrogi sprzęt do odtwarzania dźwięku lub ograniczony kanał transmisji (systemy nagłośnienia i łączności, radio amatorskie itp. .) .

Kompresja jest stosowana podczas odtwarzania muzyki w tle (w sklepach, restauracjach itp.), gdzie jakiekolwiek zauważalne zmiany głośności są niepożądane.

Jednak najważniejszym zastosowaniem kompresji dynamicznej jest produkcja i nadawanie muzyki. Kompresja służy do nadania dźwiękowi „grubości” i „drive”, w celu lepszego połączenia instrumentów ze sobą, a zwłaszcza przy przetwarzaniu wokali.

Wokal w muzyce rockowej i popowej jest zwykle kompresowany, aby wyróżnić się z akompaniamentu i dodać wyrazistości. Specjalny rodzaj kompresora, dostrojony tylko do określonych częstotliwości - de-esser, służy do tłumienia syczących fonemów.

W partiach instrumentalnych kompresja jest również stosowana do efektów, które nie są bezpośrednio związane z głośnością, na przykład szybko zanikające dźwięki perkusji mogą stać się dłuższe.

Elektroniczna muzyka taneczna (EDM) często wykorzystuje side-chaining (patrz poniżej) - na przykład linia basu może być napędzana przez kopnięcie lub podobne, aby zapobiec konfliktowi bas/bęben i stworzyć dynamiczną pulsację.

Kompresja jest szeroko stosowana w transmisji (radio, telewizja, Internet) w celu zwiększenia postrzeganej głośności przy jednoczesnym zmniejszeniu zakresu dynamicznego oryginalnego dźwięku (zwykle płyty CD). W większości krajów obowiązują ograniczenia prawne dotyczące chwilowej maksymalnej głośności, jaką można nadawać. Zwykle ograniczenia te są realizowane przez stałe sprężarki sprzętowe w obwodzie napowietrznym. Dodatkowo zwiększenie odczuwanej głośności poprawia „jakość” dźwięku z punktu widzenia większości słuchaczy.

Zobacz też Wojna na głośność.

Sekwencyjne zwiększanie głośności tego samego utworu, zremasterowanego na CD od 1983 do 2000 roku.

łańcuch boczny

Innym powszechnym przełącznikiem sprężarki jest „łańcuch boczny”. W tym trybie dźwięk jest kompresowany nie w zależności od własnego poziomu, ale w zależności od poziomu sygnału dochodzącego do złącza, które zwykle nazywane jest łańcuchem bocznym.

Jest kilka zastosowań tego. Na przykład wokalista sepleni, a wszystkie litery „s” wyróżniają się z ogólnego obrazu. Przepuszczasz jego głos przez kompresor, a ten sam dźwięk jest podawany do gniazda łańcucha bocznego, ale przechodzi przez korektor. Na korektorze usuwasz wszystkie częstotliwości z wyjątkiem tych używanych przez wokalistę podczas wymawiania litery „c”. Zwykle około 5 kHz, ale może wynosić od 3 kHz do 8 kHz. Jeśli następnie przełączysz kompresor w tryb łańcucha bocznego, kompresja głosu nastąpi w tych momentach, w których wymawiana jest litera „s”. W ten sposób uzyskano urządzenie znane jako „de-esser” (de-esser). Ten sposób pracy nazywa się zależnym od częstotliwości.

Innym zastosowaniem tej funkcji jest „kaczka”. Na przykład w stacji radiowej muzyka przechodzi przez kompresor, a słowa DJ-a przechodzą przez łańcuch boczny. Gdy DJ zacznie rozmawiać, głośność muzyki zostanie automatycznie zmniejszona. Efekt ten można z powodzeniem zastosować również w nagraniach, np. w celu zmniejszenia głośności partii klawiszy podczas śpiewania.

ograniczenie muru ceglanego

Kompresor i limiter działają w bardzo podobny sposób, można powiedzieć, że limiter to kompresor o wysokim Ratio (od 10:1) i zazwyczaj krótkim czasie ataku.

Istnieje koncepcja ograniczania muru ceglanego - ograniczania z bardzo wysokim współczynnikiem (od 20:1 wzwyż) i bardzo szybkim atakiem. Idealnie, nie pozwala w ogóle na przekroczenie progu sygnału. Efekt będzie nieprzyjemny dla ucha, ale zapobiegnie uszkodzeniu sprzętu odtwarzającego dźwięk lub przekroczeniu przepustowości kanału. Wielu producentów integruje w swoich urządzeniach limitery właśnie w tym celu.

Maszynka do strzyżenia kontra Limiter, miękkie i twarde strzyżenie

Podobał Ci się artykuł? Podziel się z przyjaciółmi!
Czy ten artykuł był pomocny?
tak
Nie
Dziekuję za odpowiedź!
Coś poszło nie tak i Twój głos nie został policzony.
Dziękuję Ci. Twoja wiadomość została wysłana
Znalazłeś błąd w tekście?
Wybierz, kliknij Ctrl+Enter a my to naprawimy!