piątek, 28 października 2016

Zniekształcenia fazowe

Grafika poniżej ilustruje przesunięcie fazy dwu sinusoid.


Do określenia przesunięcia faz używa się miary kątowej. 

Zniekształcenia fazy są w obszarze sprzętu odtwarzającego dźwięk powodem dużego zamieszania. Dotyczy to rzekomej wrażliwości słuchu na takie zniekształcenia. Nawet istnieje firma produkująca sprzęt, który ma charakteryzować minimalne zaburzenia fazy przetwarzanego sygnału.

Niewrażliwość słuchu na przesunięcie czy zniekształcenie fazy można sprawdzić w prosty sposób używając programowego jej przesuwania. Czyli wystarczy włączyć program, który wprowadzi w kontrolowany sposób przesunięcia fazy do sygnału i można stwierdzić, że się tego nie daje usłyszeć.

Nie może być inaczej niż właśnie tak, że słuch jest zupełnie głuchy na przesunięcia fazy sygnału.


Powyższy schemat pokazuje co się stanie, jeśli doda się dwie sinusoidy, które są względem siebie przesunięte w fazie. W przykładzie są dwie składowe o identycznej częstotliwości, z których druga jest przesunięta względem pierwszej. Po zsumowaniu otrzymuje się sinusoidę o większej amplitudzie i innej fazie niż dwie składowe.

Jest to jedna z wielu opcji. W ogólności może dojść do trzech rodzajów zdarzeń. Jeśli sinusoidy są zgodne w fazie będą się dodawały bez przesunięcia fazy lub znosiły do zera, jeśli będą mieć odwrotną polaryzację. Trzeci przypadek gdy składowe są przesunięte zawsze dojdzie do przesunięcia fazy w sygnale sumy.

W praktyce oznacza to, że słuchając muzyki w pomieszczeniu dochodzi do nieustannej zmiany fazy w słyszanym dźwięku. Nie chodzi tu nawet o to, że źródłem dźwięku jest sprzęt audio. Nawet dźwięk mowy lub instrumentu na żywo będzie słyszany z permanentnymi zniekształceniami fazowymi.

W pomieszczeniach mamy do czynienia z odbiciami. Wobec tego jeśli odbicie nakłada się na dźwięk bezpośredni, dochodzi do zmiany fazy sumy. Jak już zostało powiedziane nie dojdzie do przesunięcia tylko wtedy, kiedy składowe są zgodne w fazie, czyli w znikomym odsetku przypadków. W związku z tym jeśli weźmiemy odbicia zawierające się w przedziale czasu określonym przez RT60, czyli tych odbić może być kilkaset, przesunięcie fazy słyszanego dźwięku, np. pojedynczej nuty, będzie mieć miejsce właśnie kilkaset razy w czasie jej trwania.

Można powiedzieć, że do zniekształceń fazy nie dojdzie tylko wtedy, gdy występuje dźwięk bezpośredni, a więc w początkowym ułamku sekundy. Wobec tego dociera do nas niezniekształcony dźwięk bezpośredni. Niestety tak nie jest.

Gdyby muzyka składała się z pojedynczych dźwięków, przy czym każdy następny byłby zagrany dopiero wtedy, gdy wybrzmi poprzedni i na dodatek mógłby grać tylko jeden instrument i tylko pojedynczą nutę, nigdy akord, a wokalista mógłby śpiewać tylko wtedy, gdy nie gra żaden instrument, można by mówić o niezniekształconym dźwięku bezpośrednim. Skoro jednak muzyka to dźwięki grane akordami przez wiele instrumentów równocześnie nigdy nie będzie w praktyce takiej sytuacji, że jakiś dźwięk dotrze do słuchacza w postaci czystej. Zawsze będzie się nakładał na inne dźwięki, które istnieją w otoczeniu. A skoro tak, zawsze dojdzie do przesunięcia fazy.

Przesunięcie fazy zachodzi wtedy, kiedy nakładają się na siebie dwie lub więcej fal o jednakowej częstotliwości. Jeśli częstotliwości są inne zsumowanie sygnału nie spowoduje przesunięcia faz składowych i suma będzie miała fazę niezmienioną. Ponadto w momencie nałożenia się fal o różnych fazach dochodzi do miany częstotliwości, jednak tylko w jednym cyklu, czyli częstotliwość na jeden okres się zwiększy lub zmniejszy.

Skoro do przesunięcia fazy dochodzi nawet kilkaset razy w czasie trwania dźwięku, w sensie poszczególnej nuty, a ponadto za każdym razem zmienia się na jeden cykl częstotliwość, to te zmiany nie mogą być słyszane, bo wprowadziłyby ogromne zmieszanie. Zupełnie jak to, że nie możemy być wrażliwi na fluktuacje amplitudy. A zamiana amplitudy jest najważniejszym aspektem nakładania się na siebie fal o różnej fazie. Zmiana amplitudy jest zjawiskiem najprostszym do zmierzenia. Zmiana częstotliwości i zmiana fazy jest trudniejsza do pomiaru, ale jak najbardziej możliwa.

Zmiany fazy a także częstotliwości i zwłaszcza głośności są możliwe do wykazania w pomiarze, ale raczej tylko dla sygnałów testowych, czyli sinusoid. W sygnale kompleksowym a zwłaszcza muzycznym pomiar będzie trudny albo nawet niemożliwy. Natomiast usłyszenie tych zmian czy nawet sama chęć ich usłyszenia nie ma sensu.

sobota, 22 października 2016

Zniekształcenia obwiedni/transientu

Kolejnym typem zniekształceń dźwięku, których nie potrafimy usłyszeć pomimo ich dużej skali są zniekształcenia obwiedni w odniesieniu do narastania i zanikania. 

Gdy w idealnych warunkach zostanie odtworzony ton sinusoidalny o stałej głośności, zostanie on zarejestrowany w taki sposób, jak w górnej części rysunku.


W warunkach pomieszczenia zamkniętego, czyli w czymś będącym przeciwieństwem pola swobodnego, sygnał sinusoidalny o stałej amplitudzie - i to jest sednem zagadnienia - który nie ma faz narastania i zanikania, będzie mógł być odebrany tylko w takiej formie, jaką przedstawia dolny wykres.

Zniekształcenie polega na tym, że wystąpią narastanie i zanikanie, których to elementów nie powinno być w ogóle. Narastanie widoczne na schemacie jest również zniekształceniem transientu. Wygasanie, które trwa pewien czas wiąże się z czasem potrzebnym do rozproszenia nagromadzonej energii. Ten aspekt, czyli wygasanie sygnału jest dobrze znany i wiąże się z pogłosem. Słabo znane jest natomiast narastanie sygnału.

Zniekształcenie transientu widoczne na schemacie powstaje wtedy, gdy dźwięk ma częstotliwość jednego z rezonansów pomieszczenia. W tym przypadku nie mówi się o zanikaniu sygnału jako o pogłosie, ale raczej o wygasaniu rezonansu, częstotliwości modalnej, pomieszczenia.

W praktyce słuchając muzyki w pomieszczeniu, które nie ma wytłumionych modów każda częstotliwość dźwięku instrumentów pokrywająca się z modami zostanie zniekształcona w ten sposób, że dźwięk będzie narastał przez pewien czas. Czas narastania dźwięku dla częstotliwości rezonansowych pomieszczenia wynosi pewien ułamek sekundy. W wielu przypadkach może on wynieść np. pół sekundy.

Z występowania tych zniekształceń zdaje sobie sprawę znikomy odsetek słuchaczy. Jeszcze mniej osób jest w stanie je usłyszeć. Dzieje się tak dlatego, że praktycznie niemożliwe jest posłuchanie muzyki w innym, korzystnym pod względem akustyki pomieszczeniu.

Nie słyszy się, że dźwięk o niskich częstotliwościach narasta przez określony czas, jak również nie słyszy się tego, że przez podobny czas zanika. Gdyby słuchacze potrafili wyłapać te zniekształcenia nikt nie byłby w stanie słuchać muzyki w pomieszczaniu niezaadaptowanym akustycznie, a przecież w praktyce nikt nie ma dobrego miejsca odsłuchu. Jeśli już ktoś podejmuje jakąś próbę adaptacji, polega ona najczęściej na dodaniu jakiegoś dyfuzora, który nie ma żadnego wpływu na basy.

Warto pamiętać tym typie zniekształceń, kiedy będzie się czytać recenzję jakiegoś wydawnictwa, w której ktoś narzeka na słabą sekcję rytmiczną, która nie nadąża za resztą muzyków. Sekcja raczej na pewno gra dobrze. To pomieszczenie w którym recenzent słucha zamula i nigdy w nim nie usłyszy precyzyjnego i "szybkiego" basu.

niedziela, 16 października 2016

Bezwładność częstotliwościowa słuchu

W tym poście będzie o kolejnym typie zniekształceń, które nie są możliwe do usłyszenia, chociaż mogą być bardzo duże.

Osoby interesujące się akustyką wykonały lub przynajmniej widziały wykresy z pomiarów charakterystyki w pomieszczeniu odsłuchowym. Takie wykresy charakteryzują bardzo duże nierówności. Przykładowo dla częstotliwości 50 Hz będzie zmierzona pewna wartość, natomiast dla częstotliwości minimalnie wyższej już 10 dB więcej, a dla kolejnej jeszcze nieco wyższej częstotliwości nawet 20 dB mniej niż dla 50 Hz.

Akustycy powiedzą, że taki "surowy" pomiar nic nie mówi o tym, jak się odczuwa charakter pomieszczenia na słuch. Dlatego stosuje się uśrednianie. Dopiero charakterystyka uśredniona odpowiada wrażeniu słuchowemu i może być podstawą do adaptacji.

Rozdzielczość częstotliwościowa słuchu jest bardzo mała w porównaniu do rozdzielczości sprzętu pomiarowego. Jest to spowodowane tym, że słuch działa na zasadzie filtrów środkowo-przepustowych. W ślimaku mamy bank filtrów, który pokrywa cały zakres częstotliwości słyszalnych.

Szerokość filtru określa jego pasmo krytyczne.



Rysunki pokazują relację filtra grzebieniowego do pasma krytycznego. W zależności od opóźnienia pomiędzy falą bezpośrednią i odbitą wystąpią różne odstępy pomiędzy grzbietami filtra. Na rysunkach pokazane są trzy warianty opóźnień.

Im grzbiety filtra są gęstsze tym trudniejsze jest wykrycie zakolorowania spowodowanego jego działaniem. W przypadku 1) zakolorowanie będzie słyszalne, bo pasmo krytyczne jest węższe niż odległość pomiędzy grzbietami filtra grzebieniowego. W przypadku 2) kiedy szerokość filtra jest porównywalna z odstępem między grzbietami zakolorowanie może być usłyszane. Natomiast w przypadku 3) gdy grzbiety są bardzo gęste i nieporównywalnie węższe niż szerokość pasma krytycznego, zakolorowanie nie może być usłyszane.

Co to oznacza w praktyce.

Okazuje się, że z widma można wyciąć część pasma i nie będzie to możliwe do usłyszenia. Można wycinać fragmenty pasma, ale również zmieniać EQ w dowolny sposób i nie będzie to możliwe do wykrycia jeśli wytniemy zakresy odpowiednio wąskie, oczywiście w odniesieniu do pasma krytycznego.

Manipulacja jest tym łatwiejsza im wyższe są częstotliwości. Z tej właściwości słuchu korzystają wszystkie kodeki stratne takie jak mp3. Kodek analizuje dźwięk zwłaszcza pod kątem maskowania i jeśli uzna, że jakiś dźwięk będzie maskowany może go śmiało wyciąć, albo przynajmniej "poszatkować". Ale wyciąć pewne części widma można także wtedy, gdy dźwięk nie będzie maskowany. Wszystkie te manipulacje kodeka pozostaną niezauważone, jeśli ingerencja będzie mieć zakres, który nie przekroczy pewnego zakresu szerokości pasma krytycznego.

Wycięcie pewnych pasm przez kodeki stanowi problem polegający na precyzji cięcia. Trzeba wyciąć wąskie pasma, a to w początkowych stadiach rozwoju kodeków stanowiło pewien problem. Dlatego ingerencja była możliwa do usłyszenia. Kodek zniekształcał to, co zostawało. Dziś przy nawet umiarkowanej przepływności nie da się już odróżnić wersji oryginalnej i stratnej.

Jak widać dźwięk można zniekształcić bardzo mocno, bo można w ogóle wyrzucić dość znaczne fragmenty widma i się tego nie zauważy. Tak jak się nie słyszy skutków działania filtra grzebieniowego dla większych opóźnień.

czwartek, 6 października 2016

Bezwładność amplitudowa słuchu

Bardzo rozpowszechniony jest pogląd o czymś co można określić jako "wszystkosłyszenie". Polega to na tym, że wiele osób jest przekonana o doskonałości słuchu i możliwości usłyszenia niezwykle małych i subtelnych niuansów dźwięku. Generalnie myśli się o możliwości usłyszenia nawet najmniejszych zniekształceń wnoszonych przez sprzęt.

Faktycznie słuch jest narządem wyjątkowo odpornym na zniekształcenia i aby jakieś usłyszeć muszą one być raczej spore. Niektóre typy zniekształceń muszą być naprawdę bardzo duże, żeby w ogóle można je było usłyszeć, a nawet są takie, których się w ogóle nie słyszy mimo ich rozmiaru. 

Jeżeli odtworzy się ton sinusoidalny trwający np. sekundę, będą temu towarzyszyć bardzo duże zniekształcenia amplitudy, których nie będziemy w stanie w ogóle usłyszeć. Ten typ zniekształceń dotyczy każdego typu sygnałów, także mowy i muzyki, ale zostanie opisany na przykładzie sygnału sinusoidalnego.


Narastanie dźwięku w pomieszczeniu. Z powodu nakładania się odbić na dźwięk bezpośredni zamiast stałej głośności B natężenie dźwięku wzrasta. Wzrost głośności jest skokowy, linia przerywana obrazuje średnią.

Rysunek pokazuje sytuację, kiedy w pomieszczeniu jest odtwarzany sygnał o stałej głośności, która wynosi B, od pierwszej litery słowa Bezpośredni. W miejscu oznaczonym jako "Ź" znajduje się źródło sygnału. Sygnał jest odbierany przez mikrofon. Dźwięk dociera do mikrofonu początkowo drogą bezpośrednią, a następnie dochodzą odbicia, których faktycznie jest kilkaset, ale zaznaczone zostały tylko cztery.

W dolnej części rysunku jest pokazane co "słyszy" mikrofon. Najpierw przez chwilę mikrofon "słyszy" dźwięk bezpośredni o głośności B. Następnie po dotarciu pierwszego odbicia, odbicia są oznaczone jako O tzn. Odbicie, głośność dźwięku odbieranego przez mikrofon wzrasta od B do głośności B+O1. Po pewnym czasie kiedy do mikrofonu dotrze drugie odbicie O2 głośność wzrośnie do B+O1+O2 tzn. do dźwięku bezpośredniego dołoży się oprócz pierwszego odbicia także drugie. Z kolei ogólna głośność wzrośnie o odbicie trzecie i w końcu czwarte.

Jeśli pomieszczenie ma RT60 wynoszący 1 sekundę oznacza to, że przez cały czas trwania dźwięku jego głośność będzie skokowo wzrastać przez dodawanie się kolejnych odbić. Gdyby dźwięk trwał dłużej, np kilka sekund, to jego głośność stałaby się stała, dopiero po upływie sekundy.

Wobec tego głośność sygnału stale wzrasta, chociaż z praktyki wiadomo, że tego wzrostu się nie słyszy. Wystarczy odtworzyć jakikolwiek ton testowy czy dźwięk o stałej głośności i słyszy się go jako taki, który ma przez cały czas trwania niezmienną głośność.

Słuch nie reaguje na wzrost głośności, która ma tu miejsce i często jest to wzrost znaczny dlatego, że w skrajnym przypadku dla basów jeśli głośnik stoi w narożniku może wynieść np. 10 dB lub więcej.

W praktyce każdy dźwięk, każda nuta, każda głoska słyszana w pomieszczeniu charakteryzuje się narastaniem głośności, której nie słyszymy. Narastaniem lub spadkiem, a w ogólności fluktuacją.

Przykład rysunkowy jest bardzo ogólny. Dlatego, że odbicia nie muszą się nakładać na dźwięk bezpośredni wzmacniając go, ale mogą się z nim znosić. Niektóre odbicia wzmacniają dźwięk bezpośredni inne go osłabiają, więc występuje zjawisko, które można określić jako fluktuacja głośności.

Najważniejsze są najsilniejsze odbicia i to one decydują czy dźwięk będzie wzmocniony czy stłumiony. Jeśli kolumna stoi przy ścianie, to odbicia będą wzmacniać basy poza kilkoma częstotliwościami określonymi przez SBIR. Ogólnie rzecz biorąc część odbić wzmacnia dźwięk bezpośredni, część go osłabia, więc zawsze występuje wahanie amplitudy i zawsze jesteśmy tego nieświadomi.

Dźwięk charakteryzują właściwie tylko 3 cechy: częstotliwość, amplituda i czas trwania. Okazuje się, że 1/3 z tego nie jesteśmy w stanie odebrać właściwie. Powodem tego  jest bezwładność amplitudowa słuchu, która polega na tym, że szybkich zmian amplitudy nie rejestrujemy. Taka właściwość słuchu jest konieczna, żeby w ogóle coś słyszeć. Propagacja dźwięku jest obarczona różnego rodzaju zakłóceniami, które należy jakoś obejść. Jednym ze sposobów jest obniżenie czułości słuchu na szybkie zmiany amplitudy.