czwartek, 22 października 2015

Testy i dlaczego w audio się nie testuje

Testuje się wszystko i wszędzie z dwoma wyjątkami. Nie testują marketingowcy i audiofile. Czemu nie testują marketingowcy? Oni mają za zadanie reklamować, zachwalać i sprzedawać. A czemu nie testują audiofile i w ogóle czemu się nie testuje w audio?

No jak to, przecież w audio się testuje! Testuje się, ale wyniki tych testów nigdy nie trafiają w ręce kupujących sprzęt. Producenci, ci poważni, testują ale zachowują wyniki dla siebie. Do Kowalskiego docierają zaś teksty sponsorowane i zakamuflowany marketing. Wydaje ci się, że masz masę testów, bo kupujesz magazyny audio? Niestety muszę cię rozczarować. To nie są testy, co prawda są tam często nawet jakieś dane pomiarowe, ale faktycznie jest to rodzaj zasłony dymnej, pozór rzetelności i profesjonalizmu.

Czy ktoś ma dane testowe zniekształceń wzmacniacza dla wszystkich poziomów mocy i całego zakresu częstotliwości? Ma ktoś dane jaki jest poziom zniekształceń dla 20 kHz i pełnego wysterowania? Albo 100 Hz i mocy 0,001W? A może wie jaki jest odstęp od szumów dla mocy 0,1W? Albo przy 10W? Niekoniecznie. Ale producenci, ci którzy testują, bo są tacy którzy tego nie robią, mają. Tylko, że nie udostępniają. Nikomu.

A może ma ktoś dane dotyczące zachowania głośników przy 50 Hz takich jak zniekształcenia harmoniczne i intermodulacyjne? Dla różnych poziomów głośności? Albo chociaż wie jaka jest częstotliwość rezonansowa górna i dolna? A jak wygląda charakterystyka bez wygładzania i uśredniania?

Ktoś może podać z jaką częstotliwością pracuje DAC w jego odtwarzaczu? A jaka jest częstotliwość filtru dolnoprzepustowego, albo jak stromy czy odwrotnie, łagodny jest ten filtr?

Co my w ogóle wiemy o naszym sprzęcie? Nic nie wiemy. Niektórzy wierzą, że coś wiedzą, innym się wydaje, ale tak naprawdę nie wiemy nic. Jeśli ktoś jest uparty, może zdobyć schematy i po kolei sprawdzać specyfikacje poszczególnych elementów. Ale jak to działa jako całość i jakie są testowe dane pomiarowe tego się nie dowie o ile sam nie zmierzy. Tylko czy samemu można coś zmierzyć?

Oczywiście, że można. Trzeba wiedzieć co i jak mierzyć i mieć czym. Sprzęt pomiarowy jest drogi, zmierzenie wszystkiego wymaga sporych zakupów i może się okazać, że mamy zestaw audio za "ileś tam" pieniędzy, natomiast sprzęt pomiarowy do przetestowania tego zestawu będzie kosztował "ileś" razy 10.000 lub jeszcze więcej.

Więc jakie mamy dane o naszym sprzęcie, który gra nam na co dzień? Takie, jak się zdecydował pokazać dział marketingu. Czy mają one jakieś odniesienie do faktycznych pomiarów? Oczywiście, że mają. Ale co z tego, skoro nie wiadomo jak pomiary zostały wykonane i nawet nie wiadomo dokładnie co mierzono. Podano ci moc, ale dla jakich zniekształceń? Podano ci pasmo, ale dla jakiej tolerancji? Podano ci odstęp od szumu, ale przy jakiej mocy?

Osobną ligę tworzą testy odsłuchowe. To one wzbudzają największe emocje i dyskusje. I to właśnie ich się w audio nie robi. Producenci, niektórzy, wykonują testy odsłuchowe, ale oczywiście nie znamy ich rezultatów. Przypuszczalnie łatwiej będzie się komuś dowiedzieć co jest w strefie 51 niż poznać wyniki testów jakichś urządzeń audio.

W magazynach audio w każdym razie nie wykonuje się testów odsłuchowych i jest tylko jeden powód. Są one całkowicie nieprzydatne marketingowo. Zamiast testów dostajemy coś w rodzaju radosnej twórczości niespełnionych literacko bajkopisarzy. Opisują swoje wyobrażenia o brzmieniu ze słuchania jakichś nagrań, jeśli w ogóle czegoś słuchają i w ogóle widzą sprzęt o którym piszą. Chociaż nie, tak było kilkadziesiąt lat temu Teraz istnieje już pewien schemat co powinna zawierać "recenzja" sprzętu. Jakich frazesów należy użyć, jakie słowa-klucze muszą się znaleźć, jednym słowem literatura-makulatura musi sprostać oczekiwaniom kupujących. Musi trafiać w ich potrzeby i odpowiadać aktualnie obowiązującej modzie.

A jakie są potrzeby kupujących? Chcą się czuć kimś wyjątkowym, kto się świetnie zna - bo opanował nowomowę - i mieć poczucie posiadania jakiegoś super wypasionego i posiadającego niesamowite właściwości sprzętu, który uczyni ich jeszcze bardziej cool i trendy. Tylko czy można zaimponować komukolwiek, zwłaszcza samemu sobie, jeśli sprzęt ten wyszukany, wymarzony, wyśniony i strasznie drogi nie daje nic poza tym, co zwykły telefon, przenośny odtwarzacz plików i słuchawki? A czy będziemy podziwiać kogoś, kto wydał masę pieniędzy na wzmacniacz i kolumny, skoro taki sam efekt - na ucho, nie na oko - gwarantuje sprzęt za ułamek tej sumy? Za jedną setną? Albo nawet jeszcze mniej, są przecież zestawy za milion... dolarów i więcej.

Magazyny branżowe nie testują, bo sponsorzy nie za to im płacą. Producenci owszem testują, ale nie udostępniają wyników. Czy wobec tego można testować samemu?

Nie damy rady przetestować żadnego urządzenie w sensie pomierzenia jego parametrów. Tak samo nie uda się sprawdzić osiągów własnego auta. Do takich celów potrzebny jest sprzęt, a ten sporo kosztuje. Poza tym wymagane jest doświadczenie i jeszcze kilka innych rzeczy.

A co z testami odsłuchowymi? Czy może być coś trudnego w tym, żeby posłuchać i wydać werdykt? Jest coś trudnego. Jest wiele trudnych rzeczy. Kilka z nich jest tak trudnych, że praktycznie niewykonalnych.

Co to w ogóle jest test odsłuchowy? Można podać kilka typów testów w zależności od tego, do czego mają służyć. Zazwyczaj myśli się o takim teście, który odpowie na pytanie jak dobra jest jakość, inny test odpowiada na pytanie co jest lepsze. Są też testy mające wykazać różnice. Żadnego z tych typów testu nie uda się nam wykonać w warunkach domowych. Zresztą jakikolwiek test byśmy zamierzali przeprowadzić w warunkach  domowych w którym do oceny będzie służyć słuch, musi się on skończyć niepowodzeniem.

Gwarantem niepowodzenia, nawet jeśli wszystko inne by poszło dobrze, a dobrze pójść nie ma prawa, jest fakt, że z całą pewnością nie spodobają nam się wyniki testu i zaraz po jego zakończeniu zaczniemy planować inny. Taki który da lepsze wyniki czyli te, które chcemy otrzymać.

Amatorski test odsłuchowy nie może się udać również z tego powodu, że sędzia nie może sądzić we własnej sprawie. Obejść tą zasadę można w ten sposób, że sędziego sądzi jego kumpel konkretnie ten, na którego podsądny ma haka. Jeżeli oceniasz swój sprzęt nie będziesz obiektywny. Poza tym oceniając swój sprzęt mamy chęć "podglądać". Kumple, którzy biorą udział w teście też nie będą pomocni. Twój sprzęt ma być lepszy niż mój?

Testowanie ma sens tylko wtedy, kiedy są spełnione pewne przesłanki, a najważniejszą z nich jest taka, że ani ten co testuje, ani ten co prowadzi test nie wiedzą co testują. Wynika z tego, że do wykonania testu trzeba mieć zewnętrzną, niezależna instytucję, a to wyklucza test we własnym zakresie.

Kolejną przeszkodą o którą się rozbijają amatorskie testy jest statystyka. Statystyka i rachunek prawdopodobieństwa nie są bardzo trudne, ale wymagają pewnej wiedzy. Żeby wykazać, że coś rzeczywiście gra inaczej i się coś słyszy, a nie zgaduje, trzeba odpowiedzieć poprawnie wymaganą ilość razy w wymaganej ilości prób. Amatorzy, którzy czasem coś "testują" nie uznają statystyki, albo jej nie uwzględniają. Wobec tego wykonują 3 próby z czego 2 razy udało się odpowiedzieć dobrze. Czy to znaczy, że się coś usłyszało? To nic nie znaczy. Można wziąć monetę i odpowiadać tak, jak ona upadnie i mieć "świetne" rezultaty, przykładowo właśnie 2 dobre na 3 próby. Żeby wykazać, że się naprawdę słyszy, musimy wykonać znacznie więcej prób niż 3. Co najmniej 10. A poprawnie odpowiedzieć co najmniej 9 razy. 2 na 3 można odgadnąć rzucając monetą. 9 na 10 już trzeba naprawdę wiedzieć. Jeśli prób będzie 20 to musisz odpowiedzieć dobrze 15 razy.

Nawet gdyby komuś udało się przebrnąć przez te wszystkie przeszkody, pozostaje jeszcze kilka innych. Największym problemem pozostają jednak właściwości słuchu. Chodzi o to, że słuch nie ma właściwości liniowych. Żeby to zrozumieć musimy koniecznie zrozumieć poniższy wykres.

https://xiph.org/

Zrozumienie sensu linii na powyższym wykresie jest absolutnie konieczne do tego, żeby zorientować się w jaki sposób można wykonać poprawny test odsłuchowy. W tym miejscu mamy na myśli test porównawczy dwóch urządzeń na przykład wzmacniaczy.

Jeśli klikniemy w grafikę i otworzy się nam jej pełnowymiarowa wersja, będziemy mogli odczytać wartości liczbowe na osiach. Na osi pionowej mamy wartości w decybelach od zera do sto czterdzieści, a na poziomej w Hertzach od 20 Hz do 20 kHz. My przeanalizujemy kształt pierwszej szarej krzywej nad dolną czerwoną linią.

Krzywa ta zaczyna się od 80 dB dla 20 Hz następnie stale opada aby osiągnąć minimum dla poziomu 0 dB (zero dB) przy 3 kHz a następnie wznosi się, aby osiągnąć maksimum dla 15 kHz na poziomie około 40 dB. Co to znaczy?

Oznacza to, że tony testowe o głośności 80 dB i częstotliwości 20 Hz; zero dB i częstotliwości 3 kHz oraz 40 dB i 15 kHz będą tonami najcichszymi jakie tylko jesteśmy w stanie usłyszeć, a ponadto, i to jest sedno sprawy, te tony testowe o różnych głośnościach nasz słuch odbiera jako dźwięki o takiej samej głośności.

To jest bardzo ważne: dźwięki o różnych częstotliwościach o głośności 80 dB, 0 dB (zero dB) oraz 40 dB są odczuwane jako równie głośne.

Jeśli zwiększymy równomiernie głośność każdego dźwięku o 10 dB, okaże się, że przestaniemy odbierać te dźwięki jako takie, które mają taką samą głośność lecz uznamy, że częstotliwość 20 Hz i 20 kHz są głośniejsze niż 3 kHz. Jest to skutkiem tego, że słyszalność tonów niskich i wysokich narasta szybciej niż średnich.

Ta tendencja do coraz lepszego słyszenia dźwięków o niskich i wysokich częstotliwościach utrzymuje się aż do dużych głośności, i odwraca się nieco dopiero dla najgłośniejszych dźwięków jakie jesteśmy w stanie odbierać bez narażenia się na uszkodzenie słuchu przez nadmierny hałas.

W odniesieniu do testów porównawczych, w naszym przykładzie odtwarzaczy, konsekwencją będzie, że jeżeli jeden z odtwarzaczy będzie grał głośniej, to basy i soprany usłyszymy jako wyraźniejsze. Z kolei jeśli jest więcej basów i sopranów inna jest odczuwana barwa dźwięku. Z praktyki wynika, że prawie zawsze głośniejsze urządzenie, głośniejsze brzmienie, jest oceniane jako lepsze. Ponadto zmiana barwy skutkuje tym, że dźwięk czyli muzyka, brzmi inaczej.

Jeśli więc słyszymy, że jedno z urządzeń gra głośniej z łatwością zauważymy zmianę źródła dźwięku, a towarzysząca temu zmiana barwy tylko to ułatwi. W przypadku kiedy nasz test miałby wykazać, czy uda się odróżnić od siebie dźwięk dwu odtwarzaczy, jeśli któryś z nich będzie nieco głośniejszy, nie będzie z tym najmniejszego problemu.

Odtwarzacze, które mam różnią się poziomem dźwięku prawie 6 dB. Odróżnienie najcichszego i najgłośniejszego odtwarzacza jest prostsze niż odróżnienie wody od oranżady.

Jeśli chodzi o wzmacniacze, ich porównanie jest trudne z tych samych względów. Jeśli nie uda się ustawić jednakowej głośności, wzmacniacz grający głośniej będzie łatwy od odróżnienia od cichszego. Inna głośność oznacza inną barwę. Te dwa czynniki pozwolą na bezproblemowe odróżnienie wzmacniacza A od wzmacniacza B.

Test porównawczy, kiedy się konfrontuje dwa różne wzmacniacze i dwa różne odtwarzacze jest jeszcze bardziej skomplikowany. Różna głośność we wzmacniaczach i różny poziom w odtwarzaczach czyni takie porównanie w warunkach amatorskich całkowicie niemożliwym.

Doświadczalnie ustalono, że jesteśmy w stanie podświadomie wychwycić różnice głośności o wartości około 0,2 dB. Żeby przeprowadzić testy porównawcze przyjmuje się, że głośność dźwięku musi być wyrównana z dokładnością większą niż 0,1 dB.

Co zatem zrobić, żeby jednak test wzmacniaczy lub odtwarzaczy mógł się odbyć? Trzeba mierzyć poziomy, Najlepiej do tego się nadaje oscyloskop. Ma on taką przewagę nad woltomierzem, że można zobaczyć czy wzmacniacz pracuje w zakresie liniowym. Jeśli przesadzi się z głośnością, będzie widać, że wzmacniacz obcina wierzchołki. Jest to o tyle ważne, że porównując dwa wzmacniacze, które zupełnie nie przystają do siebie pod względem mocy łatwo jest o spowodowanie przesterowania tego słabszego. Dość karkołomne, z pozoru, wydaje się postawienie obok siebie wzmacniacza o mocy 40W na kanał i zestawy przedwzmacniacz z monoblokami każdy o mocy pół kilowata. Mimo wydawać by się mogło bezsensowności, takie porównanie jest zupełnie możliwe jeśli zaczniemy od ustawienia poziomu wysterowania dla słabszego wzmacniacza.

Osobnym zagadnieniem jest ustalenie poziomu głośności dla porównania. Typowe zakresy mocy, w których pracują wzmacniacze w warunkach domowych, które zapewniają zgodne z praktyką poziomy głośności, to kilka, najwyżej kilkanaście watów przy stosowaniu kolumn o wyjątkowo małej sprawności. Typowo słucha się z mocami nie przekraczającymi jednego wata.

Jeżeli nie dysponujemy oscyloskopem, można użyć woltomierza, ale z kilkoma zastrzeżeniami. Musi być to urządzenie profesjonalne, a dlatego, że nie wiadomo czy wzmacniacz pracuje jeszcze normalnie, czy już wystąpił clipping, nie można ustawiać zbyt dużych głośności. Mierząc napięcie na wyjściu trzeba przeliczyć z jaką mocą mamy do czynienia i ocenić czy jest to optymalny zakres dla wzmacniacza. Ma to szczególnie duże znaczenie dla testów wzmacniaczy lampowych, które dysponują czasem mocą kilku watów.

Wydawać by się mogło, że skoro możemy zmierzyć poziomy, bo mamy oscyloskop, to wykonanie testu nie sprawi problemu. Niestety jest jeszcze kilka innych przeszkód. Pierwszą z nich jest regulacja głośności. Niestety w większości wzmacniaczy nie uda się nam osiągnąć wymaganej dokładności poniżej 0,1 dB przy użyciu pokrętła głośności. Regulacja głośności wzmacniacza gwarantuje dokładność do jednego dB, tj. dziesięciokrotnie za mało. W związku z tym trzeba użyć dodatkowego stopnia przed wejściem wzmacniacza, gdzie dopasuje się poziom dokładnie po zgrubnej regulacji potencjometrem głośności.

Ten sam problem występuje dla odtwarzaczy, które również wymagają wyrównania poziomów. Jednak jeśli odtwarzacze grają z różną głośnością, powstaje pytanie, czy w torze z głośniejszym odtwarzaczem możemy pozostawić głośność "jak jest" i zająć się regulacją wzmocnienia we wzmacniaczu, a w drugim zestawie z innym lub podobnym wzmacniaczem, ale znacznie cichszym odtwarzaczem dojdziemy do porównywalnego poziomu w taki sposób, że wzmacniacz będzie pracował z większym wzmocnieniem? Jeśli w jednym zestawie mamy głośny odtwarzacz a w drugim cichy, oba wzmacniacze pracują w innych warunkach. Ten, który jest sterowany przez cichy odtwarzacz musi pracować z większym wzmocnieniem niż ten, który ma podłączony głośny odtwarzacz.

Aby porównanie było sensowne, do obydwu wzmacniaczy musielibyśmy podać taki sam sygnał. Można zastosować dodatkowy, regulowany z wymaganą dokładnością, przedwzmacniacz. Zdarza się również, że czasem wzmacniacz ma specjalnie regulowane wejścia i istnieje możliwość wyrównania czułości. To jednak wyjątek od reguły, gdyż większość wzmacniaczy nie ma regulacji czułości wejścia.

Warto jeszcze wspomnieć, że chociaż w większości wzmacniaczy da się ominąć regulację barwy, ale nie we wszystkich. W związku z tym mogą się pojawić trudności. I na koniec dodajmy, że chociaż wzmacniacze mają bardzo liniową charakterystykę, to jednak nie wszystkie. Jeśli ktoś będzie miał życzenie porównanie wzmacniacza tranzystorowego z lampowym, może się okazać, i będzie tak z bardzo dużym prawdopodobieństwem, że wzmacniacz lampowy dla zastosowanych kolumn nie będzie mieć płaskiego przebiegu częstotliwościowego. Taka sytuacja czyni wszelkie porównania nonsensownymi. A gwoli ścisłości należy dodać, że przed wykonaniem testów należałoby sprawdzić sprzęt na okoliczność liniowości, zniekształceń itd. już tylko po to, aby mieć pewność, że jest sprawny.

W warunkach domowego testu raczej nie będziemy mieć możliwości sprawdzenia wszystkiego, co sensowność testowania czyni małą.

Jak widzimy testowanie niekoniecznie polega na włączeniu muzyki i posłuchaniu...

Ostatnim ogniwem, który się testuje są kolumny głośnikowe. Tutaj sprawy się komplikują. Zagadnienie wymagałoby napisania nowego posta. Oczywiście uwagi dotyczące testowania odtwarzaczy lub wzmacniaczy też są lakoniczne, ale testowanie do kolumn jest bardziej złożone.

Jeśli chodzi o kolumny sprawą zasadniczą jest stanowisko do testowania i jego akustyka. Stanowisko do testowania kolumn to skomplikowane urządzenie, które pozwala zamienić miejscami testowane zestawy. Czyli w miejsce jednej pary "wjeżdża" inna. Dziać się to musi szybko i z dokładnością do milimetrów. Koszt takiego stanowiska przewyższa cenę większości zestawów głośnikowych z wyjątkiem tych, za które trzeba zapłacić sumy np. sześciocyfrowe.

Osobną sprawą jest akustyka stanowiska do testowania kolumn. Tu obowiązuje zasada całkowitego wytłumienia odbić i osiągnięcie rzeczywistej RFZ tzn. znaczy strefy wolnej od odbić dźwięku. Osobiście znam tylko jeden rodzaj pomieszczeń, gdzie jest coś w rodzaju RFZ i myślę tu o reżyserkach dźwięku, przy czym większość z nich nie spełnia do końca wymagań, nawet nie spełnia w części. Ale nie przeszkadza to ludziom w takich warunkach pracować, więc nie dziwi w tym kontekście jakość dźwięku, którą oferują polskie rozgłośnie radiowe i studia telewizyjne.

Odsłuchanie kolumn głośnikowych w sensie porównania ich z inną parą jest niezwykle skomplikowanym przedsięwzięciem. Sprawa komplikuje się tym bardziej, bo nie można dla kolumn ot tak po prostu ustawić jednakowej głośności. Podanie tej samej mocy nic nie da, bo skuteczność jest inna. Ustawienie identycznej głośności dla jakiejś częstotliwości, np. 1 kHz też nie załatwia sprawy, bo dana kolumna może mieć dla 1 kHz "górkę" a inna wręcz przeciwnie. Jak już pisałem charakterystyka kolumn przypomina raczej pejzaż alpejski. Wobec tego ustawienie jednakowej głośności wymaga innego podejścia, które uwzględni znacznie szersze spektrum częstotliwości.

W czasie porównywania kolumn należy też ograniczyć do minimum własne ruchy. Chodzi o to, aby pozostać w miejscu nazywanym Sweet spot czyli miejsca optymalnego odbioru w którym mamy najlepsze skupienie dźwięku. To z kolei skutkuje tym, że obie pary porównywanych kolumn należy właściwie nakierować na słuchacza.

Generalnie porównywanie kolumn nie ma w warunkach domowych większego sensu. Amatorsko można, a wręcz jest to konieczne, porównanie różnych typów kolumn w sklepie. Zasada jest taka, że wybieramy do odsłuchu możliwie najlepszą parę i kilka innych, które znajdują się w naszym zasięgu jeśli chodzi o finanse. Kolumna najlepsza będzie tą referencyjną, a z tych dostępnych cenowo powinniśmy wybrać takie, które w porównaniu z nimi nie odstają zbyt w poszczególnych aspektach. Porównywanie głośników w sklepie jest jak jazda próbna różnymi autami. Profesjonalne testy to jakby znalezienie różnic w osiągach takich jak moc, spalanie, czystość spalin, poziom hałasu itd. O ile jazda różnymi typami aut da nam pewien o nich pogląd, co umożliwi dobry zakup, jednak czegoś dokładniejszego i szczegółowego się w trakcie przejażdżki raczej nie dowiemy.

Na koniec kilka słów o testach, które w warunkach domowych można wykonać. Jest to porównywanie brzmienia różnych plików. Przykładowo flac vs. mp3 w różnych przepływnościach. Generalnie obowiązują dwie zasady. Pliki muszą odpowiadać sobie poziomem głośności oraz musimy użyć narzędzia do testu ABX. Można użyć programu foobar2000 i wtyczki ABX.

poniedziałek, 12 października 2015

50 lat systematycznej pracy marketingu i mamy w audio rynek zjawisk paranormalnych

Pierwsze sygnały wskazujące na degenerację przemysłu hi-fi zaczęły się pojawiać pod koniec lat siedemdziesiątych. Już wtedy padały pytania czy faktycznie jest sens jeszcze bardziej śrubować parametry wzmacniaczy, skoro zniekształcenia są tak małe, że i tak ich nikt nie słyszy.

Pod koniec lat siedemdziesiątych nie było jeszcze płyt kompaktowych. Muzyki słuchaliśmy z płyt analogowych i magnetofonów. Ci zamożniejsi mogli sobie kupić oryginalne płyty, a ci mniej zamożni zadowalali się kopiami tych płyt wykonanymi na taśmach. A plebs - czyli również ja - słuchał płyt granych przez radio. Najczęściej jednak słuchaliśmy taśm, na których były nagrania płyt puszczanych przez radio. Oczywiście radio odtwarzało płyty wcześniej skopiowane na taśmę często z innej taśmy.

Irracjonalność śrubowania parametrów wzmacniaczy schodziła na drugi plan. Przecież było jeszcze wiele do zrobienia jeśli chodzi o jakość dźwięku. Kto miał płyty chciał mieć lepszy gramofon, lepszą wkładkę, lepszą igłę. Kto słuchał płyt z taśmy starał się zdobyć lepszy magnetofon. Najczęściej te dążenia do lepszego dźwięku ograniczały się do zdobycia lepszej taśmy. Jak ktoś miał taśmy BASF to był gość! A ten co nagrywał z radia wszystko chciał mieć lepsze.

W latach siedemdziesiątych droga do dobrej jakości dźwięku była długa i wyboista. I zawsze wiodła pod górę. Nawet wybrańcy, którzy mieli płyty nie mogli być w pełni usatysfakcjonowani. Bo przecież mało kto miał nowe płyty. Poza tym nawet nowa płyta po niedługim czasie staje się starym, porysowanym, brudnym, trzeszczącym, chrypiącym i zdartym dziadostwem, którego się nie da się słuchać.

Jedno jest jednak równie pewne jak to, że politycy reprezentują interesy wyborców tylko do dnia wyborów. Analogowe źródła dźwięku były różne. Różniły się od siebie jak dzień i noc. Brzmienie oryginalnej płyty odtwarzane na porządnym gramofonie było czymś zgoła innym od nagrania z radia na taśmie.

Nie można nie wspomnieć tunerów radiowych. Tunerów i radioodbiorników. W ogóle tunery to świetny pretekst do rozwinięcia wątku dotyczącego analogowych źródeł dźwięku. Płyta - wiadomo. Taśma - też. Ale przecież radio jest analogowym źródłem dźwięku. Radio UKF FM jest wciąż powszechnym źródłem analogowego dźwięku. A z tą radiową jakością bywało różnie. I jest różnie.

Okazuje się mianowicie, że sporo zależy od nadajnika. I od Orbana. I jeszcze wielu innych rzeczy. Ale przecież sporo zależy też od jakości nośnika, z którego się w radio gra. W tamtych latach grało się najczęściej z taśm. Ktoś kopiował płyty na taśmę, a potem często jeszcze ktoś inny kopiował tą kopię na inną taśmę, z której grało się na antenie. Więc odtwarzało się kopię kopii płyty, a bywało też, że to była kopia kopii kopii. Kiedy w radio zaczęto grać "prosto z płyty" pojawiła się nowa jakość nadawania. Następnym skokiem jakości było odtwarzanie kompaktów.

Słuchając nagrań starych archiwalnych audycji, które (chwała im za to i wyrazy niezmiernej wdzięczności) wykonali słuchacze, możemy przeanalizować ich jakość. Oczywiście jest słaba. W tych nagraniach słychać zniekształcenia wniesione przez taśmę, magnetofon, tuner - szczególnie często słychać szum towarzyszący odbiorowi stereo. Ale jednak pamiętamy wszyscy, że jakość dźwięku słuchanego na żywo była często znakomita. Zależy kto na czym słuchał, ale jak miał na czym, jakość była naprawdę doskonała. Kto pamięta pierwszą emisję "Brothers in Arms" wie o co chodzi.

W tamtych czasach nikt nie zwracał uwagi na absurdalność śrubowania parametrów wzmacniaczy, bo jakość w ogóle pozostawiała sporo do życzenia. Płyty analogowe miały, i wciąż mają, swe wady. Magnetofony, zwłaszcza kasetowe - również. Radio nie zawsze ładnie grało. Kto by się tam wzmacniaczem przejmował? Zwłaszcza tym, że jest tak dobry, że lepszy być nie może!

No a ilu z nas miało porządne kolumny? Normą były Altusy, a jak nie Altusy, to i tak były to kolumny z marnymi głośnikami z membranami zrobionymi z makulatury, w kiepskich skrzynkach i ze zwrotnicami, których parametry wyliczyłby uczeń technikum w trzy kwadranse.

Ale czasy się zmieniają. W latach dziewięćdziesiątych problem jakości źródła dźwięku staje się już nieaktualny. Kto chce mieć jakość, ten kupuje odtwarzacz płyt kompaktowych i kompakty. Niemniej jednak już w latach osiemdziesiątych temat jakości elektroniki wraz z pojawieniem się odtwarzaczy CD Audio został zamknięty. Pod kątem jakości nie można było zrobić już nic więcej. Oczywiście są ludzie, którzy upierają się, że ekspres do kawy nalewający z dokładnością do tysięcznej części mililitra jest dla smakosza sprawą pierwszorzędną, ale ktoś, kto jest kawoszem a nie mitomanem ma na ten temat inne zdanie. Co innego kolumny.

Już nie raz i nie dwa pisałem, niekoniecznie na blogu, że elektronika stoi na poziomie techniki kosmicznej podczas gdy głośniki są w erze kamienia łupanego. Ale może dajmy tym razem spokój głośnikom. Wypada wspomnieć, że od czasu, kiedy poważnie zaprzęgnięto do pracy nad głośnikami, zwrotnicami i w ogóle nad kolumnami komputery, także na tym polu osiągnięto już wszystko, co jest możliwe. Dopóki pozostaniemy przy stosowaniu tradycyjnych głośników, kolejne generacje będą się różnić raczej wyglądem niż jakością. Grać mogą oczywiście różnie, ale to nie będzie wynikać z jakości tylko będzie zależało od decyzji, że własnie tak mają grać. Wybór materiału ma przetworniki i planowanie barwy w sensie przebiegu charakterystyki częstotliwościowej - tylko tyle pozostało konstruktorom. Resztę wyliczy komputer. A wszystko inne to ideologia i dyskusja nad wyższością świąt Bożego Narodzenia nad Wielkanocą.

Paradoksalnie wszyscy przywiązują do kolumn najmniejsze znaczenie. Kolumna? Brzmienie?
Iii tam, kolumna. Wzmacniacz. Kabel. To się dla Kowalskiego liczy. Ta... kabel. Kabel byłby ważny w dzieciństwie, coby nim dać niedojrzałym audiofilom po dupie. Teraz na kable jest już za późno.

Co by się stało z producentami sprzętu audio, gdyby ktoś pod koniec lat osiemdziesiątych powiedział: "W porządku riebiata, odtwarzacze mamy obcykane do perfekcji, to samo ze wzmacniaczami. Może coś się jeszcze da zrobić z kolumnami, ale niewiele i to by było wszystko na temat"? No ale przecież ubrać się można i za tysiąc złotych i za sto milionów. Nieprawdaż, że producenci preferują ciuchy w cenie stu baniek?

Jeśli chodzi o garderobę i powiedzmy buty, to przynajmniej nikt nie przekonuje, że w butach za stówę nie można wejść na swoją jedynie słuszną i właściwą ścieżkę prowadzącą do odkrycia prawdy absolutnej.

Pytanie, które mnie nurtuje nie polega na tym, kto i kiedy zaczął pisać te wszystkie banialuki o grających w ciepło/zimno wzmacniaczach i o odtwarzaczach oświetlających/przyciemniających brzmienie. Czy jakieś inne bzdury. Zastanawiające jest to, dlaczego przez niemal pół wieku nikt tego nie ośmieszył ostatecznie i raz na zawsze?

Bo trudno jest uwierzyć, że producenci sprzętu audio mają totalną kontrolę nad tym, co się pisze i mówi. Bardziej prawdopodobne jest, że ludzie po prostu wzięli te wszystkie marketingowe dyrdymały za prawdę i naprawdę nikt nie śmiał nawet mieć cienia wątpliwości co do prawdziwości tego reklamowego bełkotu.

sobota, 10 października 2015

Rozpowszechnianie muzyki w formacie 24 bity 192 kHz nie ma sensu

Zobacz również Xiph.Org's video, Digital Show & Tell  gdzie jest pokazane jak faktycznie wygląda sampling wykonany na rzeczywistym sprzęcie.


W ubiegłym miesiącu ukazał się artykuł w którym muzyk Neil Young oraz szef Apple'a Steve Jobs dyskutują o ofercie rozpowszechniania plików muzycznych w "bezkompromisowej jakości studyjnej". Większość prasy i użytkowników niemal entuzjastycznie komentowała perspektywę pobierania nieskompresowanych plików 24 bity 192 kHz. Muzyka w formacie 24 bity 192kHz była tematem moich rozmów z grupą Pana Younga kilka miesięcy temu.

Niestety, dystrybucja muzyki w formacie 24-bit/192kHz nie ma sensu. Jakość odtwarzania tych plików jest nieco gorsza niż 16/44.1 lub 16/48, a poza tym są one nawet 6 razy większe.

Jest kilka rzeczywistych problemów z jakością audio i odtwarzaniem cyfrowo dystrybuowanej muzyki w dzisiejszych czasach. 24/192 nie rozwiązuje żadnego z nich. Choć wszyscy widzą w 24/192 panaceum, to jednak nie przynoszą one żadnej faktycznej poprawy.

Najpierw złe wieści

W czasie kilku minionych tygodni miałem okazję rozmawiać z ludźmi inteligentnymi, którzy myślą w kategoriach ścisłych wierzącymi w pobrania 24/192 i zdziwionymi dlaczego ktoś mógłby się z nimi nie zgadzać. Zadawali oni ciekawe pytania, które wymagają szczegółowych odpowiedzi.

Chciałem też wiedzieć co motywuje zwolenników audio o wysokim samplingu. Odpowiedzi tych osób wskazywały, że niewielu z nich rozumie podstawy teorii sygnału lub teorię samplingu , co zresztą nie zaskakuje. Niezrozumienie matematyki, technologii, a także fizjologii były widoczne w rozmowach, co zresztą zdarza się też profesjonalistom mającym skądinąd sporą wiedzę o audio. Niektórzy nawet argumentowali, że teoria samplingu faktycznie nie wyjaśnia jak naprawdę działa cyfrowe audio[1].

Dezinformacja i przesądy służą wyłącznie szarlatanom. Więc przedstawmy pewne podstawy dlaczego dystrybucje 24/192 nie mają sensu, zanim będziemy sugerować rozwiązania, które naprawdę działają.

Proszę Państwa, oto wasze uszy

Ucho słyszy za pośrednictwem komórek słuchowych, które znajdują się na podstawnej błonie rezonansowej w ślimaku. Każda komórka ma włoski efektywnie dostrojone do wąskiego pasma częstotliwości określonego przez ich pozycję na membranie. Szczyty czułości są w środku pasma i spadają na strony w krzywych stożka pokrywających się z  innymi pasmami pobliskich komórek słuchowych. Dźwięk nie jest słyszalny, jeśli nie ma komórek słuchowych dostrojonych na to pasmo.


Powyżej po lewej: przekrój ślimaka człowieka wraz z membraną basilarną (kolor beżowy). Membrana jest nastrojona aby rezonować na różnych częstotliwościach wzdłuż ślimaka, przy czym wyższe częstotliwości są przy podstawie a niższe przy wyrostku. Zaznaczono przybliżoną lokalizację dla wybranych częstotliwości.
Powyżej po prawej: Schematyczny diagram przedstawiający odpowiedzi komórek słuchowych wzdłuż błony podstawnej w postaci szeregu filtrów nakładających się na siebie.

To jest podobne do analogowego radia odbierającego silne częstotliwości w pobliżu tej na którą jest nastrojone. Im dalej jest częstotliwość radiowa tym jest słabiej odbierana i z większymi zniekształceniami, aż zaniknie zupełnie, bez względu na to jak jest silna. Istnieje górna i dolna granica słyszenia, którą wyznacza czułość ostatnich włosków słuchowych spadająca do zera, gdzie słyszenie się kończy.

Częstotliwość próbkowania i zakres słyszenia

Jestem pewien, że słyszeliście to wiele razy, że zakres słyszenia rozciąga się od 20 Hz do 20kHz. Ważne, żeby wiedzieć jak badacze doszli do tych liczb.

Po pierwsze, musimy zmierzyć "absolutny próg słuchu" w całym zakresie audio. To daje nam krzywą słyszenia najcichszych dźwięków przez ucho człowieka dla danej częstotliwości mierzonej w idealnych warunkach dla zdrowych uszu. Komora bezechowa, sprzęt odtwarzający, precyzyjne kalibrowanie i rygorystyczna analiza statystyczna są łatwiejszą częścią przedsięwzięcia. Słuch się męczy, a koncentracja spada, więc badania trzeba przeprowadzić, kiedy słuchacz jest wypoczęty. Oznacza to wiele przerw i pauz. Badanie trwa od wielu godzin do wielu dni, w zależności od metody.

Później zbiera się dane dla przeciwnego bieguna - granicy bólu. To punkt, gdzie amplituda dźwięku jest tak duża, że ucho jako narząd i jego unerwienie jest tak kompletnie przeciążone, że pojawia się fizyczny ból. Zbieranie danych jest skomplikowane. Nikt nie chce permanentnie uszkodzić komuś słuchu w czasie badań.


Powyżej: Przybliżone krzywe równych głośności opracowane przez  Fletchear i Munsona (1933) plus częstotliwości ponad 16kHz. Bezwzględny próg słuchu i progu bólu są zaznaczone na krzywej na czerwono. Inni naukowcy doskonalili te odczyty zsumowane w skalę Phon i ISO 226 - standardowe  krzywe równej głośności. Nowoczesne dane wskazują, że ucho jest znacznie mniej wrażliwe na niskie częstotliwości niż wykazali Fletcher i  Munson.

Górną granicę zakresu słyszenia człowieka określa się, gdy bezwzględna wartość progowa krzywej słuchu przekracza próg bólu. Żeby mieć choć blade pojęcie o tym punkcie (lub poza nim), to trzeba słuchać nieznośnie głośno.

Przy niskich częstotliwościach, ślimak działa jak obudowa bass reflex. Helicotrema to otwór na wierzchołku błony podstawnej, która działa jako łącze dostrojone na częstotliwości pomiędzy 40Hz 65Hz w zależności od osoby. Odpowiedź zjeżdża stromo poniżej tej częstotliwości.

Tak więc 20Hz - 20kHz to jest szeroki zakres. Dokładnie pokrywa słyszalne spektrum i teza ta poparta jest prawie wiekiem prac doświadczalnych.

Genetyczny dar i złote uszy

Z mojej korespondencji wynika, że wielu ludzi wierzy w osoby z niezwykłym darem słuchu. Czy naprawdę istnieją takie "złote uszy"?

To zależy od tego, co nazywasz złotym uchem.

Młode, zdrowe uszy słyszą lepiej niż stare lub chore. Niektórzy ludzie są wyjątkowo dobrze wyszkoleni, aby usłyszeć dźwięk i niuanse w muzyce o których większość ludzi nawet nie wie, że istnieją. Był czas, w 1990 roku, kiedy mogłem zidentyfikować wszystkie typy dźwięku enkodera mp3 (ale to było wtedy, gdy wszystkie były bardzo złe) i potwierdzić to w podwójnie ślepym teście[2].

Kiedy zdrowy słuch połączy się z wyszkoloną umiejętnością wyłapywania różnic, nazwałbym je złotym uchem. Mimo to ludzie ze słuchem poniżej średniej po przeszkoleniu są w stanie wyłapać szczegóły niezauważane przez nieprzeszkolonych. Złote uszy to wynik treningu, a nie możliwości słyszenia ponad normalne możliwości.

Naukowcy chcieliby znaleźć, przebadać i udokumentować osoby o nieprzeciętnym zakresie słyszenia lub innych nadzwyczajnych cechach. Zwyczajni ludzie są fajni, ale każdy chciałby znaleźć kogoś wyjątkowego, żeby to ciekawie się prezentowało w publikacjach. Jednak jak dotąd przez ostatnie 100 lat nikogo takiego nie znaleziono. Ale wciąż się szuka.

Spectrofilia

Być może jesteś sceptyczny wobec wszystkiego, co tu napisałem; bo to z pewnością nie zgadza się z materiałami marketingowymi. Jednak zastanówmy się nad hipotetycznym zbzikowanym spektrum wideo, które nie będzie obarczone audiofilskim bagażem.


Powyżej: Przybliżona skala logarytmiczna reakcji słupków i  pręcików w nałożonych na widmo widzialne. Te narządy zmysłów reagują na światło w nakładających się na siebie wycinkach spektralnych, podobnie jak komórki słuchowe ucha są dostrojone do reagowania na nakładające się pasma częstotliwości dźwięku.

Ludzkie oko widzi ograniczony zakres częstotliwości światła, to znaczy widmo widzialne. Jest to analogiczne do słyszalnego spektrum fal dźwiękowych. Podobnie jak ucho, oko ma komórki czuciowe (czopki i pręciki), które wykrywają światło w różnych nakładających się pasmach częstotliwości.

Widoczne spektrum rozciąga się od około 400 THz (czerwień) do głębokiego fioletu (850 THz). Percepcja spada gwałtownie na brzegach. Poza tym zakresem natężenie światła potrzebne do najmniejszej percepcji może uszkodzić siatkówkę oka. Zakres światła widzialnego jest bardzo szeroki nawet dla ludzi młodych, zdrowych, bez wad genetycznych i ma podobne limity co spektrum słyszalne.

W naszym hipotetycznym przykładzie zbzikowanego spektrum wideo mamy grupę spektrofilów, którzy wierzą, że ten widzialny zakres światła jest niewystarczający. Proponują więc oni, że wideo nie może obejmować tylko widmo widzialne, ale powinno zawierać również światło podczerwone i ultrafioletowe. Kontynuując porównanie robi się jeszcze większy Hardcore (i spektrofile są z tego dumni!) Jest frakcja, która podkreśla, że ten rozszerzony zakres wciąż jeszcze jest niewystarczający i że jest mocno przekonana, że wideo będzie bardziej naturalne, gdy obejmie ono także zakres promieniowania kuchenki mikrofalowej i część widma rentgenowskiego. Dla Złotych Oczu, to będzie różnica jak dzień i noc!

Oczywiście jest to niedorzeczne.

Nikt nie może zobaczyć promieni X (lub podczerwieni lub ultrafioletu lub mikrofal). Nie ma znaczenia ile osób wierzy, że może. Siatkówka po prostu nie jest do tego zdolna.

Każdy może zrobić taki eksperyment: weź po pilota do telewizora z LEDami z emisją w podczerwieni 980 nm (lub 306THz) w widmie w bliskiej podczerwieni. Nie jest to daleko poza widzialnym zakresem. Weź pilota do piwnicy lub najciemniejszego pokoju w domu w środku nocy, z wyłączonymi światłami. Niech twoje oczy przyzwyczają się do ciemności.


Powyżej: Pilot IR sfotografowany aparatem cyfrowym. Choć emiter jest dość jasny i częstotliwości emitowane są bliskie czerwonej części widma widzialnego, jest całkowicie niewidoczny dla oka.


Czy potrafisz zobaczyć świecenie diody jak naciskasz przyciski[4]? Nie? Wcale nie? Sprawdź to z innymi pilotami; wiele z nich działa na paśmie bliskim widzialnemu, około 310-350THz. Tego też nie będziesz w stanie zobaczyć. Reszta działa na krawędzi światła widzialnego około 350-380 THz i można z trudem coś zobaczyć, gdy oczy przystosują się do ciemności[5]. Każdy z tych pilotów świeciłby oślepiająco jasno, gdyby działał w paśmie widzialnym.

Te diody bliskiej podczerwieni emitują widzialne światło co najwyżej 20% poza granicą widzialnych częstotliwości. Audio 192 kHz rozciąga się 400% poza zakresem dźwięków słyszalnych. Mogę być oskarżony o porównywanie jabłek i pomarańczy, ale percepcja wzrokowa i słuchowa maleje w kierunku krańców zakresu.

192 kHz jest szkodliwe

Pliki z muzyką 192 kHz nie oferują żadnych korzyści. One nie są nawet neutralne, w praktyce jakość jest nieco gorsza. Ultradźwięki są problemem w czasie odtwarzania.

Ani przetworniki audio, ani wzmacniacze nie są wolne od zniekształceń, a zniekształcenia mają tendencję do wzrastania przy najmniejszych i największych częstotliwościach. Jeśli przetwornik reprodukuje jednocześnie z zawartością słyszalną również ultradźwięki, to jego nieliniowość spowoduje, że zniekształcenia intermodulacyjne zostaną przesunięte w dół i pokryją cały zakres częstotliwości słyszalnych. Nieliniowość wzmacniacza da taki sam efekt. Skutek jest bardzo niewielki, ale testy potwierdziły, że oba efekty mogą być słyszalne.


Powyżej: Ilustracja zniekształceń wynikających z intermodulacji częstotliwości 30kHz i 33 kHz dla teoretycznego wzmacniacza o niezmiennym poziomie zniekształceń harmonicznych (THD) około 0,09%.  Zniekształcenia pojawiają się w całym spektrum, w tym na częstotliwościach niższych od obu częstotliwości.

Niesłyszalne ultradźwięki przyczyniają się do powstania zniekształceń intermodulacyjnych w zakresie słyszalnym (obszar jasnoniebieski). Systemy nieprzeznaczone do reprodukcji ultradźwięków zazwyczaj mają znacznie wyższy poziom zniekształceń powyżej 20kHz, powodując większe intermodulacje. Poszerzenie pasma częstotliwości o zakres ultradźwięków  wymaga kompromisów, które zwiększają szum i zakłócenia w spektrum dźwiękowym. Tak czy inaczej, reprodukcja treści zbędnych pogarsza jakość.

Jest kilka sposobów, aby uniknąć tych dodatkowych zniekształceń:

1) Dedykowane wyłącznie do ultradźwięków głośniki, wzmacniacze i zwrotnice aby odizolować i przetwarzać ultradźwięki niezależnie, których i tak nie możesz słyszeć, wyłącznie po to, żeby nie zakłócały dźwięków słyszalnych.

2) Wzmacniacze i przetworniki zaprojektowane do przetwarzania szerszego pasma, aby aby ultradźwięki nie powodowały słyszalnych intermodulacji. Dając taką samą złożoność i nakład, ten dodatkowy zakres częstotliwości musi się odbić na obniżeniu reprodukcji w zakresie słyszalnym.

3) Głośniki i wzmacniacze zaprojektowane starannie, żeby nie przenosiły w ogóle ultradźwięków.

4) Brak kodowania tak szerokiego zakresu częstotliwości już na początku. Nie będziesz mieć i nie możesz mieć zniekształceń intermodulacyjnych w paśmie słyszalnym, jeśli brak zawartości ultradźwiękowej.

We wszystkim chodzi o to samo, ale tylko 4) ma sens.

Jeśli jesteś zainteresowany jak twój system działa, to są próbki zawierające częstotliwości 30 kHz i 33 kHz w plikach WAV 24/96, i dłuższe wersje we FLAC, kilka modulacji trzech częstotliwości, zwykła piosenka całkowicie przesunięta poza 24 kHz tak, że jest tylko w zakresie 24kHz - 46kHz:

Testy intermodulacji:

30kHz ton + 33kHz ton (24 bit / 96kHz) [5 sekund WAV] [30 sekund FLAC]
26kHz - 48kHz tony modulacji (24 bit / 96kHz) [10 sekund WAV]
26kHz - 96kHz tony modulacji (24 bit / 192kHz) [10 sekund WAV]
Piosenka przesunięta powyżej 24kHz (24 bit / 96kHz WAV) [10 sekund WAV]
(oryginalna wersja piosenki) (16 bit / 44.1kHz WAV)

Zakładając, że twój system jest faktycznie zdolny do odtwarzania 96 kHz [6], to powyższe pliki powinny być zupełną ciszą bez słyszalnych szumów, tonów, trzasków lub innych dźwięków. Jeśli coś słyszysz, to twój system ma nieliniowość powodującą słyszalne intermodulacje z ultradźwięków. Bądź ostrożny ze zwiększaniem głośności; jeśli wejdziesz w cyfrowy lub analogowy clipping, nawet delikatny, to spowoduje głośne tony intermodulacyjne.

Podsumowując, nie jest pewne czy intermodulacje z ultradźwięków będą słyszalne na danym systemie. Dodane zniekształcenia mogą być bez znaczenia albo mogą być zauważalne. Tak czy inaczej ultradźwięki nigdy nie są korzyścią i na wielu systemach będą wyraźnie obniżać jakość. W systemach gdzie to nie szkodzi, koszty i komplikacje mogą być zaoszczędzone lub przeznaczone na poprawę jakości zakresu słyszalnego.

Błędy i nieporozumienia w kwestii samplingu


Próbkowanie jest niezrozumiałe bez zagłębienia się w teorię przetwarzania sygnału. Nic dziwnego, że większość ludzi, nawet genialnych doktorantów w innych dziedzinach, rutynowo tego nie rozumieją. Nie jest również zaskakujące, że wiele osób nie zdaje sobie sprawy, że pojmują to źle.


Powyżej: Sygnały samplowane są często przedstawiane jako kanciaste schodki (czerwony), które wydają się słabym przybliżeniem oryginalnego sygnału. Jednak matematyczna reprezentacja jest precyzyjna i dokładna, sygnał odzyskuje gładki kształt oryginału (niebieski) po przetworzeniu z powrotem na sygnał analogowy.

Najczęstszym nieporozumieniem jest to, że uważa się sampling za niedokładny i stratny. Sygnał próbkowany jest często przedstawiany jako postrzępiony, schodkowy, kanciasty widok oryginalnego idealnie gładkiego przebiegu. Jeśli w ten sposób wyobrażacie sobie jak działa sampling, to możecie wierzyć, że im gęstszy (większa częstotliwość) będzie sampling (oraz im więcej bitów na próbkę), to te schodki będą coraz mniejsze i przybliżenie będzie lepsze. Sygnał cyfrowy będzie brzmiał najbliżej oryginału, jeśli częstotliwość próbkowania zbliży się do nieskończoności.

Podobnie, wiele osób nieznających się na cyfrowym przetwarzaniu dźwięku patrząc na coś takiego:


powiedzą: Ach! Wygląda na to, że samplowany sygnał reprezentuje wyższe częstotliwości źle. Lub też, że im wyższa częstotliwość sygnału, tym niższa jakość a przebieg częstotliwości opada, albo że staje się wrażliwy na fazę sygnału wejściowego.

Pozory mylą. Te wszystkie przekonania są błędne!

Dodano 2013-04-04:
W odpowiedzi na maile, które dostałem dotyczące kształtu fal i schodków, pokazuję faktyczne zachowanie się sygnału cyfrowego na prawdziwym sprzęcie w wideo Digital Show & Tell więc nie musicie mi tak po prostu wierzyć na słowo!

Wszystkie sygnały leżące całkowicie poniżej częstotliwości Nyquista (połowa częstotliwości próbkowania) są samplowane idealnie i w sposób dokładny; nieskończona częstotliwość próbkowania nie jest wymagana. Próbkowanie nie wpływa na spadek poziomu dla większych częstotliwości lub fazę. Sygnał analogowy można zrekonstruować bezstratnie, dokładnie i z odwzorowaniem wejściowej fazy oryginalnego sygnału analogowego.

Tak więc model matematyczny jest idealny, ale co z komplikacjami realnego świata? Najtrudniejszy jest wymóg ograniczenia pasma. Zawartość sygnału powyżej częstotliwości Nyquista musi zostać odfiltrowana, aby uniknąć zniekształceń aliasingu; to właśnie ten analogowy filtr dolnoprzepustowy jest niesławnym filtrem antyaliasingowym. Antyaliasing nie może być idealny, ale nowoczesne technologie zbliżają się do doskonałości... i w ten sposób dochodzimy do oversamplingu.

Oversampling

Próbkowanie szybsze niż 48 kHz jest bez znaczenia w odniesieniu do jakości dźwięki, ale jest niezbędne dla kilku nowoczesnych technik cyfrowych. Najlepszym przykładem jest oversampling[7].

Oversampling jest prosty i potrzebny. Można przypomnieć z mojego filmu A Digital Media Primer for Geeks  że wysokie częstotliwości próbkowania dają większą przestrzeń pomiędzy najwyższą częstotliwością dźwięku na której nam zależy (20 kHz) i częstotliwości Nyquista (połowa częstotliwości próbkowania). To pozwala na użycie łagodniejszych filtrów antyaliasingowych, a tym samym wyższą wierność. Ta dodatkowa przestrzeń pomiędzy 20kHz i częstotliwością Nyquista jest w zasadzie tylko widmowym wypełniaczem dla filtra analogowego.


Powyżej:  Schemat z filmu „Digital Media Primer dla maniaków” ilustrujących szerokość pasma przejścia dostępnego dla 48 kHz ADC/DAC (z lewej) i 96kHz ADC/DAC (z prawej).

Ale to nie wszystko. Ponieważ filtry cyfrowe mają tylko niektóre z ograniczeń filtrów analogowych, możemy zakończyć proces antyaliasingu z większą wydajnością i precyzją w domenie cyfrowej. Bardzo wysoka częstotliwość surowego sygnału cyfrowego przechodzi przez antyaliasingowy filtr cyfrowy, który już nie ma problemu żeby się wpasować w ciasne pasmo przejścia. Po cyfrowym antyaliasingu, nadmiarowe próbki wypełniające są po prostu odrzucane. Odtwarzanie nadpróbkowanego sygnału działa analogicznie w odwrotnym kierunku.

Oznacza to, że możemy korzystać z niskiego próbkowania 48 kHz lub 44,1 i mieć dźwięk ze wszystkimi korzyściami jakości 192 kHz lub wyższego próbkowania (wyrównana charakterystyka przenoszenia, niski aliasing) i żadnych wad, które wysoki sampling powoduje (ultradźwięki, zniekształcenia intermodulacyjne, zmarnowana przestrzeń  nośnika). Prawie wszystkie dzisiejsze przetworniki analogowo-cyfrowe (ADC) i cyfrowo-analogowe (DAC) działają na oversamplingu z wysokimi częstotliwościami. Niewielu ludzi zdaje sobie sprawę że to ma miejsce, bo odbywa się to całkowicie automatyczna i dyskretnie.

ADC i DAC nie zawsze faktycznie oversamplują. Trzydzieści lat temu, niektóre konsole rejestrowały na wysokich częstotliwościach próbkowania i miały jedynie filtry analogowe, a produkcja i mastering po prostu używał tych wysokich częstotliwości. Cyfrowy antyaliasing i decymacja (resampling do niższej częstotliwości na płytach CD lub DAT) odbywały się w końcowej fazie masteringu. To może być jeden z powodów, że 96kHz i 192kHz od początku kojarzył się wszystkim z profesjonalną produkcją muzyczną[8].

16 bit vs. 24 bit

Ok. Więc muzyka w plikach 192 kHz nie ma sensu. Trafiony, zatopiony. Ale co z porównaniem audio w 16 bitach z 24 bitowym?

To prawda, że audio LPCM 16 bitów nie pokrywa całego zakresu słyszenia przez słuch człowieka w idealnych warunkach. A więc są (i zawsze będą) powody, żeby użyć więcej niż 16 bitów w nagrywaniu i w produkcji.

To jednak nie ma znaczenia dla odtwarzania; tu 24 bity są tak samo bezużyteczne jak sampling 192kHz. To po prostu nic nie daje, tylko pliki są większe.

Wróćmy do uszu

Omówiliśmy zakres częstotliwości ucha, ale co z zakresem dynamiki od najcichszych dźwięków do najgłośniejszych możliwych?

Jednym ze sposobów, aby zdefiniować pełny zakres dynamiczny będzie ponowne spojrzenie na wykres absolutnego progu słuchu i krzywych bólu. Odległość między najwyższym punktem na progu krzywej bólu i najniższym punktem na krzywej progu absolutnego słuchu wynosi około 140 decybeli dla młodego, zdrowego słuchacza. Jednak to nie potrwa wiecznie; + 130dB jest wystarczająco głośne, aby trwale uszkodzić słuch w kilka sekund lub minut. Dla porównania młot pneumatyczny w odległości jeden metr to tylko 100-110dB.

Bezwzględny próg podnosi się wraz z wiekiem i utratą słuchu. Co ciekawe, próg bólu obniża się z wiekiem, a nie wzrasta. Komórki słuchowe w ślimaku jako takie posiadają tylko część zakresu 140dB;  mięśnie w uchu ciągle regulują ilość dźwięku docierającego do ślimaka poprzez przesunięcie kosteczek słuchowych, podobnie jak tęczówka reguluje ilość światła wpadającego do oka[9]. Mechanizm ten sztywnieje wraz z wiekiem, co ogranicza zakres dynamiki ucha i zmniejsza skuteczność jego mechanizmów obrony[10].

Hałas otoczenia

Niewiele osób zdaje sobie sprawę jak naprawdę cichy jest bezwzględny próg słuchu.

Najcichszym odczuwalnym dźwiękiem jest -8dB SPL[11]. Przy użyciu skali A-ważonej, szum 100 watowej żarówki mierzony z jednego metra jest o 10dB SPL a więc o 18 dB głośniejszy. Żarówka będzie dużo głośniejsza jeśli jest podłączona do ściemniacza.

20 dB SPL (lub 28 dB głośniejszy niż najcichsze dźwięki słyszalne) jest często cytowane jako cisza w pustym  studio nagraniowym/nadawczym lub w komorze bezechowej. To jest wyjątkowo ciche otoczenie i jeden z powodów, dlaczego prawdopodobnie nigdy nie słyszałeś włączonej żarówki.

Zakres dynamiczny 16 bitów

LPCM 16 bitów ma zakres dynamiki 96dB według najbardziej powszechnej definicji, która oblicza zakres dynamiki mnożąc ilość bitów razy 6dB. Wielu myśli, że 16-bitowy dźwięk nie może rejestrować dźwięków cichszych niż -96dB. Tak nie jest.

Poniżej linki z dwoma plikami audio 16-bitów; jeden zawiera sygnał 1kHz przy 0 dB (gdzie 0 dB jest najgłośniejszym możliwym tonem), a drugi to sygnał 1kHz przy -105dB.

Próbka 1: 1kHz tone at 0 dB (16 bit / 48kHz WAV)

Próbka 2: 1kHz tone at -105 dB (16 bit / 48kHz WAV)


Powyżej: Analiza spektralna tonu o poziomie-105dB zakodowanego jako 16 bit/48kHz PCM. 16 bit PCM ma dynamikę znacznie większą niż 96dB, dźwięk -105dB jeszcze może być zapisany tak, aby go można było usłyszeć.

Jak jest możliwe zakodowanie tego sygnału bez zniekształceń i zakodowanie go znacznie powyżej poziomu szumu, gdy szczyt tego tonu ma amplitudę nieco ponad jedną trzecią bita?


Tą zagadkę wyjaśnia częściowo odpowiedni dither, który renderuje szum kwantyzacji niezależny od sygnału wejściowego. Oznacza to, że ditherowana kwantyzacja nie powoduje zniekształceń, tylko chaotyczny szum. To z kolei oznacza, że możemy zakodować sygnał o dowolnej głębokości, nawet taki o szczytowej amplitudzie znacznie mniejszej niż jeden bit[12]. Jednak nie zmienia faktu, że jeśli sygnał spadnie poniżej poziomu szumów, to powinien zaniknąć. Więc jak to jest możliwe, że ton -105dB wciąż jest wyraźnie słyszalnym sygnałem na tle szumu -96dB?

Odpowiedź: Nasze wyobrażenie szumu -96dB jest zasadniczo błędne; stosujemy niewłaściwe określenie zakresu dynamicznego. 6 bitów pomnożone przez ilość dB daje RMS szumu całego sygnału szerokopasmowego, ale każda frakcja włosków ucha jest czuła tylko na wąski fragment całkowitej szerokości pasma. Jeśli każda komórka słuchowa odbiera jedynie ułamek całkowitej energii poziomu szumu to poziom szumu w tej komórce będzie znacznie niższy niż wartość szerokopasmowej całości -96dB.

Tak więc, 16-bitowe audio może zejść znacznie głębiej niż 96dB. Dzięki zastosowaniu ukształtowanego ditheru, który umiejscawia szum kwantyzacji w zakresie częstotliwości, gdzie trudniej jest go usłyszeć, skuteczny zakres dynamiczny 16 bitowego audio osiąga  w praktyce 120dB[13], więcej niż piętnaście razy niżej niż roszczenie 96dB.

120dB jest większą różnicą niż między komarem w odległości paru metrów i młotem pneumatyczny w odległości 30 cm w tym samym pokoju ... lub różnicą pomiędzy pokojem dźwiękoszczelnym i dźwiękiem na tyle głośnym, aby spowodować uszkodzenia słuchu w ciągu kilku sekund.

16 bitów jest wystarczające do zapisania wszystkiego co jesteśmy w stanie usłyszeć i będzie zawsze wystarczać.

Stosunek sygnału do szumu

Warto wspomnieć wspomnieć, że stosunek S/N (sygnał/szum) ucha jest mniejszy niż jego całkowity zakres dynamiczny. W ramach wybranego wąskiego pasma typowe S/N szacuje się  na zaledwie 30 dB. Względna S/N nie osiągnie pełnego zakresu dynamicznego nawet biorąc pod uwagę szerokie zakresy pasm. 16-bitowy LPCM oferuje wobec tego większą rozdzielczość niż w rzeczywistości jest to wymagane.

Warto również wspomnieć, że zwiększenie głębi bitowej odwzorowania dźwięku od 16 do 24 bitów nie zwiększa wyczuwalnej rozdzielczości lub "finezyjności" brzmienia. To tylko zwiększa zakres dynamiki, zakres między najcichszym możliwym i najgłośniejszym dźwiękiem, poprzez obniżenie poziomu szumów. Jednak 16-bitowy poziom szumu jest już piętro poniżej tego, co można usłyszeć.

Kiedy 24-bity mają znaczenie?

Zawodowcy używają samplowania 24 bity w nagrywaniu i produkcji[14] by mieć przestrzeń, niskie szumy i wygodę.

16 bitów wystarczy żeby objąć faktyczny zakres słyszenia i to z rezerwą. Nie obejmuje całego możliwego zakresu sygnału w sprzęcie audio. Głównym powodem do wykorzystania 24 bitów podczas nagrywania jest możliwość uniknięcia błędów; zamiast się mozolić aby trafić z poziomem zapisu 16 bitów - ryzykując Clipping jeśli nagrasz za głośno lub dodanie szumów jeśli za cho - 24 bity pozwalają operatorowi ustawić poziom z większą tolerancją i nie martwić się zbytnio o resztę. Nieoptymalne ustawienie wzmocnienia przez kilka brakujących bitów nie ma już żadnych konsekwencji i skutkuje dużą rezerwą zakresu dynamiki możliwym do wykorzystania w dalszej pracy.

Inżynier wymaga także więcej niż 16 bitów w czasie miksowania i masteringu. Nowoczesne metody pracy mogą obejmować dosłownie tysiące efektów i operacji. Szum kwantyzacji i poziom szumu w 16-bitowym próbkowaniu mogą być niewykrywalne podczas odtwarzania, ale mnożąc ten szum kilka tysięcy razy w końcu stajnie się zauważalny. 24 bity utrzymują nagromadzony szum na bardzo niskim poziomie. Gdy muzyka jest gotowa do dystrybucji, nie ma już powodu, aby zachować więcej niż 16 bitów.

Testy odsłuchowe

Zrozumienie jest połączeniem teorii i praktyki. Sprawa jest rozstrzygnięta tylko wtedy, gdy obie strony się ze sobą zgadzają.

Materiały doświadczalne z odsłuchów uwierzytelniają twierdzenie, że 44,1 kHz/16 bitów zapewnia odtwarzanie najwyższej możliwej wierności. Istnieje wiele badań potwierdzających to w warunkach kontrolowanych, ale ja cytuję jedynie materiał z odsłuchu w pętli w standardzie CD A/D/A wpiętej w sprzęt odtwarzający o wysokiej rozdzielczości  Audibility of a CD-Standard A/D/A Loop Inserted into High-Resolution Audio Playback  przeprowadzony przez Boston Audio Society .[tłumaczenie dokumentu jest tutaj]

Niestety, pobranie dokumentu wymaga pełnego członkostwa AES. Jednak dokument był omawiany szeroko w artykułach i na forum z udziałem autorów.  Oto kilka linków:

The Emperor's New Sampling Rate
Hydrogen Audio forum discussion thread
Supplemental information page at the Boston Audio Society, including the equipment and sample lists

Artykuł pokazuje jak słuchacze mieli odróżnić materiał dźwiękowy DVD-A/SACD; wybrany przez zwolenników wysokiej rozdzielczości, aby pokazać jej wyższość; a tym samym materiałem resamplowanym do standardu 16-bit/44.1 kHz jak w CD. Słuchacze zostali poproszeni o identyfikację każdej różnicy między nimi za pomocą metodologii ABX. BAS przeprowadziło test z użyciem wysokiej klasy profesjonalnego sprzętu w studio odizolowanym od zewnętrznego hałasu  z udziałem zaawansowanych amatorów i słuchaczy zawodowych.

W 554 próbach słuchacze wybrali poprawnie w 49,8% przypadków. Innymi słowy zgadywali. Żaden słuchacz przez cały czas badania nie był w stanie określić, co było 16/44,1 a co wysoką rozdzielczością, a 16-bitowy sygnał nawet nie był ditheringowany!

W jednym z ostatnich badań[16] sprawdzano możliwość usłyszenia ultradźwięków, jak to sugerowały wcześniejsze badania. Test został tak skonstruowany, aby zmaksymalizować możliwość ich wykrycia poprzez umieszczenie produktów intermodulacji tam, gdzie mogą być najbardziej słyszalne. Okazało się, że ultradźwięki nie były słyszalne, ale zniekształcenia intermodulacji wprowadzone przez głośniki były.

Dokument ten zainspirował wiele dalszych badań, wiele z nich zakończonych różnymi rezultatami. Niektóre dwuznaczności zostały wyjaśnione stwierdzając, że ultradźwięki mogą wywoływać więcej zniekształceń intermodulacyjnych we wzmacniaczu mocy niż oczekiwano. Na przykład,  David Griesinger powielił ten eksperyment  [17] i stwierdził, że jego konfiguracja głośników nie wprowadziła słyszalnych zniekształcenia intermodulacyjnych z ultradźwięków, ale zrobił to jego wzmacniacz stereofoniczny.

Jak (nieumyślnie) zepsuć porównanie odsłuchu

Najczęstszy komentarz jaki słyszałem od wierzących w bardzo wysokie próbkowanie dźwięku był następujący (parafrazując): "Słuchałem dźwięku o wysokiej rozdzielczości u siebie i poprawa była oczywista. Mówisz poważnie, że mam nie ufać własnym uszom?"

Oczywiście, że można zaufać własnym uszom. To mózgi są naiwne. Nie mam na myśli nic lekceważącego; jako ludzie, jesteśmy wszyscy podatni na zwodzenie.

Efekt nastawienia, efekt placebo i podwójnie ślepa próba

W każdym teście, gdzie testujący ma dwie opcje powiązane z innymi rzeczami nie związanymi ze słuchaniem, wyniki będą zwykle takie jak osoba zakłada z góry; nazywa się to efektem nastawienia (ang. Confirmation bias - błąd konfirmacji) i jest on  podobny do  efektu placebo. Oznacza to, że można "usłyszeć" różnice ze względu na podświadome bodźce i własne preferencje, które nie mają nic wspólnego z dźwiękiem, jakby ktoś wolał droższy (lub bardziej atrakcyjny) wzmacniacz od tańszego.

Ludzki mózg jest tak zbudowany, by zauważyć wzorce i różnice nawet tam, gdzie ich nie ma. Tej tendencji nie można wyeliminować po prostu prosząc kogoś, aby podejmował obiektywne decyzje; jest to całkowicie podświadome. Nie można pokonać stronniczości przez nieco sceptycyzmu. Kontrolowane eksperymenty pokazują, że świadomość błędu konfirmacji może raczej zwiększyć niż zmniejszyć ten efekt! Testy, które nie mogą całkowicie wyeliminować nastawienia badanych są bezwartościowe[18].

W badaniu pojedynczo-ślepym, słuchacz nie ma informacji o wyborach testowych i nie otrzymuje informacji zwrotnej w czasie trwania testu. Badanie w pojedynczym ślepym teście jest lepsze niż zwykłe porównywanie, ale nie eliminuje stronniczości eksperymentatora. Administrator testu może łatwo przypadkowo wpływać na test lub przesyłać własne podświadome nastawienie do słuchacza przez podprogowe sygnały (np. "Czy jesteś pewien, że to słyszysz?", język ciała wskazujący na "zły" wybór, wahając się przypadkowo, etc ). Zostało również eksperymentalnie udowodnione, że nastawienie eksperymentatora ma wpływ na wyniki testu.

Badania odsłuchowe podwójnie ślepego testu są przyjętym standardem; w tych testach ani testujący ani testowany nie posiada wiedzy o zawartości wyników badań w bieżących próbach. Testy ABX prowadzone z udziałem komputera są najbardziej znanym przykładem i są dostępne jako narzędzia do wykonywania testów ABX na własnym komputerze[19]. ABX jest uważany za konieczne minimum do testu odsłuchowego; szanujące się fora internetowe audio jak np. Hydrogen Audio 
często nie pozwalają na omówienie wyników słuchania, jeżeli nie spełni się tego minimalnego wymogu obiektywizmu [20].


Powyżej: Squishyball w wierszu polecenia – proste narzędzie ABX, działające w xterm.

Ja osobiście nie robię żadnych badań porównawczych jakości podczas pracy, bez względu na to jak sprawa może być banalna, bez narzędzia ABX. Nauka jest nauką, nie partactwem.

Sztuczki z głośnością

Ludzkie ucho może świadomie wyłapać różnice amplitudy 1 dB, a eksperymenty pokazują, że podświadomie słyszy się różnice amplitudy poniżej 0,2dB. Ludzie niemal powszechnie uważają głośniejszy dźwięk za brzmiący lepiej, a 0,2dB wystarczy do potwierdzenia tej preferencji. Wszelkie porównania, które niedokładnie wyrównują poziom będą skutkować wyborem głośniejszego za lepsze nawet jeśli różnica amplitudy jest zbyt mała, aby ją wychwycić świadomie. Sprzedający sprzęt wiedzą o tej sztuczce od dawna.

Profesjonalne testy dopasowują głośność źródeł w granicach 0,1dB lub lepiej. To często wymaga użycia oscyloskopu lub analizatora sygnału. Zgadywanie czy głośność jest jednakowa przez obrót pokręteł w dwóch źródłach dźwięku nie wystarcza.

Clipping

Clipping to następny oczywisty błąd, czasem widoczny dopiero z perspektywy czasu. Nawet kilka uciętych próbek lub ich następstwa są łatwo słyszalne w porównaniu do czystego sygnału.

Niebezpieczeństwo clippingu jest szczególnie szkodliwe w testach, które tworzą, resamplują lub w inny sposób manipulują na bieżąco sygnały cyfrowe. Załóżmy, że chcemy porównać jakość samplingu 48kHz do oryginalnego sygnału 192kHz. Typowym sposobem jest downsamplowanie
192kHz do 48 kHz i upsamplowanie z powrotem do 192 kHz, a następnie porównanie z oryginałem 192kHz w teście ABX[21]. Takie rozwiązanie pozwala na wyeliminowanie możliwości wpłynięcia na rezultat przez sprzęt lub zamienienie próbek; możemy korzystać z tego samego DAC do odtworzenia obu plików i przełączać się między próbkami bez zmiany sprzętu.

Niestety, większość nagrań jest masterowana, aby korzystać z pełnej skali dynamiki. Naiwny resampling może i często będzie powodował sporadyczny clipping. Konieczne jest albo sprawdzenie czy występuje clipping (i odrzucenie plików z obcięciami) lub uniknięcie clippingu przez inne środki, takie jak ściszenie.

Inny nośnik, inny mastering

Przejrzałem kilka artykułów i blogów, które deklarują wirtuozerię nagrań 24 bity 96/192 kHz w porównaniu CD do DVD-audio lub SACD "tego samego nagrania". Takie porównanie jest nieuprawnione, bo mastering jest zazwyczaj inny.

Rzeczy nieporównywalne

Nieporównywalne ze sobą materiały dźwiękowe zdarzają się w sposób nieunikniony w starszych analogowych i hybrydowych cyfrowo/analogowych konfiguracjach testowych. Czysto cyfrowe konfiguracje testowania mogą całkowicie wyeliminować problem niektórych form testowania, ale także pomnożyć możliwość powstawania złożonych błędów w oprogramowaniu. Takie ograniczenia i błędy mają długą historię powodując fałszywe dodatnie wyniki testów[22].

The Digital Challenge -więcej na ABX Testing, przytacza fascynującą historię konkretnego testu odsłuchowego przeprowadzonego w 1984 roku w celu obalenia audiofilskiej tezy, jakoby płyty CD były z natury gorsze od winylu. Artykuł nie zajmuje się jakoś szczególnie wynikami testu (które podejrzewam będziesz w stanie odgadnąć), ale metodą działania w realnym świecie oraz niechlujstwem mającym miejsce przy prowadzeniu takiego badania. Na przykład, błąd ze strony testerów spowodował, że zaproszony ekspert audiofil nie dokonywał wyborów w oparciu o jakość dźwięku, ale przez to, że były różniące się kliknięcia przekaźników przełącznika ABX dla wyjścia analogowego!

Anegdoty nie zastępują danych, ale ta historia jest pouczająca i ukazuje łatwość, z jaką można wypaczyć testy odsłuchowe. Niektóre z omawianych tu przekonań audiofilskich są również dość zabawne; niektóre współczesne przykłady przypuszczalnie będą uznane za tak samo głupie za następne 20 lat.

Wreszcie dobre wieści

Co faktycznie może poprawić jakość dźwięku cyfrowego, który słuchasz?

Lepsze słuchawki

Najprostsze rozwiązanie nie jest cyfrowe. Największa możliwość poprawy jakości w odniesieniu do kosztów to dobre słuchawki. Słuchawki nauszne, douszne, otwarte lub zamknięte, to nie ma nic do rzeczy. Nie muszą nawet być drogie, choć drogie słuchawki mogą być warte swojej ceny.

Należy pamiętać, że niektóre słuchawki są drogie, ponieważ są one dobrze wykonane, trwałe i brzmią świetnie. Inne są drogie, bo przetworniki za 20 dolarów są schowane pod kilkoma warstwami stylizacji, marki i marketingu za sto dolarów. Nie będę tu dawać rekomendacji konkretnych słuchawek, ale powiem, że raczej nie jest możliwe, aby znaleźć dobre słuchawki w dużym markecie, nawet jeśli specjalizuje się on w elektronice i muzyce. Jak we wszystkich innych aspektach konsumenckiego hi-fi trzeba szukać i przeciwstawić się sprzedawcom.

Formaty bezstratne

To prawda, że prawidłowo zakodowany plik Ogg (lub MP3 lub plik AAC) w umiarkowanym bitrate będzie nie do odróżnienia od oryginału.

Ale co ze źle zakodowanymi plikami?

Dwadzieścia lat temu, wszystkie enkodery mp3 były naprawdę złe jak na dzisiejsze standardy. Wiele z tych starych, złych enkoderów jest nadal w użyciu, prawdopodobnie dlatego, że licencje są tańsze, a większość ludzi nie słyszy różnicy lub nie dba o to. Jaka firma będzie wydawać pieniądze, aby naprawić coś o czym nikt nie wie, że jest kiepskie?

Sięgnięcie po nowsze formaty jak Vorbis lub AAC nie musi pomóc. Na przykład wiele firm i osób prywatnych używało (i nadal korzysta) z bardzo niskiej jakości FFmpega wbudowanego w enkoder Vorbis, ponieważ był domyślny w FFmpeg i nikt nie miał świadomości jak był kiepski. AAC ma jeszcze dłuższą historię szeroko rozpowszechnionych niskiej jakości przetworników; każdy mainstreamowy format stratny ma.

Formaty bezstratne, jak FLAC pozwalają uniknąć możliwości obniżenia jakości dźwięku[23] przez słabej jakości stratny enkoder, a nawet dobry enkoder stratny użyty nieprawidłowo.

Drugim powodem by stosować bezstratne formaty dystrybucji jest uniknięcie straty generacyjnej. Każde przekodowywanie lub transkodowanie traci coraz więcej danych; nawet jeśli pierwsze kodowanie jest przejrzyste, to bardzo możliwe, że drugie będzie miało słyszalne artefakty. Ma to znaczenie dla wszystkich, którzy chcą remiksować lub samplować swoje pliki. To szczególnie ważne dla nas, pracujących z samplami, bo potrzebujemy mieć do pracy czysty materiał.

Lepszy mastering

Test BAS wspomniany wcześniej  dodaje na marginesie, że wersje SACD nagrania brzmią znacznie lepiej niż w wydaniu CD. Nie z powodu zwiększonej częstotliwości próbkowania i głębokości bitowej, ale dlatego, że SACD ma mastering wyższej jakości. Przerzucona na płytę CD-R, wersja SACD wciąż brzmi tak dobrze jak oryginalne SACD i lepiej niż wydanie CD, ponieważ oryginalne audio użyte do wydania na SACD było lepsze. Dobra produkcja i mastering oczywiście przyczynia się do ostatecznego podniesienia jakości muzyki[24].

Nowe wersje "Mastering dla iTunes" i podobne inicjatywy z innych wytwórni są dość zachęcające. Okaże się czy Apple i inni rzeczywiście zrobią to jak trzeba czy też jest to tylko haczyk do sprzedaży konsumentom droższych kopii muzyki, którą już mają.

Surround

Innym haczykiem na klienta są nagrania dźwięku przestrzennego. Niestety jest tu pewne niebezpieczeństwo techniczne.

Stary styl dyskretnego dźwięku przestrzennego z wieloma kanałami (5.1, 7.1, itd) jest reliktem technicznym stosowanym w kinach do 1960 roku. Stosowanie większej liczby kanałów niż w przypadku konkurencyjnych systemów jest nieefektywne. Obraz przestrzenny jest ograniczony, i ma tendencję do przemieszczania się w kierunku bliższych głośników, gdy słuchacz przesuwa się z optymalnej pozycji.

Możemy reprezentować i kodować doskonałą lokalizację z systemami jak Ambisonics. Problemem są koszty sprzętu do reprodukcji i fakt, że coś zakodowane w naturalnej akustyce brzmi źle, gdy się to odtwarza się w radio i takie nagrania nie mogą być tworzone sztucznie w studio w przekonujący sposób. Trudno sfałszować ambisonics lub holograficzny dźwięk, tak jak trudno sfałszować film 3D, to zawsze przeradza się w krzykliwą sztuczkę, która sprawia, że 5% ludności od tego się pochoruje.

Binaural audio jest podobne. Nie można go zasymulować, ponieważ działa nieco inaczej na każdego człowieka. Jest to wyuczona umiejętność samodzielnego dostrojenia system pinnae, kanału słuchowego oraz przetwarzania neuralnego i nigdy nie przebiega w ten sam sposób u dwóch różnych osób. Ludzie również podświadomie pochylają głowę w celu dokładniejszej lokalizacji i nie można zlokalizować dobrze źródła dźwięku dopóki tego nie zrobią. To jest coś, co nie może być ujęte w nagraniu binauralnym, choć może z dobrym skutkiem w zwykłym surround.

Są to prawie niemożliwe do obejścia przeszkody techniczne. Discrete Surround zakorzenił się na rynku, a ja osobiście szczególnie lubię możliwości oferowane przez Ambisonics.

Outro

"Nigdy nie dbałem zbytnio o muzykę.
To jest high fidelity!"
-Flanders & Swann, Song of Reproduction

Chodzi o to, by cieszyć się muzyką, prawda? Nowoczesne systemy audio są nierównanie lepsze niż już doskonałe systemy analogowe dostępne dekadę temu. Teraz to już raczej logiczna ekstrema niż jakiś istotny problem dla świata. Być może, ale złe nagrania i złe kodowanie przeszkadza mi; odciąga mnie od muzyki i pewnie nie tylko mnie.

Dlaczego więc jestem przeciwko 24/192? Ponieważ jest to rozwiązanie problemu, który nie istnieje, to jedynie nieciekawy biznes bazujący na niewiedzy i oszukiwanie ludzi. Im więcej pseudonauki idzie w świat, tym trudniej jest prawdzie przezwyciężyć "prawdziwiejszość"*) ... nawet jeśli nie jest to nic ważnego i stosunkowo ma niewielkie znaczenie. *) w oryginale: truthiness

"O wiele lepiej widzieć Wszechświat takim jakim jest, niż trwać w iluzji, nawet jeśli ona satysfakcjonuje i uspokaja."
-Carl Sagan

Dalsza lektura

Czytelnicy informują mnie  o kilku znakomitych pracach, których nie znałem przed rozpoczęciem pisania mojego własnego artykułu. Teksty podzielają moje zdanie w wielu punktach i podchodzą do zagadnienia bardziej szczegółowo.

Coding High Quality Digital Audio Bob Stuart z Meridian Audio; tekst jest bardzo zwięzły mimo jego objętości. Nasze wnioski różnią się nieco (uznaje potrzebę nieco szerszego zakresu częstotliwości i większej bitowej głębi nie podając żadnego uzasadnienia), ale wywód jest jasny i łatwy do zrozumienia. [Edit: Nie mogę zgodzić się z wieloma innymi artykułami pana Stuarta, ale ten mi się bardzo podoba.]

Sampling Theory For Digital Audio [Aktualizacja linku 04.10.2012] Dana Lavry z Lavry Engineering to kolejny artykuł, który zauważyło kilku czytelników. Rozszerza mój tekst o próbkowaniu, oversamplingu i filtrowaniu z jakichś dwóch stron  na bardziej szczegółowe 27 stron . Ale nie martw się, jest tam wiele ilustracji i wykresów.

Stephane Pigeon z  audiocheck.net napisał by podpiąć testy odsłuchowe wykonywane w przeglądarce zawarte na jego stronie internetowej. Zestaw testów jest stosunkowo niewielki, jak na razie, ale kilka było istotnych w kontekście tego artykułu. Spisali się dobrze i uważam, że jakość jest dość dobra.

Przypisy

1. Ktoś sfrustrowany napisał:

"[Teoria Samplingu] nie została wynaleziona, żeby wyjaśnić jak działa cyfrowe audio tylko na odwrót. Digital Audio powstało na podstawie teorii, więc jeśli nie wierzysz w teorię, to nie możesz wierzyć w audio!!"

http://www.head-fi.org/t/415361/24bit-vs-16bit-the-myth-exploded

2. Jeśli to nie był najnudniejszy żart na prywatce, to niewiele brakowało.

3. Raczej mówi się o długości fal światła widzialnego mierzonego w nanometrach lub angstremach. Używam częstotliwości by to skorelować z dźwiękiem. To jest równoważne, a częstotliwość jest po prostu odwrotnością długości fali.


4. Eksperyment LED nie działa z diodami "UV", głównie dlatego, że nie są one naprawdę ultrafioletowe. Są na tyle głęboko fioletowe by spowodować trochę fluorescencji, ale świecą również w zakresie widzialnym. Prawdziwe diody ultrafioletowe kosztują od 100 do 1000 dolarów dolarów za sztukę i spowodują uszkodzenie oczu, jeżeli się je weźmie do tego testu. Diody klasy konsumenckiej tak-naprawdę-nie-UV emitują również nieco słabego światła białego aby ogólnie świeciły jaśniej więc będziesz w stanie je zobaczyć, nawet jeśli szczyt emisji był w ultrafiolecie.

5. Oryginalna wersja tego artykułu opisuje, że diody podświetlające działają w zakresie od 300-325THz (około 920-980nm) czyli przy długościach fal, które są niewidoczne. Sporo czytelników napisało, że może rzeczywiście zobaczyć światło diody w niektórych (lub wszystkich) swoich pilotach. Kilku było na tyle uprzejmych, aby dać mi znać jakie to były piloty, i byłem w stanie przetestować kilka na spektrometrze. I oto te piloty pracowały przy użyciu diod LED o wyższej częstotliwości z zakresu 350-380THz (800-850nm), po prostu nakładającym się na skrajną krawędź w zakresie widzialnym.

6. Wiele systemów nie jest w stanie odtworzyć próbkowania 96 kHz i po cichu przekonwertuje je do 48 kHz raczej niż odmawia współpracy. W takim razie ton nie będzie w ogóle odtworzony i będzie cisza bez względu na to jak nieliniowy może być system.

7. Oversampling nie jest jedyną aplikacją dla wysokich częstotliwości samplowania w przetwarzaniu sygnałów. Istnieje kilka teoretycznych zalet ograniczonego pasma dźwięku w wysokiej częstotliwości próbkowania unikając decymacji, nawet jeśli się  zmniejsza częstotliwość próbkowania do dystrybucji. Nie jest jasne czy się to stosuje w praktyce, bo sposoby działania większości profesjonalnych konsol są tajemnicą handlową.

8. Czy to ma historyczne uzasadnienie czy też nie, nie ma wątpliwości, że wielu specjalistów obecnie używa wysokich częstotliwości próbkowania ponieważ błędnie zakładają, że zachowując częstotliwości ponad 20kHz dźwięk brzmi lepiej, tak jak mniemają ich konsumenci.

9. Uczucie 'uncringing' bębenków po wyłączeniu głośnej muzyki jest całkiem realne!

10. Niektóre ładne schematy można znaleźć na stronie HyperPhysics:
http://hyperphysics.phy-astr.gsu.edu/hbase/sound/protect.html#c1

11. 20µPa jest powszechnie definiowany jako 0dB do celów pomiarowych; to jest wartość w przybliżeniu równa wartości progowej słuchu przy 1 kHz. Ucho jest jednak o 8dB bardziej wrażliwe w zakresie od 2 do 4 kHz.

12. Najlepsze wyjaśnienie ditheringu, z którym miałem do czynienia: Optimal Dither and Noise Shaping in Image Processing  Mimo, że to chodzi o obraz, pierwsza połowa obejmuje teorię i praktykę audio i dopiero potem wyjaśnia jego stosowanie dla obrazu.

13. Inżynier DSP może wykazać, jak to zrobił jeden z moich rodaków, że 16-bitowy dźwięk ma teoretycznie nieskończony zakres dynamiki dla czystego tonu, jeśli możesz korzystać z nieskończonej transformacji Fouriera w jego ekstrakcji; bardzo ważna koncepcja dla radioastronomii.

Chociaż słuch nie działa zupełnie jak transformacja Fouriera, to jego rozdzielczość jest stosunkowo ograniczona. Stawia to praktyczny limit na 16 bitów dla sygnałów audio.

14. Studia nagraniowe coraz częściej wykorzystują 32-bity float dlatego, że jest to najdogodniejsze na nowoczesnych procesorach oraz całkowicie eliminuje możliwość clippingu, który przeoczony mógłby zrujnować nagranie.

15. Kilka osób chciało wiedzieć dlaczego testy Meyera i Morana z 2007r. mogły dać wynik zerowy jeśli ultradźwięki mogą powodować słyszalne zniekształcenia intermodulacyjne.

Powinno być oczywiste, że "może" lub "niekiedy" to nie to samo co "musi" i "zawsze". Zniekształcenia intermodulacyjne z ultradźwięków są możliwe, że wystąpią a nie - pewne, że wystąpią w danym systemie dla danego zbioru materiału. Zerowy wynik Meyera i Morana wskazuje na to, że zniekształcenia intermodulacyjne były niesłyszalne w systemach stosowanych w trakcie ich badań.

Czytelnicy są zaproszeni  do wypróbowania prostego testu zniekształceń intermodulacji powodowanych przez ultradźwięki dla szybkiego sprawdzenia potencjału własnego sprzętu.

16. Karou i Shogo, „Detection of Threshold for tones above 22kHz” (2001). Dokument z konwencji 5401 zaprezentowany na 110. Konwencji w Amsterdamie 12-15 maja 2001.

17. Griesinger, Perception of mid-frequency and high-frequency intermodulation distortion in loudspeakers, and its relationship to high definition audio

18. Od publikacji, kilku komentatorów napisało do mnie podobną wersję tej samej anegdoty (parafrazując):"Kiedyś słuchałem niektórych wzmacniaczy / słuchawek / nagrań spodziewając się wyniku [A], ale byłem całkowicie zaskoczony, bo okazało się [B] więc błąd konfirmacji jest bzdurą!"

Oferuję dwa wyjaśnienia.

Po pierwsze, błąd konfirmacji nie zastępuje poprawnych rezultatów błędnymi. Zniekształca tylko wyniki w jakimś niekontrolowanym kierunku i w nieznanym stopniu. Jak można coś określić jako pewne, jeśli test jest reżyserowany przez własną podświadomość? Powiedzmy, że spodziewałem się usłyszeć dużą różnicę, ale byłem zszokowani słysząc małą. A jeśli nie było wcale żadnej różnicy? A może była różnica, a zdając sobie sprawę z potencjalnego błędu twoje dobre intencje rekompensowały sceptycyzm? A może miałeś zupełną rację? Obiektywne testy takie jak ABX, eliminują wszystkie te wątpliwości.

Po drugie, "jeśli myślisz, że nie jesteś stronniczy udowodnij to!" Wartość obiektywnego testu nie leży tylko w jego zdolności potwierdzenia własnych założeń, ale w przekonaniu innych. Twierdzenie wymaga dowodu. Nadzwyczajne twierdzenie wymaga niezwykłego dowodu.

19. Najlepsze, prawdopodobnie, narzędzia do testów ABX:

Foobar2000  ABX plug-in

Squishyball do Linux'a narzędzie z wiersza polecenia używane wewnątrz Xiph

20. W Hydrogen Audio, wymaganej do testów jest skrócone TOS8 - ósma pozycja w warunkach korzystania z usługi.

21. Powszechnie przyjmuje się, że resampling  nieodwracalnie uszkadza sygnał; to nie jest prawda. Jeśli ktoś nie robi oczywistych błędów, takich jak powodowanie clippingu, to sygnał po upsamplingu i resamplingu będzie nie do odróżnienia od oryginału. Tak się zazwyczaj robi by wykazać, że wyższe częstotliwości samplowania są zbędne.

22. To może nie być ściśle związane z audio, ale ... szybsze od światła neutrina, komentarze?

23. Magazyn Wired twierdzi, że bezstratne formaty takie jak FLAC nie zawsze są całkowicie bezstratne:

"Niektórzy puryści namawiają, aby pomijać FLAC w ogóle i po prostu kupić WAV. [...] Kupując WAV, można uniknąć utraty danych spowodowane, kompresją pliku do formatu FLAC. Utrata danych jest rzadka, ale zdarza się". To jest fałsz. Proces bezstratnej kompresji nie zmienia oryginalnych danych w żaden sposób, a FLAC nie jest wyjątkiem.

W przypadku, który Wired miał na myśli miało miejsce uszkodzenia sprzętu i plików danych (awaria dysku, awaria pamięci); FLAC i WAV również będą uszkodzone. Plik FLAC sprawdza sumy kontrolne i wykryje uszkodzenie. Plik FLAC jest również mniejszy niż WAV i prawdopodobieństwo uszkodzenia  byłoby mniejsze, bo jest mniej danych, które mogą zostać naruszone.

24. 'Loudness War'  jest powszechnie cytowanym przykładem złych praktyk masteringu obecnie w branży, choć nie jest przykładem jedynym. Jest to starsze zjawisko niż to sugeruje artykuł w  Wikipedii; już od 1950 roku artyści i producenci dążyli do najgłośniejszych możliwych nagrań. Dostawcy sprzętu badali fenomen i coraz częściej wprowadzali do obrotu nowe technologie, aby umożliwić bardziej głośne masterowanie. Zaawansowane urządzenia do masterowania winylu w latach 1970 i 1980, na przykład śledziły i zagnieżdżały kształty rowków gdy to było możliwe, w celu osiągnięcia wyższej amplitudy niż odstęp rowka normalnie by na to pozwolił.

Dzisiejsza technologia cyfrowa pozwala na to, że głośność jest pompowana do absurdalnego poziomu. Dostarcza również mnóstwo automatycznych, bardzo skomplikowanych, zastrzeżonych wtyczek DAW, które są wdrażane masowo bez pełnego zrozumienia jak one działają i co naprawdę robią.

01 03 2012 —Monty monty@xiph.org

Oryginał tekstu znajduje się tu https://xiph.org/~xiphmont/demo/neil-young.html




piątek, 9 października 2015

CDA vs. DVDA i SACD czyli Audibility of a CD-Standard A/DA/A Loop Inserted into High-Resolution Audio Playback

Słyszalność pętli A/D/A w standardzie CD wstawionej w tor
odtwarzania dźwięku o wysokiej rozdzielczości*

E. BRAD MEYER, AES i David R. MORAN, AES
(EbradMeyer @ att.net) (drmoran @ aol.com)
Boston Audio Society, Lincoln, MA 01773, USA

Regularnie publikuje się lub kolportuje w formie anegdot opinie o wyższej jakości dźwięku
dwukanałowego zakodowanego z użyciem dłuższych słów bitowych i/lub w wyższych częstotliwości próbkowania niż Standard CD 16-bit/44,1 kHz. Autorzy przedstawiają sprawozdanie z serii badań z podwójnie ślepym testem porównawczym nagrań odtwarzanych w wysokiej rozdzielczości z wyjścia analogowego odtwarzacza wysokiej rozdzielczości z tym samym sygnałem przechodzącym przez „szyjkę od butelki” 16-bit/44,1 kHz. Badania prowadzano przez ponad rok, z wykorzystaniem różnych systemów i różnych grup słuchaczy. Systemy składały się z drogich profesjonalnych głośników, a jeden system high-end miał głośniki elektrostatyczne i drogie
komponenty i kable. Grupa słuchaczy obejmuje profesjonalnych inżynierów nagraniowych, studentów uniwersytetu z programem rejestracji dźwięku i zagorzałych audiofilów. Wyniki badań wskazują, że obecność pętli A/D/A w jakości CD była niewykrywalna przy normalnych do głośnych poziomach dźwięku, przez któregokolwiek ze słuchaczy na żadnym z systemów odtwarzania. Szum pętli jakości CD słychać było tylko przy bardzo podwyższonym poziomie głośności.


0) KULISY

Od momentu przyjęcia standardu formatu CD PCM 16-bitów/44,1 kHz ponad 25 lat temu, jego jakość jako nośnika zapisu był obiektem regularnej krytyki, zarówno w subiektywnej prasie audio jak i wśród profesjonalistów. Zazwyczaj koncentrowano się na szorstkości, braku głębi lub na zimnym, sterylnym dźwięku. Jednak ślepe testy porównawcze płyt z ich taśmami matkami wykazały, że te poglądy są nieuprawnione. W tym zakresie standard CD był przejrzysty, bez względu na to czy pierwotne źródło było cyfrowe, czy analogowe.

Tymczasem techniki cyfrowe ewoluowały, a w kilku ostatnich latach pojawiły się dwie nowe technologie dźwięku o wysokiej rozdzielczości, Super Audio CD (SACD) i DVD-Audio jako alternatywy.

Przydatność zwiększonego zakresu dynamiki gwarantowanego przez większą długość słowa dla miksowania nigdy nie była poddawana w wątpliwość. Oba nowe systemy umożliwiały również zapis wielokanałowy będący istotną potencjalną zaletą odtwarzania. Ale pomijając te uznawane możliwości, każdy z tych formatów okrzyknięto jako oferujący brzmienie o wyższej jakości. Jak zapewniał licencjodawca w tym dokumencie[1]:

Długotrwała krytyka audiofilska płyt CD polega na tym
że brakuje im rozdzielczości, aby reprodukować wszystkie szczegóły w materiale
muzycznym. ... Obecna wysoka jakości dźwięku ukazuje, że
CD to "wąskie gardło" ... Audio w wysokiej rozdzielczości
gwarantuje lepszy dźwięk niż płyty CD, a jego potencjał
wykazano już dla nośników, które odtwarzając przenoszą szersze
pasmo ... i większy zakres dynamiczny ... Dowody doświadczalne
i amatorskie obserwacje wskazują, że wyższe
próbkowanie "brzmi lepiej." Zazwyczaj obserwuje się, że przy
wyższej częstotliwości próbkowania dźwięk jest klarowniejszy,
gładszy, ma lepszą definicję niskich częstotliwości i jest bardziej "naturalny".
Z doświadczenia autora wynika,
że wyższe próbkowanie może prowadzić do lepszego rozróżniania
pierwszego i dalszego planu. "Obiekty" są lepiej
oddzielone od akustycznego tła i
są bardziej przejrzyste i "kompletne".

Osoby prywatne i czasopisma o tematyce inżynierii dźwięku deklarowały wielokrotnie, że oba formaty oferują całkowicie oczywistą poprawę w stosunku do standardu CD.

Takie twierdzenia wykazują brak świadomości istnienia wcześniejszych prac badawczych [2] [3] [4], i wszystkie nowsze teksty bazują na jednym tylko parametrze: możliwości, że nagrania w wysokiej rozdzielczości oferuje poprawę brzmienia przez potencjalne rozszerzenie zakresu rejestrowania wysokich częstotliwości niezależnie od tego, że wszyscy uznawali u zarania ery CD, że jakość jest wystarczająca, [2] a nawet uważa się, że szerokość pasma może być większa niż to konieczne.

1 TESTY
Pomimo roszczeń co do SACD i DVD-A, o ile autorom to jest wiadome, nie wykonano prawidłowo kontrolowanych ślepych testów wykazujących wyższość jakości dźwięku w porównaniu do CD; przynajmniej takie badania nie zostały opublikowane. W momencie wydania tekstu przewodniego J. R. Stuarta “Coding for High-Resolution Audio Systems,” przez J. Audio Eng. Soc.[1], stało się jasne, że czas najwyższy rozstrzygnąć sprawy naukowo. Ta praca opisuje podwójnie ślepe testy porównawcze odtwarzania dźwięku stereo w wysokiej rozdzielczości i tego samego sygnału przepuszczonego przez pętlę 16/44,1 A/D/A (patrz rys.1). W przeciwieństwie do poprzednich badań, nasze testy miały ujawnić wszelkie ewentualne różnice dźwiękowe pomiędzy audio w wysokiej rozdzielczości i CD, z których wiele, według publikowanych twierdzeń, często występują w obrębie uznanego pasma akustycznego. Teoretycznie zalety sygnału o wysokiej rozdzielczości nie powinny przetrwać degradacji w "szyjce od butelki" 16/44,1 a powstałe różnice byłyby słyszalne.

Z pomocą około 60 członków Boston Audio Society i wielu innych zainteresowanych osób, odbyła się seria podwójnie ślepych testów (A /B/X) i trwała około rok. Wiele rodzajów muzyki i głosu znalazło się w materiale do odsłuchów od klasyki (chóry, kameralistyka, fortepian, orkiestry), do jazzu, popu i rocka. Słuchacze to mężczyźni i kobiety w bardzo zróżnicowanym wieku, o różnych zdolnościach i poziomie doświadczenia z muzyką i audio; wiele z nich to zawodowcy audio lub studenci tej dziedziny.

Większość badań przeprowadzono z użyciem pary wysoko cenionych głośników pełnozakresowych o wyrównanej charakterystyce w pomieszczeniu odsłuchowym w cichej okolicy o poziomie hałasu 19 dBA SPL, razem z całą elektroniką (patrz rys. 2). Mieliśmy również konfiguracje testowe w kilku innych lokalizacjach: w okolicy Bostonu z bardzo dużymi czterodrożnymi monitorami studyjnymi w miejscowym uniwersyteckim zakładzie dźwięku, kolejną z dużymi monitorami zasilanymi wzmacniaczami wysokiej mocy w specjalnie zaprojektowanej przestrzeni odsłuchowej (słuchaczami w tym badania byli studenci wydziału nagrań); oraz wysokiej klasy prywatnego pokoju odsłuchowego i sprzętu high-end z bardzo dobrze ocenianymi głośnikami elektrostatycznymi i bardzo drogą elektroniką i kablami. We wszystkich miejscach wykonano nieformalne testy górnych granic słyszenia u badanych by zobaczyć czy istnieje korelacja pomiędzy tym parametrem i słyszalnością różnic.

Do pętli CD wykorzystaliśmy dobrze ocenianą profesjonalną nagrywarkę CD z monitorowaniem w czasie rzeczywistym. Poziomy w obu systemach zostały dobrane w granicach 0,1 dB przy użyciu bardzo dokładnej analogowej regulacji stopniowej wzmocnienia, która była zawsze w drodze sygnału 16/44.1. Dźwięk był przełączany przez komparator ABX CS-5 podwójnie ślepej próby porównawczej (patrz rys. 3).

Dźwięk o wysokiej rozdzielczości oferuje niższy poziom szumu cyfrowego, więc poziom odtwarzania jest istotnym czynnikiem. Czy niższy szum ma jakieś praktyczne konsekwencje biorąc pod uwagę nowoczesne sposoby kompresji (chodzi o kompresory używane w studiach nagraniowych – przyp. tłum), poziom szumu w mikrofonach, przedwzmacniaczach mikrofonowych i stołach mikserskich? Ustaliliśmy, że większość nagrań SACD i DVD-A dawało efekt, który można by nazwać odtwarzaniem realistycznym (czyli słuchacz słyszał źródło głośno i wyraźnie, z naturalną barwą i właściwą skalą, ale bez uczucia dyskomfortu) przy takim wzmocnieniu systemu, że częstotliwość pasma oktawy szumu 1 kHz zapisana na średnim poziomie -16 dBFS dawał SPL (ciśnienie dźwięku) w miejscu odsłuchowym nieważone 85 dB. Dla niektórych klasycznych nagrań z bardzo szerokim zakresem dynamiki, słuchano od czasu do czasu z poziomem 5-7 dB wyższym niż ten.

Sygnał testowy, który użyliśmy do ustawienia 85 dB SPL naszego standardowego wzmocnienia jest dostępny na stronie internetowej Boston Audio Society. Schodzący frequency sweep stosowany na tym samym poziomie głośności jako szybki test górnego limitu słuchu naszych słuchaczy, można znaleźć na tej samej stronie, www.bostonaudiosociety.org/media.



Rys. 1. Schemat blokowy blokowy instalacji testowej dla podwójnie ślepego testu porównania odtwarzania stereo o wysokiej rozdzielczości z takim samym sygnałem przepuszczonym przez łańcuch 16/44,1 A/D/ A.


2 WYNIKI

Wyniki badań dla wykrywalności odtwarzania w pętli 16/44,1 na SACD / DVD-A były takie same jak zwyczajne zgadywanie: 49,82%. Było 554 prób i 276 poprawnych odpowiedzi. Jedyne wyjątki były dla warunków bez sygnału i przy wysokim wzmocnieniu, gdy różnica w poziomie szumu z dwóch technologii, starej i nowej, była dobrze słyszalna. (chodzi o poziom szumu generowany przez dodaną pętlę 16/44,1 – przyp. tłum)

W miarę postępowania testu, wielokrotnie sortowano dane według korelacji wieku, płci, górnej częstotliwości słyszenia lub doświadczenia. Korelacje takie się nie pojawiły. W szczególności, przy muzyce na normalnym poziomie głośności, jak określono wcześniej, audiofile i/lub zawodowi inżynierowie dźwięku mieli 246 poprawnych odpowiedzi na 467 prób, co daje 52,7% poprawnych odpowiedzi. Kobiety miały 18 na 48, czyli 37,5% poprawne. Osoby zdolne usłyszeć dźwięki powyżej 15 kHz miały 116 trafień na 256 prób, czyli 45,3% poprawnych; słuchacze w wieku 14-25 lat (którzy, jak to się okazało, byli tą samą grupą), również właściwie odgadli 116 razy w 256
badań, 45,3%. "Najlepszy" wynik osiągnął jeden słuchacz tylko jeden raz i było to 8 na 10, co wciąż jest za mało do osiągnięcia pożądanego 95% poziomu pewności. Były dwa wyniki 7/10. Wszystkie inne próby były zawsze gorsze niż 70% poprawnych odpowiedzi.

Co więcej, żaden z bardziej skomplikowanych i kosztownych systemów odtwarzania (do których badania byli dedykowani audiofile, zaangażowani amatorzy, aktywni studenci w profesji reżyserii dźwięku i/lub doświadczeni w pracy specjaliści) nie ujawnił wykrywalnych różnice na muzyce, odtwarzanej z głośnością na poziomie, jak to zdefiniowano poprzednio.



Rys. 2. Miejsce odsłuchu dla większości testów.

W jednym krótkim teście z dwoma osobami dodaliśmy 14 dB do wspomnianego poziomu odniesienia by przetestować dwa źródła bez sygnału wejściowego, aby sprawdzić, czy poziom
szumu z kanału audio CD może okazać się słyszalny. Chociaż jeden z testowanych był niepewny jego zdolności do rozpoznania szumu, obaj osiągnęli wyniki 10/10 w wykrywaniu pętli CD. (Jeszcze nie określimy progu tego efektu. Dzięki wzmocnieniu 14 dB powyżej odniesienia,wykrywanie wyższego poziomu szumów łańcucha CD było łatwe, bez niepewności. Testy z innymi to osobami to potwierdziły.)

Źródła o wysokiej rozdzielczości, gdy były odtwarzane na poziomie +14 dB były nieprzyjemnie (często nieznośnie) głośne, a współczesne agresywnie masterowane płyty CD jeszcze bardziej.
Ton pomieszczenia i/lub szum przedwzmacniacza w prawie wszystkich nagraniach maskował poziom szumu 16/44,1 choć znaleźliśmy jeden lub dwa nagrania, przy których była wykrywalna
różnica tonu w pomieszczeniu dla wysterowania 20 dB lub więcej powyżej poziomu odniesienia. Przy tych bardzo wysokich poziomach mogliśmy również usłyszeć subtelne błędy dekodowania przy niskim poziomie w prawie wszystkich najdroższych odtwarzaczach o wysokiej rozdzielczości.

Z wielu różnych nagrań, których użyliśmy okazało się, że prawie żaden program muzyczny lub wokalny, miejsce nagrywania, instrument lub wykonawca nie przekracza możliwości dobrze
zrealizowanej pętli nagrywania/odtwarzania w jakości CD. CD ma odpowiednie pasmo i zakres dynamiki dla każdego zadania domowej reprodukcji i rzadko się zdarza, że miejsce odtwarzania jest tak ciche, by wykryć 16-bitowy szum naszej pętli A/D/A, która nie ma kształtowania szumu i dlatego była mniej optymalna tym zakresie, nawet na głośnościach ponad nasz poziom odniesienia.

3 WNIOSKI

Analizowaliśmy wszystkie dane z badań według rodzaju muzyki; szczegółowego programu; rodzaju technologii wysokiej rozdzielczości; roku powstania nagrań; wieku słuchaczy, płci, doświadczenia i zakresu słyszanych przez badanych częstotliwości. Żadna z tych zmiennych nie wykazały korelacji z wynikami, a odpowiedzi nie różniły się od takich uzyskanych przez rzut monetą.

Wcześniejsze cytowane prace, niektóre z samego początku ery CD i niektóre nowsze potwierdziły
nasz wynik. Z powodu rozpowszechnienia się w ciągu ostatniej dekady anegdot o "high-rez", zakończonych twierdzeniem Stuarta, czuliśmy potrzebę pójść dalej i wykonać rzetelny, nieskomplikowany i łatwy do zrozumienia, z dopasowaniem poziomu, podwójnie ślepy test, żeby określić, czy technologia 16/44,1 degraduje w zauważalnym stopniu dźwięk najlepszych płyt w wysokiej rozdzielczości. Użyliśmy dużej i urozmaiconej grupy poważnych słuchaczy; przeprowadziliśmy testy przy użyciu kilku rodzajów pomieszczeń i systemów o wysokiej jakości odtwarzania; pracowaliśmy tak długo, jak uważaliśmy to za konieczne dla wykazania przejrzystości standardu CD.

Bardzo trudno jest wykorzystać negatywne wyniki aby udowodnić niesłyszalność danego zjawiska lub procesu. Zawsze jest możliwość, że inny system lub bardziej wyrafinowana para uszu ujawni
różnicę. Ale zebraliśmy wystarczająco dużo danych, wykorzystując w wystarczająco zróżnicowane wydajne systemy i słuchaczy aby ciężar dowodu był wystarczający. Dalsze zarzuty, że precyzyjnie kodowane 16/44.1 wyraźnie degraduje sygnał wysokiej rozdzielczości muszą być poparte przez odpowiednio kontrolowane podwójnie ślepe testy.


Rys. 3. Schemat blokowy na rys. 1.

4 UWAGA O NAGRANIACH W WYSOKIEJ ROZDZIELCZOŚCI

Chociaż nasze testy nie uzasadniły deklarowanej przewagi kodowania w wysokiej rozdzielczości dla dwukanałowego audio, jedna tendencja stała się oczywista bardzo szybko i utrzymywała się w czasie testów: praktycznie wszystkie nagrania SACD i DVD-A brzmiały lepiej niż większość CD - czasem o wiele lepiej. Gdyby nie "zdegradowany" do jakości CD dźwięk i ślepy test do sprawdzenia słyszalnych różnic, bylibyśmy skłonni przypisać tę wyższość dźwięku procesom rejestracji używanym do ich produkcji. Prawdopodobne powody niezwykłej jakości dźwięku tych nagrań wyszły na jaw się w dyskusji z niektórymi inżynierami pracującymi nad takimi projektami.

Ta część biznesu to rynek niszowy, w którym użytkownicy są wybrani pod względem wymagań słuchowych jak i potrzeby kupowania drogiego sprzętu, ustawienia go poprawnie i uważnego odsłuchu w cichym otoczeniu.

Częściowo ze względu, że takie nagrania nie są przeznaczone dla masowego rynku konsumenckiego, inżynierzy i producenci mają swobodę w produkcji nagrań, które brzmią tak dobrze jak jak to możliwe, bez kompresji lub equalizacji sygnału w celu przystosowania do słabszych systemów i przypadkowych warunków odsłuchu. Te nagrania wydają się być wykonane z wielką starannością i manifestują przywiązanie, inżynierowie starają się zadowolić ich samych i innych zainteresowanych. Brzmią znakomicie, płyta w płytę. Płyty audio o wysokiej rozdzielczości nie mają przytłaczającej większości materiału stłoczonych w najwyższych 20 (a nawet 10) dB dostępnego zakresu dynamicznego, jak to robi obecnie wiele płyt CD.

Uzyskane wyniki badań wskazują, że wszystkie z tych nagrań mogą być wydane na konwencjonalnych płytach CD bez brzmieniowej różnicy. Nie będą one jednak mieć łatwej
drogi do domów słuchaczy z takimi systemami i nawykami, by je mogli docenić. Tajemnica, przynajmniej dla dwukanałowego stereo, wydaje się tkwić się nie w wielobitowości nagrań, ale w wielobitowym rynku.

* Rękopis powstał 19 października 2006; poprawione 05 kwietnia 2007 i 15 czerwca.

5 Referencje

[1] J. R. Stuart, “Coding for High-Resolution Audio Systems,” J. Audio Eng. Soc., vol. 52, pp. 117–144 (2004 Mar.).
[2] G. Plenge, H. Jakubowski, and P. Scho ¨ne, “Which Bandwidth Is Necessary for Optimal Sound Transmission?,” J. Audio Eng. Soc., vol. 28, pp. 114–119 (1980 Mar.).
[3] T. Nishiguchi, K. Hamasaki, M. Iwaki, and A. Ando, “Perceptual Discrimination between Musical Sounds with and without Very High Frequency Components,” presented at the 115th Convention of the Audio Engineering Society, J. Audio Eng. Soc. (Abstracts), vol., 51, p. 1222 (2003 Dec.), convention paper 5876.
[4] D. Blech and M. Yang, “DVD-Audio versus SACD: Perceptual Discrimination of Digital Coding Formats,” presented at the 116th Convention of the Audio Engineering Society, Berlin, Germany, 2004 May 8–11, convention paper 6086

AUTORZY

Brad Meyer was born in Baltimore, MD, in 1942 and received a B.A. degree from Harvard College, Cambridge, MA. He has been recording concerts since the late 1950s and worked making measurements, calibrating instruments, reducingdata,writingreports,andlearningacousticsatBoltBeranek andNewmanfrom1966to1972.Hestartedhisowncompany, Point One Audio, in the late 1970s. He does location recording and digital editing of classical and some folk material. Mr. Meyer has been on the executive committee of the AES Boston Section since the early 1980s and served two years as its chair. In addition to his past duties as writer and sometime editor of the Boston Audio Society Speaker newsletter and Society president, he has published audio articles for the Boston Phoenix, High Fidelity, Stereo Review, and Stereophile.

David Moran was born in Springfield, OH, in 1947. He studied history and literature at the University of Rochester, NY and Brandeis University, Waltham, MA, where he received a B.A. degree. He has an M.A. degree in literature from Columbia University, New York. He is a writer and editor, with particular interest in audio, music, and technology. He was audio editor (also
managing editor) of the Boston Phoenix during the 1970s and worked for dbx engineering through the 1980s. He has been president of the Boston Audio Society and editor of its BAS Speaker newsletter, and has reviewed loudspeakers for CD Review, Digital Audio, Speaker Builder, Car
Stereo Review, and currently for Sensible Sound magazine and the BAS Speaker. He also has annotated and produced CDs and written about music (classical and popular) for publications from the Boston Globe, Phoenix, and Herald to Stereo Review, has received two NEA fellowships for

classical criticism, and recently helped edit the NPR Listeners’ Encyclopedia of Classical Music. He currently works as a technical writer at BBN Technologies in Cambridge, MA.