結帳
購物車有 0 項商品,共 0
天下文化首頁 主題 音訊格式大戰
財經企管

發表日期

2017.06.09
收藏文章 0

文章摘錄自

誰把音樂變免費
這些音樂檔案,究竟是從哪裡來的?我沒有答案,我在調查時,發現別人也沒有答案……過去,我們聽音樂需要購...
定價 500
優惠價 85折,425
$500 85$425
加入購物車

音訊格式大戰


一九九五年春,MP3在德國愛爾朗根市(Erlangen)某間會議室裡被宣判死刑。一群據稱公正的專家最後一次對這項技術嗤之以鼻,依舊偏愛其長期競爭對手MP2。MP3開發者知道大勢已去,國家提供的資金即將告罄,贊助企業也準備放棄,而歷經四年的行銷努力,這項技術仍未簽下任何一個長期客戶。

會議室裡,眾人將注意力轉到卡爾漢茲.布蘭登堡(Karlheinz Brandenburg)身上,他是這項技術背後的強力智囊與MP3小組的領袖。布蘭登堡攻讀碩士時的研究,就已經聚焦於這項技術,過去八年,他一直致力把自己的構想商業化。他野心勃勃且天資聰穎,對音樂的未來更是懷抱著極具感染力的願景。布蘭登堡帶領十五名工程師,進行一項由他負責監督、預算高達百萬美元的研究。然而從最新的聲明看來,他似乎已經把自己的團隊帶進墳墓。

布蘭登堡的外表不算威嚴,雖然個子很高,但駝背,而且他的身體語言飄忽不定。他站著的時候,身體重心不斷在兩個腳跟間移來移去,高瘦而笨手笨腳的軀幹前搖後晃,說話時,還會一邊以畫圓圈的方式輕輕點頭。布蘭登堡留著一頭太長的黑髮,臉上總是掛著緊張的微笑,露出小而不整齊的牙齒。在他那副金屬鏡框後面,有一對深邃的細長眼睛,散亂的頭髮,則像他那參差不齊的鬍鬚一樣突出。
他說話輕柔,言談盡是文法無懈可擊的長句,中間穿插短促的換氣。他態度有禮、溫和,總是盡力讓人感到自在,但其實只會讓情況更加尷尬。他經常滔滔不絕大談實際問題,然後,也許是發現聽者感到無聊,偶爾會在漫無邊際的技術談話中,添加效果微弱且不太好笑的笑話。他的個性結合了兩股近乎潔癖的強大力量:工程師的懷疑態度,與一本正經、所謂典型德意志民族特有的保守性格。

可是他很聰明,他卓越的數學天分讓同儕相形見絀。那些同儕都已經是艱難學科中的佼佼者,而且畢生是競爭領域中的頂尖人物。對於才智,他們通常自視甚高,但一說到布蘭登堡,他們的傲氣就會消退,說話的口氣也變得平靜,就像是自白。「他數學非常好。」其中一個人說。「他真的很聰明。」另一個人表示。「他解決了一個我無法解決的問題。」第三個人坦承。對一個工程師來說,坦承這種事情實屬不易。

當觀點遭遇挑戰時,布蘭登堡會停下來,瞇起雙眼,然後用尖銳的科學論述反駁截然不同的主張。但提出反駁時,他的聲音幾乎讓人無法察覺,他在回應時極為謹慎,絕不做出任何毫無數據支持的主張。當布蘭登堡在那天的會議室裡,對委員會提出最後的異議時,MP3就在低語中出局。

挫敗的滋味並不好受,此刻尤其苦澀,因為布蘭登堡經過了十三年的努力,才解決數位音訊領域的一個重大問題。這個被委員會摒棄的研究團隊成立於數十年前,參與其中的工程師早在一九七○年代末期就已經提出類似MP3的理論。如今,這攤渾沌的科學死水終於冒出某種美好事物,而且是歷經三個世代討論所淬煉而成的產物。只不過,會議室裡那些西裝筆挺的大人物並不在乎。

心理聲學遮蔽效應

布蘭登堡的論文指導教授名叫迪特.蔡澤(Dieter Seitzer),是個頭頂光亮且聲音洪亮的電腦工程師,布蘭登堡就是在他的指導下進入這個領域。蔡澤自己也是受論文指導教授的提拔,他的指導教授名叫艾柏哈.齊威克(Eberhard Zwicker),是位執著的研究者,也是「心理聲學」(psychoacoustics)之父。

這項冷門學科乃是探究人類如何感知聲音的科學研究,蔡澤曾經是齊威克的門生與音頻實驗對象,最重要的,還是他的死敵。這兩人在將近十年期間,每個工作日的午餐後會一起打桌球。在這一個小時的桌球時間裡,齊威克會教育他的學生有關人類感知的閾限輪廓,同時把乒乓球轟向他的腦袋。
從真實世界的測試對象累積,齊威克歷經數十年的主要研究發現是:人類的耳朵並非像傳聲筒那樣運作,而是一個有適應能力的器官。在物競天擇下,人類的耳朵應當能聽到並解讀語言,也能提供早期預警系統,以防範巨大食肉貓科動物。但最多就只能達到前述目的所需的能力,不會再有更好的表現。因此,人類的耳朵承襲了解剖結構上的缺陷,而齊威克的研究則揭示了這些缺陷不為人知的廣度。

舉例來說,任何人都能分辨兩個相差半音以上,同時發出的聲音。但齊威克發現,如果把兩個聲音的音調拉近,可以讓人誤以為只有一個聲音,這個效果在音調低的聲音較大聲時尤其明顯。同樣的,任何人也都能分辨兩個相隔半秒鐘的喀嚓聲。但齊威克發現,如果把間隔時間縮短到幾毫秒,也可以讓人類的耳朵將兩個聲音合而為一,且增加其中一個喀嚓聲的相對音量,效果更加明顯。這些因「心理聲學遮蔽效應」錯覺而產生的整體效果,意指人類所聽到的其實只是某種虛構的東西。

之後,蔡澤的表現開始超越這位大師。齊威克是解剖學家,見解是類比時代的產物;蔡澤是電腦科學家,預見的則是即將到來的數位化時代。尤其他認為,利用齊威克對人類耳朵天生缺陷的研究,或許可以用非常少的數據量記錄高傳真音樂。這項獨特的教育,給了他非比尋常的觀點。當雷射唱片於一九八二年問世時,被工程界譽為該領域史上極其重要的一項成就,唯獨蔡澤認為這是殺雞用以牛刀,簡直荒謬。雖然雷射唱片的銷售文宣保證「永恆的完美聲音」,但看在蔡澤眼裡,卻是一個過猶不及的數據庫,收藏著一堆無關緊要的資訊,因為多數資訊會被人類的耳朵所忽略。他知道雷射唱片裡的多數資料都可以被拋棄,因為人類的聽覺系統早就這麼做了。

同年,蔡澤提出了數位點唱機的專利申請。在這種比較優雅的銷售模式下,消費者可以撥接到中央電腦伺服器,然後透過德國當時剛要開始鋪設的數位電話線路,用鍵盤輸入點播的歌曲。與製作數百萬張光碟,並裝在透明塑膠盒裡透過商店銷售相比,數位點唱機把所有資料都存放在單一的電子資料庫裡,需要時再從中取用。這種要成為訂戶才能使用的服務,直接把立體聲接上電話,可省略掉諸多實體銷售的低效率做法。

然而,專利申請被駁回,因為最早的數位電話線路還很簡陋,雷射唱片裡的大量音訊資料絕不可能塞得進這麼窄的管線。檔案必須被壓縮成原來的十二分之一,蔡澤的方案才行得通,但當時並沒有任何資料壓縮方式能辦得到。蔡澤對抗專利審查員數年,還提到齊威克研究發現的重要性,卻缺乏有效的實際運作,取得專利的希望渺茫,最後他撤銷了申請。

不過,蔡澤還是沒打消這個念頭。如果齊威克已經找出人類耳朵的限制,那剩下的工作,就是用數學將這些限制加以量化。蔡澤始終無法解決這個問題,其他曾經嘗試過的研究者也宣告失敗。於是,他滿懷希望的把這個問題交給自己的門生,這位名叫卡爾漢茲.布蘭登堡的年輕電機工程系學生,是蔡澤所見過數一數二的聰明人。

布蘭登堡私底下覺得好奇,懷疑跟一位古怪耳科學實驗家打了十年乒乓球的蔡澤,腦袋是不是壞了?數位時代的資料是用稱為「位元」的0或1二進位制單位儲存,壓縮資料的目標,是盡可能使用較少的位元數。雷射唱片的音訊使用超過1,400,000位元來儲存一秒鐘的立體聲,而蔡澤希望能壓縮成128,000位元。

布蘭登堡認為這個目標非常荒謬,就好像試圖用兩百美元的預算來打造一輛汽車。但如果是做為個人的抱負,他倒認為這個目標值得一試。接下來三年,他都在研究這個問題,直到一九八六年初,他總算發現一條從未被探討過的探究途徑。根據這個所謂的「合成分析法」,布蘭登堡不眠不休花了數星期,寫出一套關於那些寶貴位元可以如何分配的數學講義。

簡化音訊像素

從切割音訊開始,布蘭登堡先用取樣器把聲音分割成一秒鐘的微小碎片,然後再用濾波器組進一步將音訊歸類到不同的頻譜分群。濾波器組對聲音的作用,就好像稜鏡對光線的作用一樣。結果就是,一個由極微小聲音片段所構成的時頻格,被整理到音調的窄頻當中,類似音訊版本的像素。接著,布蘭登堡告訴電腦如何按照齊威克的四個心理聲學訣竅,將這些音訊像素加以簡化:
第一,齊威克證明了,人類在某特定音調頻率範圍內聽力最佳,大致與人類聲音的音程相當。此外其他音域,特別是較高的音階,聽力會降低。這表示你可以分配較少的位元,給位於聲譜末端的音訊。

第二,齊威克證明了,音調相近的聲音往往會互相抵消,特別是較低的聲音會壓下較高的聲音。所以你如果要將不同樂器同時演奏的音樂數位化,例如小提琴配大提琴,可以分配較少的位元給小提琴。

第三,齊威克證明了,聽覺系統會取消一個大喀嚓聲後面的雜音。所以假設你要把每隔幾個小節就敲擊一次鐃鈸的音樂數位化,可以分配較少位元給每一次敲擊鐃鈸後的數毫秒音訊。

第四,也是較為奇怪的一點,齊威克證明了,聽覺系統還會取消一個大喀嚓聲前面的雜音。這是因為人類耳朵需要花數毫秒處理其所感覺到的聲音,而這個處理過程可能會被突如其來的較大聲響打斷。因此,再以敲擊鐃鈸為例,你也可以分配較少的位元給敲擊鐃鈸前的數毫秒音訊。

憑著數十年的實證聽覺研究,布蘭登堡知道如何分配這些位元,但這只是個開始。布蘭登堡的真正成就在於,讓這個程序可以不斷重複執行。也就是說,你可以把該位元分配演算法的輸出結果,拿去用同樣的演算法再跑一遍,而且想跑幾遍都可以,每執行一次都會減少所使用的位元數,直到把音訊檔案壓縮成你希望的大小。當然,這會造成減損,就像複製版的複製版,或是第四代的卡式錄音帶那樣。這個演算法每執行一次,音質就變得更差。事實上,重複執行這個程序一百萬次,你最後得到的檔案不會超過一位元。所以如果你拿捏得好,只使用人類耳朵可以聽到的位元,就有可能既壓縮音訊,又不失真。

當然,並非所有的音樂作品都採用如此複雜的樂器演奏法。一首小提琴協奏曲可能包含各種心理聲學上的冗餘,但一首小提琴獨奏曲不會。如果沒有鐃鈸敲擊,或重疊的大提琴聲,或待簡化的高音域資料,那就只剩下無處躲藏的純音。此時,布蘭登堡所能做的,就是把前述壓縮方法的輸出位元,丟到第二種截然不同的方法中執行。

這個方法叫「霍夫曼編碼法」(Huffman coding),是麻省理工學院的電腦科學先驅大衛.霍夫曼(David Huffman)在一九五○年代首創。身為資訊時代初期的電腦專家,霍夫曼注意到,如果想要節省位元數,就必須找出模式,因為模式的特點就是會重複。也就是說,與其在某個模式每次出現時都分配位元,倒不如只分配一次,然後在需要時回頭參照即可。從資訊理論的觀點來看,一首小提琴獨奏曲就是如此而已:一根震動的弦,把空氣中的聲音裁出可預期的反覆模式。

這兩種方法配合得恰到好處,以布蘭登堡演算法處理複雜、重疊的雜音,以霍夫曼編碼法處理簡單的純音。兩者並用的結果,把數十年的聲學物理與人類解剖學研究,同資訊理論的基本原理與複雜的高等數學連結在一起。一九八六年中期,布蘭登堡還寫了一支粗淺的電腦程式,有效示範了前述方法。這是他職涯的招牌成就:一個經過實證,以最精簡位元數抓取音訊資料的方法。當時,布蘭登堡年僅三十一歲。

他甚至還沒開始為自己的論文答辯,就獲得生平第一項專利。身為一名碩士生,他對充滿活力的市場潛力有著超乎尋常的興趣。以布蘭登堡的聰明才智,想獲得終生教職絕無問題,但他對學術界沒太大興趣。他年幼時讀過許多偉大發明家的故事,實際操作的重要性早已深植心中。布蘭登堡和貝爾、愛迪生一樣,骨子裡就是個發明家。

【書籍資訊】

摘自《誰把音樂變免費

數位編輯整理:廖珮汝
Photo:Pixabay,CC0 Licensed.

相關書籍

書到通知我

請輸入您的 Email 作為書到通知的信箱