5G時代的音頻業:場景延展與融合創新

文章來源:《中國廣播》2020年第二期

【摘要】5G 技術為探索新型音頻業態與應用場景提供了難得機遇,廣播需要在音質提升、終端交互和智能場景三個層面的競爭中實施創新策略,從而獲得網絡效應,重塑用戶市場。播客在廣播新媒體競爭中的重要性勝于視頻或圖文,對于吸引年輕用戶至關重要。AI 語音技術的關鍵性突破將創造新的產業需求,并有可能徹底改變當前音頻業的傳播格局。采訪、寫作、編輯和評論依然是新聞媒體最重要的生產構成,編輯、記者和評論員的角色將變得日益重要。場景延展與融合創新作為兩個重要的維度,將持續引導廣播業和音頻應用創新向前發展。

我國政府將 5G 描述為“戰略性新興產業”和“新的增長領域”。5G 對于中國的科技進步和經濟發展至關重要,5G 的總體目標是為各種可能從連接受益的任何設備和任何應用提供無處不在的連接,并帶動人工智能、電子消費、智能制造等產業的同步發展。音頻業的內容生產、傳播和分發都將從中受益,廣播有機會借助新興技術重塑用戶市場,開創新的傳播格局。

5G 時代,音頻業將以何種方式發展和變化,廣播媒體又應如何定位自身在音頻業中的角色與影響力,這些都是具有挑戰性的重要問題。

一、音頻媒介的本質、要素與進化      

人們通常會注重可見的視覺元素,忽略隱形的聽覺存在。即便在一些傳媒院校,對于廣播媒介以及音頻方面的教學科研也缺乏應有的重視,相關研究呈邊緣化趨勢。在移動互聯的背景下,年輕一代遠離廣播、電視、CD 唱片等傳統渠道,而改為網上快速瀏覽, 網絡視覺文化流行造成泛娛樂消費態勢,降低了人們的文化品位,影響了人們在思想與情感上的深度學習。傳統大眾媒介被邊緣化,引發多種社會問題處于臨界的危險。

宏觀層面來看,廣播不僅是新聞、音樂、公共服務信息及其他內容的重要生產者與傳播者,還是國家、地區或城市對于聽覺文化、口語文化在價值判斷與美學標準上的引導者與教育者。廣播是社會先進文化的展示平臺與交流平臺,是社會轉型期個人心理壓力的傳感器,是個體情感表達與情緒疏解的重要通道。廣播在現代社會中的重要性毋庸置疑。

從廣播節目的角度來看,有關聲音的內容構成一般包含三種要素 :一是人聲或語音,二是音樂,三是音響效果。前兩種好理解,第三種音響效果包括大自然當中自然存在的各種聲響,比如打雷、閃電,還有人們日常生活中發出的聲響。廣播為人們理解聲音提供了一個較為完整的、高質量的媒介框架,即便是電影學院也堅持將廣播劇的學習納入教學計劃,將其視為訓練學生理解聲音藝術性和表現力的有效手段。廣播節目的存在,拉近了人們與社會生活的距離,廣播中的聲音將聽眾與生活緊密聯系在一起。

關于音頻業走向的預測需要從聲音傳播的本質去考量,唯有如此,才能夠準確把握主流媒體在 5G 時代音頻傳播的重點與方向。音頻業發展的恒久動力, 來自人們對于更加豐富的聲音內容的追求和對于音質體驗不斷提升的渴望,這兩點基本決定了相關技術的方向。同時,市場競爭的結果有時也會導致產業的失衡與破壞,它不能作為國家和社會文化發展的單一的媒介技術判斷。例如 MP3(Moving Picture Experts Group Audio Layer-3)的出現,極大地迎合和滿足了人們對于在線流行音樂文件下載和分享的需求。MP3 以其高壓縮比抵消了音質不足的缺陷,成為下載的“理想”格式。當時,全球無線電廣播和唱片產業在過去數十年間建立起來的音樂生態幾乎被 MP3 音樂盜版和非法下載擊垮,這種破壞性迄今仍未能完全消除。值得反思的是,在 MP3 流行的初始階段,主流媒體、唱片公司以及規制機構均低估了其對于音頻產業的負面影響,也未及時推出有效的應對策略。

對于音頻業的理解,需要在文化、社會和技術的綜合視角下將新興技術、產業趨勢和媒體格局統籌考慮,一方面正確認識媒介環境與主流媒體的辯證關系, 另一方面大幅增加科技投入,強化應用研究,對于以往內容策劃和微信微博擴散為重點的傳播策略進行優化和豐富。特別是要對智能語音助理、智能硬件、智能機器人等新的界面、新的終端和新的交互機制作出前瞻性分析和判斷,為下一代高品質、高質量和多模式的音頻傳播奠定基礎。

二、實施融合創新戰略,解鎖聲音傳播的新維度     

廣播是音頻業的重要組成部分。雖然新媒體帶來的競爭壓力愈加明顯,但是廣播的內容品質并未受到過多影響。現在,智能手機及導航系統逐漸成為出行者必聽必看的伴侶,車載廣播的信息與娛樂功能退居其次,廣播應揚長避短,可以分為三個層面實施融合創新戰略。

(一)提升廣播音質,改善音頻傳輸與收聽體驗,樹立音頻傳播的品牌形象

廣播的歷史技術路徑包括有線廣播、無線廣播、衛星通信和互聯網。不論是哪一種通道,音質的提升都會直接帶來節目內容感染力的增強,如立體聲調頻廣播的音質曾極大地滿足了聽眾的需求。5G 時代音頻產品將更廣泛地進入到人們的日常生活,與此同時, 消費電子領域的音頻設備的性能則會快速提升。例如, 索尼公司的高清晰度音頻格式,音質標準高于 CD, 支持用戶收聽 24bit/96kHz 的數字音樂內容,這已經接近原版錄音的效果。

音頻體驗改善的另一種方式是引入運動感和空間感,讓聲音產生“縮放”和“聚焦”的效果,這和前期的錄音設備和新的音頻格式有關。例如,杜比音響被認為是影院級品質的行業標準之一,在 5G 時代, 這類專業音頻標準會向消費電子領域加速擴散,同時移動端的音頻體驗也會向影院級效果看齊。諾基亞公司兩三年前推出的 VR 攝影機 OZO 已經提供 8 個麥克風的全景聲音錄制功能,可以準確記錄并還原 360 度的聲音空間變化。這些技術創新成果已經對部分移動手機廠商進行了專利授權。

廣播覆蓋作為一項重要的工作,在過去數十年間成就巨大。廣播覆蓋實現了多元化、立體化和數字化的跨越式發展,但是廣播音質的提升與內容風格的變化還有不少提升的空間。音質對于都市聽眾特別是青少年而言,在保持用戶黏性和創新聽覺體驗方面具有特別重要的意義。

(二)面向智能手機和智能音箱開發音頻內容, 采取共享的播客策略

播客(Podcasting) 距離首次提出已經過去了十五六年,2019 年播客成為全球媒體上的熱門話題, 2020 年其熱度還將繼續增長。國內的廣播媒體也有涉足播客領域的,但是數量較少,且重視不足。播客并非是廣播的專利,報紙也可以將其作為抵達用戶的新渠道,例如英國《衛報》旗下的播客“今日聚焦”(Today in Focus),聽眾數量已經超過了報紙讀者。

《衛報》的音頻負責人克里斯蒂安·貝內特(Christian Bennett) 說,播客深受年輕群體喜愛,完播率達到80%。 美國有 9000 萬人收聽播客,這一統計數字是2015 年的兩倍。播客內容生動,形式靈活,拉近了傳統媒體與年輕用戶的距離。播客在未來的文化影響方面將進一步加大。需要強調的是,播客對于廣播在新媒體平臺上的競爭力的形成非常重要,甚至超過視頻和圖文。支持電臺制定長期播客策略的另一個依據是近年來智能音箱市場的增長。全球知名研究機構卡納利(Canalys)的數據調查表明 :2019 年第三季度,全球智能音箱出貨量為 2860 萬臺,同比增長 44.9%,亞馬遜、阿里巴巴、百度、谷歌、小米等公司為全球出貨量前五名,排名第一的亞馬遜出貨量突破了 1000 萬臺。英國廣播公司(BBC)語音和 AI 執行編輯穆庫爾德維尚認為:“智能音箱使我們有機會重新想象,如果無線電在今天重新發明,它將不受任何限制。” 2019 年 10 月,英國廣播公司推出針對智能音箱的首個交互式語音新聞服務,希望通過該終端與用戶建立新的聯系。現在,他們的電臺節目有多種形式納入了播客的范疇內,包括 1 至 5 分鐘的特別節目片段如報道、采訪和特稿,6 至 15 分鐘的新聞摘要、靈活的電臺通告,15 至 30 分鐘的深度報道,以及歷史音頻檔案等,都適合以播客的形式在智能音箱上進行訪問。

播客可以被視為另一種形式的聲音出版,同調頻調幅廣播節目相比,面向智能語音硬件的交互式語音廣播可以提供更多細節,也具有更加靈活的內容樣式。許多受歡迎的播客節目都屬于非腳本化的談話和訪談格式,話題由主持人主導,節目極具人格魅力。

(三)聚焦智能汽車場景,建立汽車音頻新媒體樞紐

傳統的汽車工業與客戶的關系主要維持在維護和保養服務方面,汽車廠商沒有能力從客戶那里收集大量數據。而如今,以特斯拉公司(Tesla Inc.)為代表的智能汽車制造商則能夠從客戶那里收集到 TB 數量級的驅動數據(TB 指數據存儲單位),某些情況下還包括視頻。特斯拉將這些數據用于改善汽車的自動駕駛功能。由于自動駕駛汽車的性能和安全性取決于機器學習的效率,而機器學習需要大量的數據,因此特斯拉的數據資源很容易轉化為安全駕駛和高質量客戶服務的優勢。

科技公司在不遺余力地爭奪汽車內部空間的使用權和信息的主導權,而汽車依然是極其重要的廣播音頻應用場景。智能汽車代表著不同以往的新型汽車創新之路,它將為汽車帶來海量的網絡效應(network effects),而汽車也將轉變為新興的物聯網平臺。華為公司的“鴻蒙”系統可能率先進入汽車,以車載操作系統為樞紐,將互聯網、智能手機、語音交互與汽車聯通,從而實現華為 5G 時代的“全場景智慧化”戰略。

廣播需要快速跟上智能汽車的步伐,提前嵌入智能汽車的音頻信息系統,對新聞、音樂、播客、公共信息等進行“把關”和推送,通過“智能音頻編輯部”重新獲得車內音頻服務的主導權。

三、移動終端音頻技術與性能大幅提升, 帶動數字音頻產業的發展  

通信技術,1G 讓用戶移動和通話,2G 支持用戶發送文本,3G 帶領用戶進入互聯網,4G 支持移動流媒體傳輸,而 5G 技術體系通過建立全新的無線基礎架構,獲得比 4G 快百倍的傳輸速度,并有望消除任何處理延遲。美國是全世界首個大規模應用 4G 的國家,而中國目前在 5G 技術研發和建設中處于領先地位。5G 將大量設備連接到云,這將帶來支持高質量語音服務和音樂體驗的移動通信產品快速普及。在2019 年世界移動通信大會(MWC)的展示中,音頻產品的數量和性能尤為顯著。耳塞式無線耳機的數量成倍增加,并且超過了傳統耳機。新型無線耳機便于攜帶,通話質量更好,支持長時間供電,還可以抑制環境噪聲。如今,在大中城市的地鐵、超市或辦公室中,佩戴無線耳機的人們隨處可見,這些都是數字音頻服務新的增長點。

需要注意的是,智能手機、智能音箱、無線耳機等消費終端的音頻技術質量已經超越了傳統的廣播接收設備,正向更專業的音頻標準靠近。2019 年世界移動通信大會上許多科技公司在推廣 5G 產品時,會以錄音室質量的等效體驗來吸引用戶。隨著新型移動通信音頻產品的普及,電臺訪談、名人演講、樂隊采訪、音樂會直播等充滿活力的有聲內容都將進入實時互聯、永不斷線的網絡傳播。5G 的超低延遲技術支持對于音樂會現場來自多個位置的協作錄制或轉播的要求,而手機也將具有強大的音頻錄制與編輯功能。互聯網誕生之初,人們對于數字經濟抱有很高期望,然而過去 30 年數字經濟的發展,對國家國內生產總值(GDP)增長的貢獻卻并不顯著。以美國為例, 2000 年以來,包括軟件和信息技術公司、互聯網公司以及娛樂和出版在內的文化科技行業在美國 GDP 中所占的份額僅增長了 1%。人們在享受數字經濟帶來免費內容的同時,報紙、雜志、廣播、電視、通訊社等媒體機構的收入不斷下滑。傳統媒體為互聯網貢獻了內容價值,但是其流量和顯著性并未充分轉化為收益。中國在 5G 方面的產業優勢為廣播業探索新型音頻業態與應用場景提供了難得的機遇,而數字音頻的電子消費及內容產業亦有望實現對于國家生產力的真正促進。

四、人工智能語音技術的關鍵進展對于音頻業的影響   

圖靈(Alan Mathison Turing)測試是人工智能在哲學方面首個嚴肅的提案。圖靈在 1950 年提出的智能測試,以計算機鍵盤和屏幕為載體,測試結果不依賴計算機把單詞轉換為音頻的能力。圖靈成功定義了什么是機器,卻不能定義什么是智能。距離 1956 年達特茅斯會議已經過去了六十余年,與機器學習在圖形圖像方面的飛速發展相比,人工智能(AI)語音技術的進展顯得過于緩慢,許多研究收效甚微。這也反映出聲音在智能化處理時所面臨的與圖像和文本研究方法的差異。

雖然語音合成如今在日常生活中隨處可見,例如導航軟件、電腦交互,或者文本語音轉換系統,但是許多用戶對于機器語音依然表示失望,合成帶來的機械音色缺少人類語音語調的基本變化,很容易讓人意識到是在與機器交流,而不是與真人對話。AI 語音的科學研究正在從效率、準確度、清晰度向更加真實、能夠模擬和反映人類真實情感的機器語音方向前進。科大訊飛公司已將真人語音的采樣復刻時間縮短到 5 分鐘,用戶復刻聲音后,在訊飛客戶端中可以收聽官方推送的早報、快訊、公眾號文章以及本地文檔。

2019 年夏季,臉書(Facebook)的研究人員肖恩巴斯克斯和麥克·劉易斯開發的AI  語音合成軟件在深度學習上取得明顯突破,他們演示了比爾·蓋茨的數  字化合成聲音,只有親耳聽過才會被其逼真度所震撼。肖恩·巴斯克斯和麥克·劉易斯使用頻譜圖而是音頻波形來訓練其深度學習網絡,同時采用了一種稱為反向傳播的學習過程。這種新的研究方法克服了文本到語音系統的局限性,產生出完全由機器生成的栩栩如生的聲音。這種技術不但可以重現人類的語調, 而且可以像真人一樣說話。

人工智能語音技術以微秒(百萬分之一秒)為單位進行聲音的建構與處理,目前廣播節目編輯最小的時間線單位為毫秒(千分之一秒),雖然處理的都是聲音,但是對于數字化而言,這已經是微觀和宏觀的差別。AI 技術創建的聲音波形不僅反映出與單詞序列相關的特征模式,還能顯示與音調和音色相關的特性。肖恩·巴斯克斯和麥克·劉易斯在代碼托管平臺Github 上公開發布了更加多樣化的演示案例,涉及復雜場景中人聲的創建 ,內容形式包括 :演講、對白、講故事以及鋼琴演奏。

音頻媒介是否可以完全由AI 作為聲音代理(Audio Agent),這曾經是智能語音技術的關鍵性問題。從聲音建模和技術實現的角度來看,臉書(Facebook)的這項成果已經作出了明確的回答。該技術的運用可能給音頻業帶來以下重要改變 :第一,部分電臺大規模部署基于 AI 的“聲音代理人”技術,進入高度自動化的人機協同新模式。第二,真人語音的 AI 版權交易市場形成,主持人、嘉賓以及電臺音頻檔案中的歷史樣本都可以為 AI 聲音版權系統提供來源,掌握優質人聲音色版權的機構將成為 AI 有聲內容鏈的上游。第三,在 5G 萬物互聯的網絡環境下,AI 語音嵌入各類消費電子產品之中,與物聯網融為一體。第四,假音頻(deep fake audio)內容可能大量出現,如同 AI 引發的假視頻(deep fake video)、假新聞一樣。AI 語音引發的版權爭端和倫理問題為監管帶來新的挑戰。第五,有效驗證音頻真偽的智能“聲印”技術與平臺開始出現。

五、結語    

高通公司總裁斯蒂芬·莫倫科普夫在 2017 年美國拉斯維加斯消費電子展會(CES)上說 :“5G 是人類社會自產生電力以來最大的事情。” 5G 將以人們從未見過的方式改變社會,我們需要更多思考的是 :如何與未來連接。

與高分辨率視覺圖像不同,聲音低分辨率的信息特性使得人們容易產生參與感 ,這與新舊媒體無關, 而與人的認知特性有關。當前,流行的音頻產品和技術還遠未滿足人們對于美好內容的追求。聲音、媒介與人的交流,不僅是客觀物理參數的組合,還是心理感知的研究和重構。科技公司對于聲音感知與美感的塑造,某些時候依然缺乏準確的理解和把握。

5G 時代,音頻業的許多問題還需要在實踐中給予驗證和回答。在新時代背景下,廣播電臺應積極擁抱新興技術,持續推動主流媒體在音頻傳播方面的戰略設計、技術更新與運營實施。這符合廣播媒體的現實利益和長期目標,也符合音頻業技術創新和業態融合的迫切需求。采訪、寫作、編輯和評論依然是新聞媒體最重要的生產構成。編輯、記者和評論員的角色將變得日益重要,他們代表著新聞價值的判斷和新聞倫理的維護,也擔負著在人機協同的信息流中對于AI 自動化的監督職責。場景延展與融合創新作為兩個重要的維度,將持續引導廣播業和創新音頻應用不斷向前發展。

如雪直播app免费_如雪直播下载免费版_如雪直播app最新下载