人類聽覺系統(tǒng)除了用于交流、識別和警示外,還進化了一種可能只有人類才具有的高級智能,就是音樂,如獨唱合唱、樂器獨奏合奏等。
其中,唱歌是最容易又是最難的“樂器”。因為隨便誰都能唱,唱得好是“余音繞梁,三日不絕”,反之也可能會“嘔啞嘲哳難為聽”。
唱歌與說話的區(qū)別
人在說語時多以聲帶振動來發(fā)聲,音調(diào)、頻率都在人最自然的發(fā)聲區(qū),偶爾有些人會用腹式呼吸來增強聲音的厚度和減少聲帶的疲勞。即使情緒波動會影響發(fā)聲,但一般變化也不會太大。唱歌則需要比較多的技巧,有著與說話顯著不同的特點。
第一,唱歌的音域變化范圍很寬。比如俄羅斯男歌手維塔斯能從最低音到最高音唱跨 4 個八度,非常厲害。不過我也能,哆唻咪發(fā)嗦啦西哆,重復 5 次,一口氣下來也有 5 個八度。
第二,共鳴腔的運用上唱歌和講話的區(qū)別也非常之大。比如唱歌時用的頭部共鳴,有從鼻腔和后腦勺位置發(fā)聲共鳴的區(qū)別,這兩者導致的音色差別很大。要根據(jù)歌曲風格不同來取舍,老百姓常聽到的美聲唱法喜歡把頭腔聽覺、體感和語言共鳴置后。
如果留意看歌星唱歌,有些歌手唱高音的時候會擠眉弄眼,鼻子皺了起來,那其實就是在找高音共鳴的位置。
為了歌曲表達的厚度,光靠頭腔還不夠,因為會比較單薄,還得利用胸腔共鳴加強中低音區(qū)的共鳴。
如果想把音域再提高,還可以學習用面罩唱法、咽音和關閉唱法來發(fā)聲。而低音比如呼麥的唱法則要把氣運到聲帶附近振動發(fā)聲。
第三,氣息也是造成說話和唱歌區(qū)別變大的地方。歌曲中有些歌詞特別長,只用平時說話那種比較淺的胸式呼吸往往很難保持旋律的穩(wěn)定和連續(xù)性,所以需要借助胸腹式呼吸以及更復雜的換氣技巧。
第四,不像說話一般是四平八穩(wěn)的,歌曲的節(jié)奏變化很豐富,一首歌里可能快慢緩急都會出現(xiàn)。
第五,對歌詞的理解和情感的投入也會使唱歌與說話有顯著的差別。
第六,連讀問題。中文歌詞相對好一些,但英文在唱歌中的連讀就多得多了。關于唱歌和說話,人們可能還會有個錯覺,以為口吃的人唱歌一定唱不好。但實際上這兩者屬于不同的發(fā)聲機制。說話需要思考要講的內(nèi)容,并進行語言組織,再說出來。而唱歌通常是歌曲的語調(diào)、語速和語氣都已經(jīng)給定,人需要做的是將這些內(nèi)容經(jīng)過反復練習后復述即可。所以,口吃的人,可以試著通過學習唱歌來找到流利發(fā)聲的自信。
如何評價歌曲是否好聽
唱歌對多數(shù)人來說,是緩解心情的方式之一。聽到喜歡的歌,學來便唱了??墒浅煤貌缓媚??很多人并不太清楚。
到底什么樣的歌才可以定義為好聽的歌曲呢?音樂里面定義好聽與否,有個與頻率 f 相關的通用法則。
這是日本著名物理學家武者利光于 1965 年在應用物理學會雜志發(fā)表的文章《生物信息和 1 / f 起伏》中提出的 1 / f 波動原則。波動或起伏指某個物理量在宏觀平均值附近的隨機變化,其原則在很多領域都適用。
就音樂來說,1 / f 表明旋律在局部可以呈現(xiàn)無序狀態(tài),而在宏觀上具有某種相關性的,可以讓人感到舒適和諧的波動。市面上很多抒情歌曲都是符合 1 / f 波動原則的曲子,所以大家很喜歡聽。
對于其他形式的音樂風格,如搖滾、說唱等,則是因為其蘊含的律動能幫助人宣泄和抒發(fā)心情有關。
更有甚者,還有完全背離 1 / f 波動原則的歌曲,如幾乎接近噪聲的實驗歌曲《Fireworks》(原唱是 Katy Perry)。
為幫助評估音樂是否好聽,科學家們還提出了一些心理聲學的定性和定量指標,如基于粗糙度、尖銳度、波動度和音調(diào)等聲學特征組合構成的“煩惱度”和“感知愉悅度”等復合聲學指標。
但不管如何約定,音樂風格的多樣性和個性化色彩的濃郁,聲音的感知仍是以個體的主觀感受為評價,公眾認同的并不見得能用于刻畫小眾的審美觀點。
對于歌聲,有人喜歡粗獷低沉的,有人喜歡清澈如水的,有人喜歡嘹亮的,有人喜歡委婉的。
對于歌曲,有人喜歡稀奇古怪的,有人喜歡平鋪直敘,有人喜歡口水歌,有人喜歡陽春白雪。
音樂風格的多樣性和個性化色彩的濃郁,很難真正地形成統(tǒng)一的客觀標準來評判。
歌曲 / 歌唱的相關應用
雖然歌曲 / 歌唱的分析顯然比單純的語音識別復雜、難度高,但在人工智能領域還是有一些相關的應用。
列舉幾個比較有應用價值的,一是歌曲哼唱識別,這是目前多數(shù)提供音樂的平臺有或者正在嘗試做的一項功能。其任務是根據(jù)局部片段的旋律,來識別可能的曲子。難點在于,并非每個人都能準確地把旋律哼出來。多數(shù)采用這種方式找曲子的,原因可能是不記得歌名,或者只是一段遙遠的旋律記憶。其次,人的發(fā)音頻率、音調(diào)、說話的清晰度和原唱都有一定的差異。所以,哼唱識別的任務是要從不精確的哼唱中找到有效的候選集。
除了哼唱,另一個重要的應用是自動調(diào)音。一是因為很少有人能具有絕對音高的能力,即使經(jīng)過專業(yè)訓練,仍然可能不穩(wěn)。二是多數(shù)人的音準和穩(wěn)定性是存在問題的。而喜愛唱歌的人又多。所以,自動調(diào)音對于專業(yè)歌手和業(yè)余愛好者都有很大的應用市場。但由于音樂的風格往往千變?nèi)f化,而且還要學習和增強每個人特有的辨識度和個性化音色,所以,利用人工智能技術構造自動調(diào)音師的難度顯而易見。
另外,音樂聲與人聲分離也是一個極其重要的研究方向。人類在這方面的能力非常強,可以在非常嘈雜的環(huán)境中輕松選擇自己關注的聲音來聆聽。1953 年徹瑞(Cherry)將人類聽覺注意引發(fā)的這一現(xiàn)象稱為雞尾酒會效應(cocktail party effect)。
雖然這一現(xiàn)象已經(jīng)發(fā)現(xiàn)近半個多世紀,但人工智能要實現(xiàn)和人相近的辨識能力還很難。因為通過話筒獲取的音頻信號一般是多個聲源混合而成的一維的音頻信號,要再分離出原來的多個信號源將是一對多的病態(tài)問題,沒有唯一解。
事實上,人類在聽取錄制后的聲音后,也無法獲得雞尾酒會效應的能力了。
要解決這一難題,在人工智能領域通常會假定這些信息源是相互獨立的,且不符合之前提過的高斯分布,輸出結果為這些信息源的加權組合。信息源的分離,又稱為盲源分離(blind-source separation)。早先的做法是利用機器學習和模式識別領域的獨立分量分析(independent component analysis)的技術或其改進版來實現(xiàn),但這一方法的不足是收斂速度慢,且難以獲得唯一解。
深度學習在這一方向上已經(jīng)有了長足的進步。如“谷歌研究”2018 年 8 月在圖形學頂級期刊《計算機圖形學會刊》(ACM Transactions on Graphics,ACM ToG)上公布的最新成果。作者埃弗拉特(Ephrat)等將音視頻結合起來,分別對視頻和音頻采用兩個深度學習模型提取各自特征。
融合特征后,再用一個考慮時間變化的長短時記憶深度模型(long short-term memory,LSTM)來刻畫音視頻的時序特性,最后為每個說話者都采用兩個不同的解碼系統(tǒng)來分離音頻和視頻。該模型達到了目前的最佳效果,離模擬人類的雞尾酒會效應又進了一步。但其仍存在一些不足,主要有兩點。一是需要借助視頻,所以,人臉必須出現(xiàn)在畫面里幫助定位聲音源,這與人在雞尾酒會上并不需要視覺的幫助來定位相比還是要弱不少。其次,該研究還沒有涉及歌聲和樂器聲分離這一類更難的問題。
輸入的視頻幀與音頻(a);
處理思路:分別提取視頻、音頻特征,并執(zhí)行音視頻源分離(b);
為每個說話者輸出干凈的音頻(c)
當然,基于人工智能的音樂分析還有很多其他有意思的應用,如計算機作曲 / 寫歌詞、設計像洛天依一樣的唱歌機器人等。
但總體來看,人類作者寫出的歌詞、旋律的意境往往具有更好的整體性和更強的邏輯性,而計算機模擬的目前還只能做到局部逼近,在大局觀、整體情感的把握上仍然任重道遠,也許現(xiàn)階段考慮與人的混合智能處理是不錯的嘗試。
★ 圖書簡介 ★
★ 作者簡介 ★
原點閱讀入駐小紅書啦!
本文來自微信公眾號:原點閱讀 (ID:tupydread),作者:張軍平,編輯:張潤昕
廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。