來當一日語音設計師——如何設計好聽的合成語音？

文／邱彥哲｜雅文基金會聽語科學研究中心助理研究員

「Hey, Siri!」「OK, Google!」你曾經對手上的行動裝置說話嗎？你會要求他回答什麼呢？受限於目前的技術，你可能不會得到非常滿意的答案，但至少你會聽到一陣悅耳如同真人的語音吧！這項現今習以為常的技術，其實背後是由很多知識累積而成的。今天，讓我邀請你擔任一日「語音設計師」，從語音合成的技術開始，接著了解人類使用者的聽覺偏好，最後探索不同族群對聆聽合成語音的差異吧！

語音助理進駐現代人的日常生活。圖／freepik

語音合成（speech synthesis），是指以人工方式，製造出說話的聲音，可以理解為使機器裝置說出人話的技術。廣義來說，很多人也會把文字轉語音（Text to Speech，簡稱 TTS），含括在語音合成的範疇。

語音合成像樂高，但樂高有兩種！

早在 1970 年代，人類就已經開始嘗試讓機器說話了。構思如何讓機器說話這件事，最直接的方式就是請真人錄一段聲音，然後在指定的時機播放。不過，面對複雜的語言情境，我們不可能錄下所有可能的回應 ; 而且若要這樣做，也實在太沒效率。幸好，借助電腦運算技術，可以讓人類向自動生成語音邁進一大步。合成的方法可以分成兩大類，分別是單元選取合成（Unit Selection Synthesis）及參數合成（Parametric Synthesis）[1]。

單元選取合成這種方法，是將某個語言的語音成分分別以人聲錄製起來，再根據需要的目標語音進行組合。簡單來說，如果需要機器說發出「八」的語音，就必須單獨錄製「ㄅ」跟「ㄚ」。這個技術聽起來直觀方便，但也有缺點。就是事先必須建立一個龐大的語音資料庫，這個資料庫必須包含一個語言所有語音成分，此外，還必須錄下這些語音成分在所有情境下的變化，光想起來就令人有點頭痛。

所以後者，參數合成，就顯得方便許多。這種方法，是直接將語音參數輸入電腦，讓電腦直接根據參數發出聲音，再組成語音。使用參數合成，就可以免去請人錄音的步驟，但直接使用電腦生成的語音，聽起來也會相對不自然。我們可以把這兩類方法想像成是在組合樂高，都是將語音成分一塊一塊組合起來，只是前者的樂高是自然材質（比如說木頭製），後者是人造材質（比如說塑膠）。

借助深度學習，電腦說話很自動

不過，無論是上述哪種方法，都還是需要不少的人工調校，才能使聲音逐步接近人類的語音。但還好，隨著電腦演算的進步，將深度學習（deep learning）運用在語音合成的領域，不但減少了人工成本，也大大提升的語音的擬人性。所謂深度學習，簡單來說就是一套模擬人類神經網絡的演算法。

使用這樣的演算法，設計者只需蒐集大量的語音資料，將資料「餵」給電腦，無須事先切分或分析，電腦便會自動學習其中的規律。如此一來，只要資料數量足夠龐大，電腦就可以自動產生符合自然規律且真實的語音。

但是，身為一位語音設計師，要進一步思考的是：「究竟要餵給電腦什麼呢？」這個問題又必須從使用者的角度來思考：「人類會偏好聆聽什麼樣的語音？」就像生產商品一樣，語音百百款，要能投其所好，才能讓使用者日日寸步不離，對吧！

聆聽也要投其所好，性別頻率最重要

人類對不同性別及頻率有特殊的聆聽偏好。圖／freepik

關於合成語音的聆聽偏好，最先被討論的，是性別。雖然我們都知道機器沒有性別，但若希望他和人一樣跟你互動，投射性別是很自然的。不過有人就提出質疑：「為什麼我們的語音助理，都是女性的聲音呢？」美國西北大學梅迪爾傳播新聞整合行銷學院教授 Candy Lee 進行一項調查，測試了 8 種族裔的使用者，結果發現 64% 的人只偏好女性的聲音[2]。

這樣看起來，預設為女性的聲音應該是沒問題的吧？不過，有人認為這是社會對「助理」的性別刻板印象所致；因為社會習慣女性作為「服務者」，所以在設計語音時，直覺地就挑選了女性聲音。雖然單就頻率方面，的確有研究指出，使用者確實是偏好頻率較高的合成語音[3]，但若是一昧如此，也極有可能不斷複製性別偏見的印象[4]。

有鑒於此，越來越多系統開始提供男性語音的選項。更甚者，哥本哈根研究團隊突發奇想，不以性別為選項，而是改以頻率作為調查標準。分析之後，他們得到一個最佳的頻率值──185 赫茲，設計出史上第一個無性別語音助理「Q」[5]。如此一來，青菜蘿蔔各有所好，聆聽的偏好也朝著多元共好的目標邁進！

聽得舒服，語速考量不能少

解決的性別與頻率的問題，還得注意甚麼呢？專門研究輔助溝通系統（Augmentative and Alternative Communication，簡稱 AAC）的專家想到了語速的問題。輔助溝通系統可以簡單理解成「溝通輔具」，是用以輔助溝通障礙者溝通的工具; 簡單如圖卡，複雜如電子溝通板，都算是其中一員。而像是電子溝通板這類，以螢幕顯示圖片，點擊後可以播放語音的輔具來說，合成語音是很關鍵的技術。

這些溝通障礙專家想知道：「究竟什麼樣的語音速度，是最舒服的呢？」。

Sutton 與其研究團隊招募了 21 至 28 歲的年輕人與 61 至 79 歲的年長者，對合成語音進行語速評分[6]。語速的計算方式，採用每分鐘幾個字（Words per minute，簡稱 WPM）計算。他們將合成語音調整成不同的語速，範圍介於 120 到 250WPM 之間。結果發現，無論年輕人或年長者，偏好的語速都落在 150 到 200WPM 之間 ; 而年長者則是相對年輕人偏好較慢的語速。這樣的範圍，其實與過去研究提出的人類平均語速，相去不遠[7]。

如果想知道不同語速聽起來感受如何，可以到合成語音軟體 Speechify[8]的網站試用，自行調整語速（以 WPM 計算），細細品味其中差異。或者，讓我為你朗讀，請聽示範（語速約 180WPM，內容為「我是彥哲，我是普通人。」）！

可見，語音合成的技術雖是極為理性的領域，但若要設計出美妙的語音，對人類感性的理解，也絕對不能偏廢。

圖／Pixabay

合成語音聆聽不易，考量族群差異最貼心

「所以，我只要想辦法把語音設計得很像人類就可以了吧？」你可能會這樣想，不過這裡頭還少了一個部分。現代社會提倡多元，客製化當道，每個人使用同個產品的狀況必然會有差異。

其實，即使是一般人，聆聽並理解合成語音是比自然語音更加困難的。Winters 及 Pisoni 發表的回顧研究指出：由於合成語音的清晰度普遍較差，因此聆聽者通常需要動用更多的認知資源（像是電腦需要動用較多記憶體），以及更多高層次的語言知識來彌補語音訊息的不完整[9]。如果對普通人來說是如此，對於某些特殊族群來說，想必有更加需要注意的地方。

比如說兒童。Mirenda 及 Beukelman 招募了成年人、10 至 12 歲以及 6 至 8 歲的兒童進行研究[10]。參與者的任務，是要在聽完自然語音及合成語音播放的八個詞彙之後，再將這八個詞彙回憶並說出來，回答無須按照順序。結果研究者發現，兩組兒童無論聆聽自然或合成語音，回憶詞彙的表現都比成人還差 ; 對於兩組兒童而言，記憶合成語音的表現又更不理想。

由此可知，兒童本身的記憶能力就較成年人弱，在聆聽合成語音時，可以說是是難上加難。

另一個被探討的，是聽障族群。聽障族群最主要的困難，就在於聆聽。聆聽合成語音如果對聽常族群來說本來就比較困難，那對聽障族群應該是更加艱困的挑戰吧！Kangas 和 Allen 的研究[11]回答了這個問題。研究者請年長聽障者聆聽自然語音與合成語音，並請他們在聆聽後寫出聽到的單字。結果可想而知，聽障者確實在聆聽合成語音的部分表現得比較差。

看完上面的狀況，身為語音設計師的你，在設計語音的時候，是不是也應該從使用者的背景差異去調整你的語音呢？也許是調整語音的頻率，也許是調整語速，也可能，也可能有更多領域需要探索。唯有這樣，才能朝充滿人性又個人化的智慧語音邁進。

怎麼樣？沒想到要設計語音，希望機器說出一句話，背後涉及理性的技術與感性的考量，非常不容易吧！看完之後，你還是可以輕鬆地要求你的行動裝置說個笑話，唱首歌給你聽，自娛娛人；但也千萬別忘記，多留點心思，給這人類文明的結晶致上敬意。一日語音設計師，功成身退！

參考資料

詹姆士・弗拉霍斯。(2019)。從說話機器人到聊天機器人。聲控未來：引爆購物、搜尋、導航、語音助理的下一波兆元商機(孔令新譯，頁104-137)。商周出版。
Marc Jacob.(2022/3/30). Medill Study Finds Preference for Female Voices and Local Accents. Northwestern Medill Local News Initiative.
顏宏旭，楊麗平，宋慧宏。(2020)。聽眾對語音合成導覽裝置聲音偏好之探討。戶外遊憩研究。33(4)，83-107。
West, M., Rebecca K., & Chew H.E. (2019). I’d Blush if I Could: Closing Gender Divides in Digital Skills Through Education.UNESCO & EQUALS Skills Coalition.
GenderLess Voice. (2023/3/3) Meet Q [Web message].
Sutton, B., King, J., Hux, K., & Beukelman, D. (1995). Younger and older adults’ rate performance when listening to synthetic speech. Augmentative and Alternative Communication, 11(3), 147-153.
Walker, V. G. (1988). Durational Characteristics of Young Adults during Speaking and Reading Tasks. Folia Phoniatrica et Logopaedica, 40(1), 12–20.
Speechify. (2023/3/3) Speechify.
Winters, S. J., & Pisoni, D. B. (2004). Perception and comprehension of synthetic speech. Research on spoken language processing report, 26, 95-138.
Mirenda, P. & Beukelman, D.R. (1987). A comparison of speech synthesis intelligibility with listeners from three age groups. Augmentative and Alternative Communication, 3, 120-128.
Kangas, K.A. & Allen, G.D. (1990). Intelligibility of synthetic speech for normal-hearing and hearing impaired listeners. Journal of Speech and Hearing Disorders, 55, 751-755.

2023 年 3 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

來當一日語音設計師——如何設計好聽的合成語音？

語音合成像樂高，但樂高有兩種！

借助深度學習，電腦說話很自動

聆聽也要投其所好，性別頻率最重要

聽得舒服，語速考量不能少

合成語音聆聽不易，考量族群差異最貼心

參考資料

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定