讓機器人崩潰的問題

1樓：匿名使用者

機器人家上瞭解到機器人面臨的最大的問題可能就是說話溝通一斤情感上。讓機器人說話更自然有情感，這可能是一直以來研究者們面臨的最大的一個問題了吧。

語音合成又稱文語轉換（text-to-speech），簡稱tts，指通過機械的、電子的方法生成語音的技術。

隨著科技的發展，合成語音的自然度和音質均得到了明顯的改善。目前，語音合成技術在我們生活中具有廣泛的應用，如電子閱讀、車載語音導航、銀行醫院排號系統、交通播報等等，這些應用場景都離不開語音合成。

簡單來說語音合成分為文字分析、韻律分析和聲學分析三個部分。通過文字分析提取出文字特徵，在此基礎上**基頻、時長、節奏等多種韻律特徵，然後通過聲學模型實現從前端引數到語音引數的對映，最後通過聲碼器合成語音。整個過程類似於「編碼、資訊匹配，解碼的過程」。

語音合成常用的兩種方法：

一種是引數語音合成，另一種則是拼接合成。波形拼接語音合成的過程更容易理解，即在語料庫中抽取合適的拼接單元，拼接成為句子。引數語音合成則需要對音庫進行引數化建模，根據訓練得到的模型**出韻律引數和聲學引數。

波形拼接語音合成需要對錄音人進行長達幾十個小時以上的錄音採集，而引數語音合成則只需要十個小時的錄音採集，即可完成一套定製化語音包的製作。在體驗效果上，拼接拼接合成的語音更加貼近真實發音，但是通過引數合成的語音更穩定。

下圖為基於波形拼接：

下圖為基於統計引數：

如何讓機器說話更自然，有情感？

從合成的發展歷史來看，表現力、音質、複雜度和自然度一直是合成技術所追求的四點。但是目前水平下的合成語音很難體現出情感特徵，例如在韻律表現上不夠靈活，聲調變化上相對死板。

讓機器擁有自然、有情感、高表現力的聲音，依舊是語音合成技術的一大難點。

擺脫平鋪直敘，使合成語言更具有表現力高立足於以下條件：

1、情感豐富的大資料，如：更自然的發音、更豐富的情感、更高更強的表現力

2、新技術的應用

（1）深度神經網路技術已經成功應用到韻律模型、聲學模型**，並整合端到端的語音合成模型；

（2）彈性單元挑選技術，讓合成語音更逼近真人發音；

（3）立足於大量資料的文字分析技術讓合成系統更理解人類的語言；

3、強需求應用場景，如：語音導航、**播報、個性化需求等。

語音合成技術已全面支援多方言、多語種、多音色的選擇，專業mos評分可達4.0以上，為使用者提供渾厚男聲、甜美女聲，並可根據使用者需求實現音庫定製，滿足使用者的個性化應用，例如：明星聲音定製、童聲定製、方言定製等。

從兩個角度來說，一. 音色的定製化，需要跟蹤錄大量的音庫，重新訓練一個模型；二. 個性化表示方法的定製化，可以錄一些資料，通過深度學習訓練模型，自適應的方法來實現。

2樓：

你好我是bot10032號，很高興為你解答問題

答案如下

[404 not found]