新聞動態

人工智能語言識別技術之核心技術!

隱馬爾科夫模型(Hidden Markov Model)的應用是語音識別技術領域的重大突破。

首先由Baum提出相關數學推理,然后Labiner等人進行了不斷的深入研究,最后卡內基梅隆大學的李開復實現了Sphinx,這是第一個基于隱馬爾科夫模型的非特定人大詞匯量連續語音識別系統。

目前,主流的大詞匯量語音識別系統多采用統計模式識別技術。典型的基于統計模式識別方法的語音識別系統由以下5個基本模塊構成。

(1)信號處理及特征提取模塊。模塊從輸入信號中提取可供聲學模型處理的特征,利用一些信號處理技術降低環境噪聲、信道、說話人等因素的影響。

(2)統計聲學模型。典型系統多采用基于一階隱馬爾科夫模型進行建模。

(3)發音詞典。發音詞典包含系統所能處理的詞匯集及其發音。發音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射。

(4)語言模型。語言模型對系統所針對的語言進行建模,目前各種系統普遍采用的還是基于統計的N元文法及其變體。

(5)解碼器。根據聲學、語言模型及詞典,尋找能夠以最大概率輸出該輸入信號的詞串。我們從數學角度來了解一下上述模塊之間的關系。首先,統計語音識別的最基本問題是給定輸入信號或特征序列、符號集(詞典),求解符號串,使得

通過貝葉斯公式,上式可以改寫為:

輸入串O,P(O)是確定的,省略它并不會對上式的最終結果造成影響。因此,上面的公式可以用來表示一般的語音識別所討論的問題,所以將它稱為語音識別的基本公式。

圖文來源網絡,非原創,侵刪




无码av永久免费专区,国产成人综合久久免费,一级A看片2020免费观看,japanese国产永久免费视频