一级a一级a爱片免费免会员2月|日本成人高清视频A片|国产国产国产国产国产国产国产亚洲|欧美黄片一级aaaaaa|三级片AAA网AAA|国产综合日韩无码xx|中文字幕免费无码|黄色网上看看国外超碰|人人操人人在线观看|无码123区第二区AV天堂

語音識別系統(tǒng)

時間:2022-11-25 09:32:25

導(dǎo)語:在語音識別系統(tǒng)的撰寫旅程中,學(xué)習(xí)并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優(yōu)秀范文,愿這些內(nèi)容能夠啟發(fā)您的創(chuàng)作靈感,引領(lǐng)您探索更多的創(chuàng)作可能。

語音識別系統(tǒng)

第1篇

關(guān)鍵詞:SAPI;C#;.NET;語音識別

1 引言

語音識別是信息處理領(lǐng)域的一個重要方向,語音識別通常又可以分為兩種工作方式:一種是連續(xù)語音聽寫,這種方式需要語音識別引擎對語音聽寫過程中上下文以及相同相似發(fā)音的詞語進(jìn)行分析、做出判斷,實(shí)現(xiàn)難度較大。另一種是命令與控制方式(command and control),在此種方式下,語音識別引擎可以通過對簡短的命令語音進(jìn)行識別,以便執(zhí)行相應(yīng)操作。

語音識別技術(shù)基礎(chǔ)是非常復(fù)雜的。正是如此,它獲得了世界上著名的公司與研究機(jī)構(gòu)的青睞,語音識別技術(shù)正經(jīng)歷著日新月異的改變,其中一些產(chǎn)品已經(jīng)取得較好的效果,用戶可以在上述產(chǎn)品基礎(chǔ)之上進(jìn)行二次開發(fā)。

2開發(fā)圖片語音識別系統(tǒng)的條件

語音識別技術(shù)的發(fā)展涉及人機(jī)交互,自然語言處理,人工智能。這使開發(fā)人員難以從底層進(jìn)行應(yīng)用開發(fā),欣慰的是一些公司與研究機(jī)構(gòu)已經(jīng)推出他們的研究成果,并且提供了供開發(fā)人員使用的開發(fā)平臺與接口。其中影響比較大的有微軟的SAPI、劍橋大學(xué)的HTK,IBM的via voice開發(fā)平臺。本文采用微軟的Speech SDK5.1開發(fā)包,它不僅是一個免費(fèi)的開發(fā)包,同時提供對中文的支持。

2.1微軟SAPI簡介

微軟的 Speech SDK是基于 C O M 的視窗操作系統(tǒng)開發(fā)工具包。這個 SDK中含有語音應(yīng)用程序接口( SAPI )、微軟連續(xù)語音識別引擎(MCSR)以及串聯(lián)語音合成(又稱文本到語音)引擎(TTS)等等。SAPI 中還包括對于低層控制和高度適應(yīng)性的直接語音管理、訓(xùn)練向?qū)?、事件?語法、 編譯、資源、語音識別管理以及文本到語音管理,其結(jié)構(gòu)如圖 l 所示。

圖1 SAPI結(jié)構(gòu)

SAPI API在應(yīng)用程序和語音引擎之間提供一個高級別的接口。SAPI實(shí)現(xiàn)了所有必需的對各種語音引擎的實(shí)時的控制和管理等低級別的細(xì)節(jié)。

SAPI引擎的兩個基本類型是文本語音轉(zhuǎn)換系統(tǒng)(TTS)和語音識別系統(tǒng)。TTS系統(tǒng)使用合成語音合成文本字符串和文件到聲音音頻流。語音識別技術(shù)轉(zhuǎn)換人類的聲音語音流到可讀的文本字符串或者文件。

2.2 在.net應(yīng)用程序中使用SAPI的準(zhǔn)備

安裝SAPI 5.1語音開發(fā)包。

由于SAPI基于Windows平臺,通過COM接口供.net平臺調(diào)用,所以具體調(diào)用方法為:新建工程,在此工程的解決方案中單擊右鍵,在添加/引用中選擇 Microsoft Speech Object Library,并在程序中添加對SAPI命名空間的引用:using SpeechLib。

3 系統(tǒng)模型設(shè)計及實(shí)現(xiàn)

3.1 創(chuàng)立系統(tǒng)界面

 

圖2 系統(tǒng)界面一覽

3.2  使用SAPI語音識別核心類

ISpRecognizer類是支持語音識別的核心類,主要用于訪問MCSR實(shí)現(xiàn)語音識別。在進(jìn)行語音識別時,微軟Speech SDK 5.1 支持兩種模式的語音識別引擎:共享(Share)和獨(dú)享(InProc)。在本系統(tǒng)中,我們使用共享型語音識別引擎,CLSID_SpSharedRecognizer。

SpSharedRecoContext類是語音識別上下文接口,它可以發(fā)送與接收消息通知,通過CreateGrammar方法創(chuàng)建語法規(guī)則。通過對它的兩個事件:_ISpeechRecoContextEvents_RecognitionEventHandler(ssrc_Recognition) ,_ISpeechRecoContextEvents_HypothesisEventHandler(Hypo_Event)的重寫,我們可以很輕松的得到當(dāng)前語音識別結(jié)果。第一個事件對應(yīng)的就是識別結(jié)果顯示:1、第二個事件對應(yīng)的就是識別結(jié)果顯示;2、ISpeechRecoGrammar類是語法規(guī)則接口,定義語音識別引擎需要是別的語音類容。起語法規(guī)則可以分為聽寫型與命令控制型。聽寫型可以識別大詞匯量語音,但是別效率與識別準(zhǔn)確率較低。命令控制型有針對性的對特定語音進(jìn)行識別,在效率與準(zhǔn)確率上都非常高。

當(dāng)然一個ISpRecognizer不管是共享還是獨(dú)享,都可以有多個RecoContext與其關(guān)聯(lián),而一個RecoContext也可以與多個ISpeechReco  Grammar關(guān)聯(lián),每個ISpeechRecoGramma  r識別各自規(guī)定的內(nèi)容。

 

圖3 語音識別類對應(yīng)關(guān)系

3.3  編寫系統(tǒng)核心代碼

通過讀入外部Grammar配置語音識別引擎,外部Grammar文件以xml文件格式存儲。具體形式如下:

ManegePic.xml

玫瑰

大象

獅子

老虎

仙人掌

珠穆朗瑪峰

布達(dá)拉宮

貂蟬

十字軍

世界杯

阿里巴巴

乒乓球

五星紅旗

……

采用命令控制型Grammar是為了使語音識別結(jié)果準(zhǔn)確有效,定義外部Grammar是為了保持以后系統(tǒng)的可擴(kuò)展性。對于新輸入的圖片,只要將圖片名字加入到 圖片名字

中即可。

開始語音輸入事件:

private void btnStart_Click(object sender, EventArgs e)

{

ssrc = new SpSharedRecoContext();

srg = ssrc.CreateGrammar(1);

srg.CmdLoadFromFile(""ManegePic.xml"", SpeechLoadOption.SLODynamic);

//讀入規(guī)則

ssrc.Recognition += new _Ispeec hRecoC ontextEvents_RecognitionventHandler(ssrc_Recognition);

//添加識別最終事件 

ssrc.Hypothesis += new _IspeechRecoCon textEvents_HypothesisEventHandler(Hypo_Event);

//添加識別懷疑事件

srg.CmdSetRuleState(srg.Rules.Item(0).Name, SpeechRuleState.SGDSActive);

//激活規(guī)則 

}

其中識別最終事件是系統(tǒng)在完整處理輸入音頻之后得到的最后識別結(jié)果,懷疑事件則是因為系統(tǒng)在處理過程中的最相似識別結(jié)果。這兩個事件在一些環(huán)境之下得到的識別結(jié)果不同。

識別懷疑事件:

private void Hypo_Event(int StreamNumber, object StreamPosition, ISpeechRecoResult Result)

{

  textBox2.Text = Result.PhraseInfo.GetText(0, -1, true);

}

將系統(tǒng)在處理過程中的最相似結(jié)果顯示在textBox控件之中。

識別最終事件:

void ssrc_Recognition(int StreamNumber, object StreamPosition, SpeechRecognitionT ype RecognitionType, ISpeechRecoResult Result)

{

textBox1.Text = Result.PhraseInfo.GetT ext(0, -1, true);

// 將系統(tǒng)最終結(jié)果顯示在textBox控件之中。

try

{

Picturebox1.image = Result.PhraseInf o.GetText(0, -1, true).tostring()+”.jpg”;

//顯示識別結(jié)果的圖片

}

Catch (Exception e)

{}

}

由于篇幅有限,這里僅僅給出了構(gòu)建語音識別引擎與圖片顯示部分的代碼。完 整的系統(tǒng)可以在Windows XP + vs2008環(huán)境中調(diào)試通過,實(shí)現(xiàn)基于.net和SAPI的圖片語音識別系統(tǒng)。

4 結(jié)語

通過制作圖片語音識別系統(tǒng),對利用SAPI進(jìn)行語音識別有了初步的研究和實(shí)踐,該系統(tǒng)具有一定的擴(kuò)展性,也可以作為子系統(tǒng)嵌入到其他系統(tǒng)之中。該系統(tǒng)的功能可以擴(kuò)展到語音控制文件操作,比如打開/關(guān)閉文件,添加文件,可以制作一個不需要鍵盤鼠標(biāo)只利用語音就可進(jìn)行操作的軟件系統(tǒng)。

參考文獻(xiàn):

[1] Microsoft Speech 5.1 SDK Help .Microsoft Corporation

第2篇

【關(guān)鍵詞】 Mel倒譜 感知線性預(yù)測系數(shù) MFCC PLP 語音識別 藏語

自動語音識別研究起始于上世紀(jì)50年代,80年代最大突破是隱馬爾科夫模型(HMM)的應(yīng)用,語音識別研究重點(diǎn)從特定人、小詞表、孤立詞語音識別向非特定人、大詞表、連續(xù)語音識別轉(zhuǎn)移;90年代以來,語音識別在模型細(xì)化、參數(shù)提取和優(yōu)化、系統(tǒng)自適應(yīng)方面取得重大突破.進(jìn)入本世紀(jì),著名的研究機(jī)構(gòu)和公司,如劍橋大學(xué)、IBM、CMU大學(xué)、微軟、貝爾實(shí)驗室等機(jī)構(gòu)的大詞表連續(xù)語音識別系統(tǒng)對特定說話人的識別率達(dá)到95%左右.面對中國未來市場,國外IBM、APPLE、MOTOROLA等公司投入到漢語語音識別系統(tǒng)的開發(fā).

我國語音識別研究雖然起步較晚,但發(fā)展發(fā)展迅速,中國科學(xué)院自動化研究所、聲學(xué)研究所及清華大學(xué)、北京交通大學(xué)等機(jī)構(gòu)都開展了語音識別的研究,總體上,漢語連續(xù)語音識別的研究與國外先進(jìn)技術(shù)相差不大。

實(shí)際環(huán)境對語音識別的聲學(xué)噪聲魯棒性要求越來越高,因此,提取具有魯棒性和較強(qiáng)區(qū)分能力的特征向量對語音識別系統(tǒng)具有重要的意義.目前常用的聲學(xué)特征參數(shù)有基于線性預(yù)測分析(LPC)的倒譜LPCC、基于Mel頻率彎折的倒譜MFCC及基于聽覺模型的感知線性預(yù)測(PLP)分析等.

由于考慮到人耳的聽覺特性,Mel倒譜系數(shù)或感知線性預(yù)測系數(shù)已經(jīng)成為目前主流的語音特征向量提取方法之一,加上它們的一階、二階差分以及對特征向量進(jìn)行歸一化處理以后,在大詞匯量連續(xù)語音識別問題上取得不錯的結(jié)果。為了使系統(tǒng)具有較好的魯棒性,通常要對語音識別系統(tǒng)的前端進(jìn)行預(yù)處理.

雖然語音信號是非平穩(wěn)信號,但在一個小的時段內(nèi)具有相對的穩(wěn)定性,因此在對語音信號進(jìn)行分析時,我們總是假定語音信號在一個時間幀(frame)內(nèi)是平穩(wěn)信號,這就是語音信號的短時分析假設(shè)。通常一幀大約為20ms左右。對一幀信號通過加Hamming 窗、Hanning 窗或矩形窗后再進(jìn)行特征分析就可以得到相應(yīng)的一組特征,然后通過把分析窗移動一個偏移(稱為幀移,通常為一幀的1/2或1/3),然后進(jìn)行下一幀的處理。

1.MFCC的計算

Mel頻率倒譜參數(shù)(MFCC),著眼于人耳的聽覺特性。人耳所聽到的聲音的高低與聲音的頻率并不成線性正比關(guān)系,從人類聽覺系統(tǒng)的研究成果來看,人耳分辨聲音頻率的過程猶如一種取對數(shù)的功能,而Mel頻率尺度則更符合人耳的聽覺特性。

類似于臨界頻帶的劃分,可以將語音頻率劃分成一系列三角形的濾波器序列,即Mel濾波器組。Mel頻率和頻率的關(guān)系如下:

Mel(f)=2595lg(1+f/700)

Mel頻率帶寬隨頻率的增長而變化,在1000Hz以下,大致呈線性分布,帶寬為100Hz左右,在1000Hz以上呈對數(shù)增長。將頻譜通過24個三角濾波器,其中中心頻率在1000Hz以上和以下的各12個。濾波器的中心頻率間隔特點(diǎn)是在1000Hz以下為線性分布,1000Hz以上為等比數(shù)列分布。

圖1 Mel三角濾波器

MFCC的具體計算過程如下:

1) 由原始信號計算其DFT,得到離散譜{S n n N} t ( ) = 1,2,..., ;

2) 三角濾波器的輸出則為此頻率帶寬內(nèi)所有信號幅度譜加權(quán)和。

l = 1,2,....,24

3) 對所有濾波器輸出作對數(shù)運(yùn)算

ln(y(l))l= 1,2,....,24

4) 作離散余弦變換(DCT)得到Mel頻率倒譜參數(shù)(MFCC)。

i = 1,2,...,P,P為MFCC參數(shù)的階數(shù),取P=12.

2.PLP的計算

感知線性預(yù)測(PLP)技術(shù)涉及到聽力、心理、物理學(xué)的三個概念:(1)臨界波段頻譜分辨率;(2)等響度曲線;(3)強(qiáng)度-響度功率定律。使用一個自回歸全極點(diǎn)模型去逼近聽覺頻譜。5階的全極點(diǎn)模型能有效地抑制聽覺頻譜中與話者有關(guān)的細(xì)節(jié)信息。與傳統(tǒng)的線性預(yù)測(LP)分析相比,在強(qiáng)調(diào)聽覺這方面,PLP分析更為合理。

PLP分析流程:

(1)使用FFT用對原始信號從時域變換到頻域,得到功率譜 ;

(2)關(guān)鍵波段頻譜分析(Critical-band spectral resolution):以不同于Mel頻譜分析的新的臨界波段曲線進(jìn)行分段離散卷積,產(chǎn)生臨界波段功率譜的樣點(diǎn).

(3)等響度預(yù)加重(Equal-loudness pre-emphasis):樣值化的通過模擬的等響度曲線進(jìn)行預(yù)加重

(4) 利用強(qiáng)度-響度冪律(Intensity-loudness power law)進(jìn)行立方根幅度壓縮

(5) 自回歸建模(auto-regressive modeling):利用全極點(diǎn)頻譜建模的自相關(guān)方法由全極點(diǎn)模型的頻譜去逼近 ?;驹硎牵簩Ζ?Ω)進(jìn)行逆DFT變換,產(chǎn)生自相關(guān)函數(shù)。前M+1個自相關(guān)值用于從Yule-Walker方程中解出M階全極點(diǎn)模型的自回歸系數(shù)。

3.實(shí)驗結(jié)果

分別提取12維PLP和MFCC特征參數(shù),1維歸一化短時能量,并求其一階差分及二階差分,共39維MFCC和PLP特征參數(shù).

以音素為聲學(xué)建模單元,采用5狀態(tài)的連續(xù)HMM模型(見圖2),其中1、5狀態(tài)只起連接作用,沒有觀測概率,第2、3、4狀態(tài)有GMM概率分布,假設(shè)特征參數(shù)是相互獨(dú)立的,所以規(guī)定協(xié)方差矩陣為對角陣。

圖2 五狀態(tài)HMM模型結(jié)構(gòu)

聲學(xué)模型的訓(xùn)練基于4007句朗讀式的特定人男聲語料,共2.84小時,結(jié)合藏語語言學(xué)和語音學(xué)的研究成果,對拉薩話中全部50個音素進(jìn)行分類,共劃分了38個音素類別集,對全部72個聲韻母設(shè)計了72個類別集,根據(jù)其前后語境分別建立決策樹問題集,生成決策樹,生成三音子模型后逐步增加高斯混合度。

選擇50句短句作為測試集,測試集與訓(xùn)練集為同一發(fā)音人,但發(fā)音文本完全獨(dú)立,同時,測試集語料與語言模型的訓(xùn)練語料也完全獨(dú)立,測試集共有885個單音節(jié),其中界外詞(OOV)25個,全部為緊縮音節(jié)。

當(dāng)特征參數(shù)分別為PLP和MFCC時,實(shí)驗結(jié)果如下(三音子triphone模型的狀態(tài)數(shù)為584):

由藏語大詞表連續(xù)語音識別的實(shí)驗結(jié)果來看,PLP和MFCC的效果相差不大。

參考文獻(xiàn)

[1] Lawrence Rabiner, Biing-Hwang Juang. Fundamentals of Speech Recognition[M].北京:清華大學(xué)出版社.1993

[2] 鄭方,吳文虎,方棣棠. 連續(xù)無限制語音流中關(guān)鍵詞識別的研究現(xiàn)狀[C].第四屆全國人機(jī)語音通訊學(xué)術(shù)會議,北京,1996

[3] 高升,徐波,黃泰翼.基于決策樹的漢語三音子模型[J].聲學(xué)學(xué)報,2000,11(2):271-276

[4] Julian James Odell. The Use of Context in Large Vocabulary Speech Recognition[D]. Cambridge: University of Cambridge,1995

第3篇

關(guān)鍵詞:FPGA;語音識別;MPCC;HMM

中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2011)10-2339-02

Design and Implementation of FPGA-based Voice Recognition Dialing System

WANG Hong, HAN Fei, WANG Jian, MA Yan-ping, ZHONG Hui, LI He

(School of Computer Science, South-Central University For Nationalities, Wuhan 430074, China)

Abstract: This paper elaborates a much more efficent and more identifiable process of speech dialing system and crucial technology which based on Altera Cyclone Ⅲ 3C16 and Quartus Ⅱ, NiosⅡ9. 0IDE using improved speech processing and speech recognition algorithm.

Key words: FPGA; speech recognition; MPCC; HMM

1 系統(tǒng)的總體設(shè)計

系統(tǒng)由語音采集模塊、語音識別模塊和撥號模塊三部分組成。語音信號采集模塊由麥克風(fēng)和音頻編解碼芯片TLV320AIC23B組成,它主要的功能是對外部語音進(jìn)行采集并數(shù)字化;語音識別模塊由預(yù)處理、端點(diǎn)檢測、特征提取、訓(xùn)練和模式匹配等算法模塊組成;匹配成功后,由撥號模塊找出對應(yīng)的電話號碼,經(jīng)DTMF發(fā)生器輸出到電話線路上,實(shí)現(xiàn)語音控制自動撥號功能。系統(tǒng)的算法流程如圖1所示。

2 語音采集模塊

系統(tǒng)采用音頻編解碼芯片TLV320AIC23B對語音信號進(jìn)行采集,使用該芯片時只需配置相應(yīng)端口,芯片自動將外界語音信號轉(zhuǎn)變成數(shù)字信號輸出。

3 語音識別模塊

語音識別模塊不僅要進(jìn)行訓(xùn)練和模式匹配,還要對采集到的語音信號進(jìn)行諸如加窗、預(yù)加重、除噪處理,最后提取特征參數(shù)供匹配識別操作。該模塊(如圖2所示)所采用的語音識別算法全部用HDL描述,采用FPGA實(shí)現(xiàn)。

3.1 預(yù)處理

預(yù)處理包括預(yù)加重、分幀和加窗,它們的目的是去除噪聲,加強(qiáng)有用信息,對語音輸入測量儀器或其他因素造成的退化現(xiàn)象進(jìn)行復(fù)原。

3.1.1 預(yù)加重

預(yù)加重的目的是提升高頻部分,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。

3.1.2 分幀加窗算法

語音信號是一種典型的非平穩(wěn)信號,特性隨時間變化,但在很短的時間(大概15ms)內(nèi)是平穩(wěn)的,其特性保持不變,因此,可以采用分幀處理,用幀來描述語音信號的特征[1]。分幀算法用DSPBuilder描述,再轉(zhuǎn)換成對應(yīng)的HDL[2]。其DSP Builder的實(shí)現(xiàn)如圖3所示。

加窗的目的是使主瓣更尖銳,旁瓣更低。本系統(tǒng)選用漢明窗,公式如(1):

(1)

3.2 端點(diǎn)檢測

系統(tǒng)用HDL描述端點(diǎn)檢測,并且采用基于能量狀態(tài)變遷的端點(diǎn)檢測方法,將整個端點(diǎn)檢測過程分為6個狀態(tài),其狀態(tài)變遷取決于轉(zhuǎn)換條件。能量狀態(tài)變遷圖如圖4所示。

3.3 特征提取

經(jīng)過端點(diǎn)檢測后的語音幀用MFCC進(jìn)行特征提取,對于經(jīng)過預(yù)加重和加窗處理的語音信號,可以直接從FFT開始計算。我們采用Alter公司提供的FFT IP核。一般框架如圖5所示。

3.4 HMM訓(xùn)練與匹配

系統(tǒng)的HMM訓(xùn)練采用經(jīng)典的Baum-Welch算法,識別采用viterbi算法[4]。系統(tǒng)對原始的viterbi算法進(jìn)行了改進(jìn),改進(jìn)后的算法如下:

1)初始化 δ[1][1]= ∏[j]+b[j][O(1)],1QjQ4

2)遞歸 δ[t][j]=min[δ[t-1][i]+a[i][j]]+b[O(t)],2QtQT 1QjQ4

φ[j]=argmin[δ[t-1][i]+a[i][j]]2QtQT 1Qi jQ4

3)終止 p=δ[T][4]q[t]=4

4)路徑回溯q[t]= φ[t+1][q[t+1]],t=T-1,T-2,…,1

算法表明,下一狀態(tài)只停留在當(dāng)前狀態(tài)轉(zhuǎn)移到它概率最大的那個狀態(tài),直至最后一個狀態(tài)S4,如圖6。

4 撥號模塊

模式匹配成功后,找出與模板對應(yīng)的電話號碼,經(jīng)過DTMF發(fā)生器輸出到電話線路上實(shí)現(xiàn)語音控制自動撥號的功能。在撥號狀態(tài)下,語音識別模塊通過信號線和控制線將DTMF信號發(fā)送到電話機(jī)線路上,電話機(jī)讀取存放在相應(yīng)位置的電話號碼并發(fā)送出去。

5 結(jié)束語

本文討論了基于FPGA的語音識別撥號系統(tǒng)的設(shè)計和實(shí)現(xiàn),對非特定人、孤立詞等進(jìn)行識別。系統(tǒng)實(shí)現(xiàn)的語音識別準(zhǔn)確率高、效率加強(qiáng),可應(yīng)用于任何可編程邏輯器件中,為手機(jī)、座機(jī)及其它諸多應(yīng)用中的語音撥號功能的實(shí)現(xiàn)提供了參考設(shè)計方案。

參考文獻(xiàn):

[1] 馬志欣,王宏,李鑫.語音識別技術(shù)綜述[J].昌吉學(xué)院學(xué)報,2006(3):93-97.

[2] 懷,徐佩霞.基于DSP的嵌入式語音識別系統(tǒng)的實(shí)現(xiàn)[J].計算機(jī)工程,2005(16).

第4篇

關(guān)鍵字:普通話 語音識別 基本音素

一、普通話基本音素分析

1.音素的分類。普通話所有的發(fā)音,都可以將聲母和韻母相拼,再加入聲調(diào)而成。1958年批準(zhǔn)的《漢語拼音方案》將漢語拼音分成21個聲母與35個韻母,以及五種音調(diào)。但因56個聲、韻母中,許多都是由基本音素所構(gòu)成的復(fù)合音,計算機(jī)要識別單音特征就顯得有一定的難度,為了降低復(fù)雜性,先要對普通話的基本音素進(jìn)行分析和篩選,給從基于音素的語音識別做好鋪墊。

2.音素分析。如果從發(fā)音特征來考察,普通話的音素包括元音和輔音兩大類。元音在發(fā)音的過程當(dāng)中起到主導(dǎo)作用,輔音則輔助發(fā)音,漢語拼音的56個聲、韻母發(fā)音中,有10個漢語元音和22個漢語輔音。所以掌握好了這l0個漢語元音和22個輔音,就能將所有的漢語拼音的發(fā)音拼出。元音和輔音分別如下:

元音:a,o,e,i,u,n,侖,i(知),i(資), er;

輔音:b,P,m,f,d,t,n,l,g,k,h,j,q,x, zh,ch,sh,r,z,c,s,ng

需要說明一下的是:元音i(知)為zh、ch、sh發(fā)音的尾部部分;i(資)為z、c、s發(fā)音的尾部部分。在構(gòu)成漢語拼音的時候,元音i(知)僅在zhi,chi,shi當(dāng)中出現(xiàn),它的作用只是為了延長原有發(fā)音的尾音。也就是說,i(知)的發(fā)音, zh,ch,sh的發(fā)音當(dāng)中已經(jīng)包含了。所以,在分析基本因素時,只需做好zh,ch,sh的發(fā)音,稍微將其尾部延長便可得到zhi,chi,shi的發(fā)音。同理,元音i(資)只使用在漢語拼音zi,ci,si中,而其也包含于輔音z ,s的發(fā)音中。另外,因為er的發(fā)音可由e和r的發(fā)音相拼而成,所以它可不作為一個獨(dú)立音素。根據(jù)上述分析,漢語元音音素的數(shù)目可由10個減為7個。

二、元音音素的可變性分析

1.研究音素變化的重要性。音節(jié)是普通話語音體系當(dāng)中最基本的結(jié)構(gòu)單位,而音節(jié)又是由音素按照一定的方式組成的,所以普通話里面最小的語音結(jié)構(gòu)單位就是音素??梢赃@樣說,發(fā)音器官所產(chǎn)生的每次細(xì)微的變化,均可以發(fā)出不同的音素。因而,分析和探究這些音素在音節(jié)當(dāng)中產(chǎn)生的相互間的變化和影響,對于準(zhǔn)確把握普通話的音節(jié)或字音,起著非常重要的作用。

2.音素可變性分析。學(xué)習(xí)普通話時,準(zhǔn)確地發(fā)出單元音韻母是學(xué)習(xí)的基礎(chǔ),但是,這種韻母的發(fā)音特點(diǎn)是口形始終保持不變,舌位也不移動,但單元音韻母(元音音素)的變化,就是它們一旦進(jìn)入復(fù)韻母和鼻韻母,或是和聲母拼合時,所產(chǎn)生的細(xì)微變化會被忽視。對于北方人而言,這種可變性在自然語言環(huán)境當(dāng)中耳濡目染就能學(xué)會;但對南方人而言,這種變化是一大難點(diǎn),所以,準(zhǔn)確把握元音音素在音節(jié)中的可變性,對于語音識別非常重要。

3.以原音i為例的分析。元音i是一個前元音兼高元音,當(dāng)i與e組合成ie音節(jié)時,i和e彼此影響的結(jié)果就是舌位會往兩者之間的中部稍有移動,因而元音i的實(shí)際舌位就已從高降到了次高;而當(dāng)i與a組成ia時,因a是一個央元音兼低元音,與i之間的差異較大,融合時的影響也就更大,導(dǎo)致i的舌位從高降到了半高;當(dāng)i與ou組成iou音節(jié)時,因o、u均為后元音,且o為半高元音,故i與ou后,其舌位不僅由前往后稍移,并且從高變成了次高并呈半高的趨向,因為只有這樣才能與半高元音o順暢地進(jìn)行銜接,于是iou音節(jié)既有由前往后的舌位趨向,又表現(xiàn)出高(i)――半高(o)――高(u)的發(fā)音曲線;當(dāng)i與n結(jié)合成in時,因為舌尖中音n的舌位也靠前偏高,二者的發(fā)音趨向一致,此時只要i的舌尖再往前伸,抵住上齒齦,n的韻尾就形成了,因此鼻輔音n幾乎不會影響到元音i;當(dāng)i與ng組合時,因為鼻輔音ng的舌位靠后并偏低,會對i元音造成一定的影響,在發(fā)音時,i元音的舌位會形成由高往低、由前往后的趨向,因此前元音兼高元音i在發(fā)音之初就已變?yōu)榇吻霸艏娲胃咴袅?;i與ong的組合中, o和ng舌位都靠后,并且o是半高元音,ng舌位偏低,受兩者的共同影響,i的舌位明顯后縮,并且表現(xiàn)出由高往低的趨向,這使其變成了次前元音兼次高元音。

三、對y、w的音素性質(zhì)分析

y、w是兩個較為特殊的因素,兼具元音和輔音的一些特點(diǎn),下面將它們單獨(dú)提出來進(jìn)行因素性質(zhì)的分析。

1.從發(fā)音部位與方法上進(jìn)行分析。從語音的發(fā)聲部位和方法來看,發(fā)元音時,氣流經(jīng)聲門帶動聲帶的振動,通過咽喉、口腔、鼻腔時,沒有阻礙;輔音發(fā)聲時,呼出的氣流定會在經(jīng)過某個發(fā)聲器官時受阻礙。發(fā)元音的時候,除了聲帶,其余發(fā)音器官均保持緊張,而發(fā)輔音時,只有形成阻礙的器官才緊張。例如:輔音[k]在發(fā)音時,舌根和軟腭會緊張。并且,發(fā)元音時呼出的氣流沒有發(fā)輔音時急促。由此可見,y、w的發(fā)音既接近元音,但又具有輔音的發(fā)聲特點(diǎn)。這里將y[j]、w[w]兩個音素看做輔音,因為“發(fā)聲時氣流有阻礙”是輔音的重要特征,就算它們發(fā)音部位接近元音,但滿足了這一條件,就該被看做是輔音。

2.從聲帶振動特點(diǎn)上進(jìn)行分析。語音是由聲帶振動引起空氣振動產(chǎn)生音波而形成的,可看做是一種物理現(xiàn)象,所以語音又有樂音和噪音之分。從y、w的發(fā)聲來看,它們發(fā)音時只是引起聲帶稍微的振動,發(fā)出的聲音不如元音清晰,從這個角度看,我們可以把它們看做是樂音性的噪音。但在元音的分類中,元音被看做是非常純粹的樂音,所以,y、w也只能被看做輔音了。

3.從音節(jié)結(jié)構(gòu)上進(jìn)行分析。在原來的漢語拼音方案當(dāng)中,[w]、[j]被認(rèn)為是韻頭,是[u]、[j]的改寫,所以將其看做元音,但這樣分類顯然混淆了概念。因為從音節(jié)結(jié)構(gòu)上來看,非常明顯[wA]與[jA]是音節(jié),而[uA]、[iA]是韻母,如果進(jìn)行改換,是非常不合理的。再從音位的角度來看,[jA]當(dāng)中的[j]和[iA]當(dāng)中的[i],[wA]當(dāng)中的[w]和[uA]當(dāng)中的[u]是不同的音位,因為[j]和[A]、[w]和[A]可以組成以[j]、[w]做為聲母的音節(jié),它們與[i]與[a]、[u]與[a]組成的音節(jié)是不同的,只是作為音節(jié)的一個部分――韻母。這樣來看, [j]、[w]被看做是具有區(qū)別意義功能的語音單位,即音位是合理的,此時,y、w就該被歸到輔音當(dāng)中去。

從以上情況的分析來看,y、w應(yīng)該被看做是輔音而作為聲母來使用。

四、結(jié)語

漢語普通話當(dāng)中易混淆的音素很多,要想讓語音識別更精準(zhǔn),就要對普通話的音素進(jìn)行分析和研究,并充分了解音素的可變性,并進(jìn)行正確的分類,只有在此基礎(chǔ)之上,才能提出更先進(jìn)的識別技術(shù)。語

參考文獻(xiàn)

[1]王紅雨,廖逢釵,盧昌荊等.一種基于語音識別的普通話語音失誤判別方法[J].三明學(xué)院學(xué)報,2007(4):452-455.

[2]徐秉錚,邱偉.漢語普通話聲母的分類與識別[C].第五屆全國語音圖象通訊信號處理學(xué)術(shù)會議論文集.

[3]黃中偉,楊磊,徐明等.普通話語音識別中的基本音素分析[J].深圳大學(xué)學(xué)報(理工版),2006(4):356-357.

第5篇

關(guān)鍵詞:語音識別; 音頻數(shù)據(jù);典型的語音識別系統(tǒng); 特征參數(shù)

中圖分類號:TP391.42文獻(xiàn)標(biāo)識碼:A

文章編號:1004-373X(2010)08-0138-03

Research on Speech Recognition Technology

LI Hong-mei, WU Xiao-qin

(Hainan University, Haikou 570228, China)

Abstract:The speech recognition is a technology which transfers the audio datainto the text or other information form convenient to be disposed bycomputer.The history and situation of development of the speech recognition technology is introduced. The principle of a typical speech recognition system is elaborated.The difficulties existing during the development of the speech recognition technologyare discussed and the solutions are given. The method and process of the speech recognition are analysed.

Keywords:speech recognition; audio data; typical speech recognition system; characteristic parameter

0 引 言

語言是人類獲取信息的主要來源之一,是人類與外界交流信息最方便、最有效、最自然的工具,隨著計算機(jī)技術(shù)的快速發(fā)展,語音技術(shù)的研究也越來越受到重視。人類對語音的研究主要包括語音編碼、語音合成、語音識別和說話人辨識等幾個方面。

語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支,設(shè)計到語言學(xué)、生理學(xué)、心理學(xué)、計算機(jī)科學(xué)以及信號處理等學(xué)科。語音識別的目的是為了使機(jī)器能夠準(zhǔn)確地聽出人的語音及其內(nèi)容,以便控制其他設(shè)備來滿足人類的各種需要,它是發(fā)展人機(jī)有聲通信和新一代智能計算機(jī)的重要組成部分。

1 概 述

語音識別[1-2]研究工作可以追溯到20世紀(jì)50年代AT&T貝爾實(shí)驗室的Audry系統(tǒng),它是第一個可以識別英文數(shù)字的語音識別系統(tǒng)。但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個重要的課題開展研究則是在20世紀(jì)60年代末70年代初。這是因為計算機(jī)的發(fā)展為語音識別的實(shí)現(xiàn)提供了硬件和軟件的可能,更重要的是語言信號線性預(yù)測編碼(LPC)技術(shù)和動態(tài)時間規(guī)整(DTW)技術(shù)的提出,有效地解決了語言信號的特征和不等長匹配問題。

實(shí)驗室語音識別研究的巨大突破產(chǎn)生于20世紀(jì)80代末。人們終于在實(shí)驗室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,第一次把這三個特征都集成在一個系統(tǒng)中,比較典型的是卡耐基美隆大學(xué)的Sphinx系統(tǒng)。

20世紀(jì)90年代前期,許多著名的大公司如IBM、蘋果、AT&T和NTT都對語音識別系統(tǒng)的實(shí)用化研究投以巨資。我國的語音識別研究的起步比先進(jìn)國家晚一點(diǎn),但是進(jìn)步很快,成果突出。

2 語音識別系統(tǒng)原理

語音識別系統(tǒng)大體上可以劃分為:孤立語音和連續(xù)語音識別系統(tǒng)、大詞匯量和小詞匯量語音識別系統(tǒng)、特定人和非特定人語音識別系統(tǒng)。

不同的語音識別系統(tǒng),盡管設(shè)計和實(shí)現(xiàn)細(xì)節(jié)不同,但所采用的基本技術(shù)是相似的。一個典型的語音識別系統(tǒng)基本原理框圖如圖1所示。

圖1 典型的語音識別系統(tǒng)基本原理框圖

從圖1可看出,語音識別系統(tǒng)包括預(yù)處理、特征提取、模型的訓(xùn)練和匹配、后處理等幾個部分。下面分別介紹這幾個部分。

2.1 預(yù)處理

預(yù)處理對輸入的原始語音信號進(jìn)行處理,濾除其中不必要的信息及噪聲等,并進(jìn)行語音信號的端點(diǎn)檢測,即判定語音有效范圍的開始和結(jié)束位置,并進(jìn)行語音分幀和預(yù)加重處理等工作[3]。

2.2 特征參數(shù)提取技術(shù)

特征提取負(fù)責(zé)計算語音聲學(xué)參數(shù),提取出反映信號特征的關(guān)鍵特征參數(shù)。特征參數(shù)的提取是關(guān)系到語音識別系統(tǒng)性能好壞的一個關(guān)鍵技術(shù),合理地選擇特征參數(shù)不僅對系統(tǒng)的識別率有很大的提高,同時對系統(tǒng)的實(shí)時性能也至關(guān)重要[4]。

特征提取的目的是對原始語音信號進(jìn)行處理,計算語音信號對應(yīng)的特征參數(shù),主要包括以下幾個步驟:

(1) 采樣與量化。

首先將模擬語音信號s(t)以采樣周期T采樣,將其離散化為S(n)。采樣周期的選取應(yīng)根據(jù)模擬語音信號的帶寬(根據(jù)奈奎斯特采樣定理確定),以避免信號的頻域混疊失真。對離散后的語音信號進(jìn)行量化處理過程中會帶來一定的量化噪聲和失真。

(2) 預(yù)加重處理。

對輸入的原始語音信號進(jìn)行預(yù)加重,其目的是為了對語音的高頻部分進(jìn)行加重,增加語音的高頻分辨率。一般通過一個傳遞函數(shù)為H(z)=1-αz-1的濾波器對其加以濾波。其中:α為預(yù)加重系數(shù)且0.9

Иy(n)=x(n)-αx(n-1), 0.9

(3) 分幀與加窗。

語音具有短時平穩(wěn)的特點(diǎn),通過對語音進(jìn)行分幀操作后,可以提取其短時特性,從而便于模型的建立。然后將每幀信號用某種窗相乘,以減少幀起始和結(jié)束處的信號不連續(xù)性。常用的加窗函數(shù)有漢明窗和漢寧窗。

(4) 特征參數(shù)計算。

實(shí)踐證明有效的特征參數(shù)有線性預(yù)測編碼(LPC)系數(shù),線性預(yù)測編碼倒譜(LPCC)系數(shù)和Mel頻率倒譜系數(shù)(MFCC)。

第6篇

關(guān)鍵詞:語音識別 應(yīng)用領(lǐng)域 熱點(diǎn) 難點(diǎn)

中圖分類號:TN912 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-3973 (2010) 03-062-02

1應(yīng)用領(lǐng)域

如今,一些語音識別的應(yīng)用已經(jīng)應(yīng)用到實(shí)際生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系統(tǒng)等。語音識別的應(yīng)用領(lǐng)域非常廣泛,幾乎涉及到日常生活的方方面面。如語音撥號系統(tǒng)、、家庭服務(wù)、訂票系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)、銀行服務(wù)、聽寫機(jī)、計算機(jī)控制、工業(yè)控制、語音通信系統(tǒng)等。預(yù)計在不遠(yuǎn)的將來,語音識別技術(shù)將在工業(yè)、家電、通信、、醫(yī)療、家庭服務(wù)等各個領(lǐng)域深刻改變?nèi)祟惉F(xiàn)有的日常生活方式。語音識別聽寫機(jī)在一些領(lǐng)域的應(yīng)用被美國新聞界評為1997年計算機(jī)發(fā)展十件大事之一。很多專家都認(rèn)為語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。

2發(fā)展歷史

語音識別的研究工作開始于50年代,Bell實(shí)驗室實(shí)現(xiàn)了第一個可識別十個英文數(shù)字的語音識別系統(tǒng)―Audry系統(tǒng)。但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個重要的課題開展研究則是在60年代末70年代初。60年代,提出了動態(tài)規(guī)劃(DP)和線性預(yù)測分析技術(shù)(LP),其中后者較好地解決了語音信號產(chǎn)生模型的問題,極大地促進(jìn)了語音識別的發(fā)展。70年代,動態(tài)時間歸正技術(shù)(DTW)解決了語音特征不等長匹配問題,對特定人孤立詞語音識別十分有效,在語音識別領(lǐng)域取得了突破。在此期間還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。

80年代語音識別研究進(jìn)一步深入,HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識別中成功應(yīng)用。1988年,FULEE Kai等用VQ/I-IMM方法實(shí)現(xiàn)了997個詞匯的非特定人連續(xù)語音識別系統(tǒng)SPHINX。這是世界上第1個高性能的非特定人、大詞匯量、連續(xù)語音識別系統(tǒng)。人們終于在實(shí)驗室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,并以此確定了統(tǒng)計方法和模型在語音識別和語言處理中的主流地位。使得借助人工智能中的啟發(fā)式搜索和語音模型自身的特點(diǎn),高效、快捷的算法使得建立實(shí)時的連續(xù)語音識別系統(tǒng)成為可能。

90年代,人們開始進(jìn)一步研究語音識別與自然語言處理的結(jié)合,逐步發(fā)展到基于自然口語識別和理解的人機(jī)對話系統(tǒng)。人工神經(jīng)元網(wǎng)絡(luò)(ANN)也開始應(yīng)用于語音識別,它和HMM模型建立的語音識別系統(tǒng)性能相當(dāng),在很多系統(tǒng)中還被結(jié)合在一起使用以提高識別率及系統(tǒng)的魯棒性。小波分析也開始用于特征提取,但目前性能不理想,其研究還在進(jìn)一步深入中。

現(xiàn)在語音識別系統(tǒng)已經(jīng)開始從實(shí)驗室走向?qū)嵱?出現(xiàn)了比較成熟的已推向市場的產(chǎn)品。許多發(fā)達(dá)國家如美國、日本、韓國以及IBM、Apple、Microsoft、AT&T等著名公司都為語音識別系統(tǒng)的實(shí)用化開發(fā)研究投以巨資。

3研究的熱點(diǎn)與難點(diǎn)

目前語音識別領(lǐng)域的研究熱點(diǎn)包括:穩(wěn)健語音識別(識別的魯棒性)、語音輸入設(shè)備研究 、聲學(xué)HMM模型的細(xì)化、說話人自適應(yīng)技術(shù)、大詞匯量關(guān)鍵詞識別、高效的識別(搜索)算法研究 、可信度評測算法研究、ANN的應(yīng)用、語言模型及深層次的自然語言理解。

目前研究的難點(diǎn)主要表現(xiàn)在:(1)語音識別系統(tǒng)的適應(yīng)性差。主要體現(xiàn)在對環(huán)境依賴性強(qiáng)。(2)高噪聲環(huán)境下語音識別進(jìn)展困難,因為此時人的發(fā)音變化很大,像聲音變高,語速變慢,音調(diào)及共振峰變化等等,必須尋找新的信號分析處理方法。(3)如何把語言學(xué)、生理學(xué)、心理學(xué)方面知識量化、建模并有效用于語音識別,目前也是一個難點(diǎn)。(4)由于我們對人類的聽覺理解、知識積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等方面的認(rèn)識還很不清楚,這必將阻礙語音識別的進(jìn)一步發(fā)展。

4語音識別系統(tǒng)

一個典型的語音識別系統(tǒng)如圖所示:

輸入的語言信號首先要進(jìn)行反混疊濾波、采樣、A/D轉(zhuǎn)換等過程進(jìn)行數(shù)字化,之后要進(jìn)行預(yù)處理,包括預(yù)加重、加窗和分幀、端點(diǎn)檢測等。我們稱之為對語音信號進(jìn)行預(yù)處理。

語音信號的特征參數(shù)主要有:短時能量En,反映語音振幅或能量隨著時間緩慢變化的規(guī)律;短時平均過零率Zn,對于離散信號來講,簡單的說就是樣本改變符號的次數(shù),可以粗略分辨清音和濁音;短時自相關(guān)函數(shù);經(jīng)過FFT或LPC運(yùn)算得到的功率譜,再經(jīng)過對數(shù)運(yùn)算和傅里葉反變換以后得到的倒譜參數(shù);根據(jù)人耳聽覺特性變換的美爾(MEL);線性預(yù)測系數(shù)等。通常識別參數(shù)可選擇上面的某一種或幾種的組合。

語音識別是語音識別系統(tǒng)最核心的部分。包括語音的聲學(xué)模型(訓(xùn)練學(xué)習(xí))與模式匹配(識別算法)以及相應(yīng)的語言模型與語言處理2大部分。聲學(xué)模型用于參數(shù)匹配,通常在模型訓(xùn)練階段按照一定的準(zhǔn)則,由用語音特征參數(shù)表征的大量已知模式中通過學(xué)習(xí)算法來獲取代表該模式本質(zhì)特征的模型參數(shù)而產(chǎn)生。在識別(模式匹配)時將輸入的語音特征同聲學(xué)模型(模式)根據(jù)一定準(zhǔn)則進(jìn)行匹配與比較,使未知模式與模型庫中的某一個模型獲得最佳匹配以得到最佳的識別結(jié)果。語言模型一般指在匹配搜索時用于字詞和路徑約束的語言規(guī)則,它包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計方法構(gòu)成的語言模型,語言處理則可以進(jìn)行語法、語義分析。

聲學(xué)模型是語音識別系統(tǒng)中最關(guān)鍵的一部分。目前最常用也最有效的幾種聲學(xué)識別模型包括動態(tài)時間歸整模型(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)模型(ANN)等。

DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它把整個單詞作為識別單元,在訓(xùn)練階段將詞匯表中每個詞的特征矢量序列作為模板存入模板庫,在識別階段將待識別語音的特征矢量序列依次與庫中的每個模板進(jìn)行相似度比較,將相似度最高者作為識別結(jié)果輸出。DTW應(yīng)用動態(tài)規(guī)劃方法成功解決了語音信號特征參數(shù)序列比較時時長不等的難題,在小詞匯量、孤立詞語音識別中獲得了良好性能。但因其不適合連續(xù)語音大詞匯量語音識別系統(tǒng),目前已逐漸被HMM和ANN模型替代。

HMM模型是語音信號時變特征的有參表示法。它由相互關(guān)聯(lián)的兩個隨機(jī)過程共同描述信號的統(tǒng)計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態(tài)的Markor鏈,另一個是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過程(可觀測的)。HMM很好的模擬了人得語言過程,目前應(yīng)用十分廣泛。HMM模型的模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)(狀態(tài)數(shù)目N、狀態(tài)之間的轉(zhuǎn)移方向等)、每個狀態(tài)可以觀察到的符號數(shù)M(符號集合O)、狀態(tài)轉(zhuǎn)移概率A及描述觀察符號統(tǒng)計特性的一組隨機(jī)函數(shù),包括觀察符號的概率分布B和初始狀態(tài)概率分布 ,因此一個HMM模型可以由{N,M,A,B, }來確定,對詞匯表中的每一個詞都要建立相應(yīng)的HMM模型。

模型參數(shù)得到后可以用Viterbi算法來確定與觀察序列對應(yīng)的最佳的狀態(tài)序列。建好模型后,在識別階段就是要計算每個模型產(chǎn)生觀察符號序列的輸出概率,輸出概率最大的模型所表示的詞就是我們的識別結(jié)果。這個過程計算量很大,有人提出了前向-后向算法,大大減少了計算量,已經(jīng)被廣泛采用,關(guān)于它們的各種改進(jìn)方法也被大量提出。

ANN在語音識別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng),是由結(jié)點(diǎn)互連組成的計算網(wǎng)絡(luò),模擬了人類大腦神經(jīng)元活動的基本原理,具有自學(xué)習(xí)能力、記憶、聯(lián)想、推理、概括能力和快速并行實(shí)現(xiàn)的特點(diǎn),同時還具備自組織、自適應(yīng)的功能。這些能力是HMM模型不具備的,可用于處理一些環(huán)境信息十分復(fù)雜,背景知識不清楚,推理規(guī)則不明確的問題,允許樣品有較大的缺損、畸變,因此對于噪聲環(huán)境下非特定人的語音識別問題來說是一種很好的解決方案。目前大部分應(yīng)用神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)都采用了BP網(wǎng)并取得了較好的識別效果。

將ANN與HMM結(jié)合分別利用各自優(yōu)點(diǎn)進(jìn)行識別將是今后的一條研究途徑。二者結(jié)合的混合語音識別方法的研究開始于上世紀(jì)90年代,目前已有一些方法將ANN輔助HMM進(jìn)行計算和學(xué)習(xí)概率參數(shù)。

語言模型主要分為規(guī)則模型和統(tǒng)計模型兩種。統(tǒng)計語言模型是用概率統(tǒng)計的方法來揭示語言單位內(nèi)在的統(tǒng)計規(guī)律,其中N-Gram簡單有效,被廣泛使用。N-Gram模型基于這樣一種假設(shè):第n個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料庫中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

5總結(jié)

盡管語音識別技術(shù)已經(jīng)取得了長足的進(jìn)步,而語音識別系統(tǒng)也層出不窮,不斷的改變?nèi)祟惉F(xiàn)有的生活方式,但其比較成功的應(yīng)用也只是在某些特定的領(lǐng)域,談不上大規(guī)模廣泛的應(yīng)用。只有建立從聲學(xué)、語音學(xué)到語言學(xué)的知識為基礎(chǔ)、以信息論、模式識別數(shù)理統(tǒng)計和人工智能為主要實(shí)現(xiàn)手段的語音處理機(jī)制,把整個語音識別過程從系統(tǒng)工程的高度進(jìn)行分析構(gòu)建,才有可能獲得能與人類相比的高性能的、完整的計算機(jī)語音識別系統(tǒng)。

參考文獻(xiàn):

[1]易克初,田斌.付強(qiáng).語音信號處理[M].國防工業(yè)出版社,2000.

[2]胡航.語音信號處理[M].哈爾濱工業(yè)大學(xué)出版社,2000.

[3]趙力.語音信號處理[M].機(jī)械工業(yè)出版社,2003.

第7篇

關(guān)鍵詞:語音識別;HMM;俄語聲學(xué)模型;俄語語言模型

中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)29-0155-04

Research Status and Development Trend of Russian Speech Recognition Technology

MA Yan-zhou

(PLA University of Foreign Languages, Luoyang 471003, China)

Abstract: Abstract: Technological advance of speech recognition facilitates intelligent human-computer interactions. And applications of speech recognition technology have made human communications easier and more instantaneous. Starting with a look at the past and the present of Russian speech recognition, this paper attempts to conduct a detailed analysis on fundamental principles of speech recognition, speech recognition technology based on Hammond theoretical groundwork for consecutive vast-vocabulary speech recognition. The paper also demonstrates steps for establishing models in Russian acoustics and speeches. As to technological barriers in speech recognition, it probes into possible way out strategies. Finally, it predicts future development direction and application prospects for Russian speech recognition technology.

Key words: speech recognition; hmm;russian acoustic models; russian language models

俄語(Русскийязык)[1]是俄羅斯和聯(lián)合國的官方語言,也是我國少數(shù)民族正式語言。在前蘇聯(lián)和俄羅斯使用,俄語在蘇聯(lián)時期具有很重要的地位,直到現(xiàn)在仍然有些獨(dú)聯(lián)體國家在廣泛使用,雖然這些國家已經(jīng)開始強(qiáng)調(diào)本地語言的重要性,但在這些國家之間依然使用俄語進(jìn)行交流。全球有超過一億四千萬把俄語作為母語使用,有近四千五百萬人以第二語言使用,使用俄語媒體的有3億多人。我國俄羅斯族使用俄語進(jìn)行交流,聚集地分布在新疆地區(qū)的阿勒泰、伊犁、塔城及內(nèi)蒙古呼倫貝爾市的額爾古納、滿洲里等地,

語音識別(Speech Recognition)[2]是指在各種情況下,識別出語音的內(nèi)容,讓機(jī)器聽懂人說的話,根據(jù)其信息而執(zhí)行人的不同意圖。它是一門交叉學(xué)科,涉及與計算機(jī)、語音語言學(xué)、通信、信號處理、數(shù)理統(tǒng)計、神經(jīng)心理學(xué)人工智能、和神經(jīng)生理學(xué)等學(xué)科。能夠能滿足不同需要的語音識別系統(tǒng)的實(shí)現(xiàn)已經(jīng)成為可能,它的前提是模式識別、信號處理技術(shù)、計算機(jī)技術(shù)和聲學(xué)技術(shù)等的發(fā)展。近年來,軍事、交通等領(lǐng)域,尤其在計算機(jī)、人工智能等領(lǐng)域得到廣泛應(yīng)用。

俄語語音識別是一個有巨大潛力的研究方向,不僅能夠為人們的生產(chǎn)生活、日常交往提供極大的便捷性和高效性,而且在政治、軍事、經(jīng)濟(jì)等各個領(lǐng)域都有著重要的研究價值和應(yīng)用前景。本文著重介紹語音識別發(fā)展歷程、闡述俄語語音識別關(guān)鍵技術(shù)、分析俄語語音識別未來的發(fā)展趨勢。

1 俄語語音識別的現(xiàn)狀

俄語連續(xù)語音識別取得快速發(fā)展,利益于技術(shù)的進(jìn)步。隨著語音識別在技術(shù)層面的不斷突破與創(chuàng)新,對英語的識別慢慢成熟,然后逐漸擴(kuò)展到其他語種如漢語、俄語等。

1.1語音識別技術(shù)的發(fā)展

20世紀(jì)50年代,語音識別的研究開始借助機(jī)器來實(shí)現(xiàn)。1952年,一個特定人獨(dú)立數(shù)字識別系統(tǒng)[3]由貝爾(Bell)實(shí)驗室的Davis、Diddulph和Balashelk首次研制,該系統(tǒng)成功識別10個英語數(shù)字。1959年,英格蘭的Fry和Denes利用譜分析技術(shù)和模板匹配技術(shù),提高了音素的識別精度,建立了一個能夠識別9個輔音和4個元音的識別系統(tǒng)。20世紀(jì)60年代,經(jīng)過Faut和Stevens的努力,語音生成理論初步形成。動態(tài)規(guī)劃方法[4]由蘇聯(lián)的Vintsyuk提出,并實(shí)現(xiàn)了對兩段語音進(jìn)行對齊。70年代取得一系列重大突破,基本實(shí)現(xiàn)孤立詞識別。俄羅斯推進(jìn)了模板匹配思想在語音識別中的應(yīng)用;利用動態(tài)規(guī)劃方法實(shí)現(xiàn)語音識別也由日本的科學(xué)家實(shí)驗成功。20世紀(jì)80年代,語音識別研究的一個主要特點(diǎn)是由模板匹配方法向統(tǒng)計建模方法的轉(zhuǎn)變,特別是隱馬爾可夫模型[5-6]。盡管HMM眾所周知,但是直到20世紀(jì)80年代中期HMM模型才廣泛被世界各地的語音識別實(shí)驗室熟悉和采納。另一個新方向是利用神經(jīng)網(wǎng)絡(luò)解決語音識別問題,促進(jìn)了該技術(shù)在語音識別領(lǐng)域的應(yīng)用[7-9]。20世紀(jì)80年代后期,在DAPRA的支持下,對大詞匯連續(xù)語音識別系統(tǒng)的研制也取得了顯著的成果,研究機(jī)構(gòu)主要有CMU、BBN、林肯實(shí)驗室、MIT、AT&T貝爾實(shí)驗室。

20世紀(jì)90年代以來,語音識別開始實(shí)用化研究,并取得了突破性的進(jìn)展。其中算法的研究取得了非常明顯的效果,并提升了系統(tǒng)的性能,如最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR),最大后驗概率準(zhǔn)則估計(MaximumA-Posteriori Estimation, MAP),以及用于模型參數(shù)綁定的決策樹狀態(tài)聚類等算法,這些算法的不斷優(yōu)化,也使得應(yīng)用于實(shí)際的語音識別不斷出現(xiàn)。最具有有代表性的系統(tǒng)有:Dragon System公司的NaturallySpeaking,Nuance公司的Nuance Voice Platform語音平臺,IBM公司推出的ViaVoice, Sun的VoiceTone,Microsoft的Whisper,等。在美國國家標(biāo)準(zhǔn)和技術(shù)研究所(Nationa lInstitute of standardsand Technology,NIST) 和DARPA的不斷推動下,各個研究機(jī)構(gòu)不斷嘗試語音識別任務(wù),目的是不斷提高識別的性能。進(jìn)入21世紀(jì),在向廣度和深度兩方面,自動語音識別得到了更為廣泛的研究。魯棒性語音識別,進(jìn)行了了細(xì)致的調(diào)研,特別是在置信度和句子確認(rèn)方面非常有效,尤其對處理病句。在21世紀(jì)的前10年,信息技術(shù)領(lǐng)域最重要的十大科技發(fā)展技術(shù)之一就有語音識別技術(shù)的一席之地,人機(jī)接口關(guān)鍵的語音識別技術(shù),已經(jīng)成為一個具有競爭性的新興高技術(shù)產(chǎn)業(yè),它的實(shí)用化研究將成為未來的方向。

1.2俄語語音識別技術(shù)的發(fā)展

語音技術(shù)的研究主要集中在幾個主要的語言,如英語,法語,西班牙語,漢語和西班牙語,一些其他語言尤其是東歐語言很少受到注意。但是近幾年在俄羅斯,捷克,波蘭,塞爾維亞,克羅地亞等俄語區(qū)對俄語語音技術(shù)的研究活動正在穩(wěn)步上升。

俄羅斯科學(xué)院緊跟世界語音識別技術(shù)的發(fā)展,結(jié)合俄語自身的獨(dú)有發(fā)音特點(diǎn)進(jìn)行了卓有成效的研究并取得了一系列的成果。在開發(fā)聲學(xué),詞匯和語言模型時采取特別重視俄語的細(xì)節(jié),對于聲學(xué)模型,采用知識和基于統(tǒng)計的方法來創(chuàng)建幾個不同的音素集10。對于語言模型(LM),從不同網(wǎng)站自動收集新聞文本語料,用統(tǒng)計分析的方法將訓(xùn)練文本數(shù)據(jù)和語法相結(jié)合,計算不同情況下n-gram中單詞的頻率,優(yōu)化n-gram模型,以建立更好的n-gram模型[11]。在基本語音識別單元的問題上采用距離最小信息不匹配的原則,建立語素級單元,顯著減少誤差概率[12]。

語料庫是語音識別最基本的支撐,文本語料和口語語料都是一個語料庫不可或缺的組成部分,任缺其一則語料庫就不能反映該語言的完整信息,也沒有辦法在此基礎(chǔ)上進(jìn)行大詞匯、非特定人連續(xù)俄語語音識別的研究[13]。俄羅斯對語料庫的研究起步比較晚,在20世紀(jì)一直落后于世界語料庫的發(fā)展,缺乏系統(tǒng)的理論研究和先進(jìn)的實(shí)踐成果。但近十年來,隨著俄羅斯國家語料庫建立和不斷完善,俄語語音技術(shù)的研究正在慢慢興起并取得了一些矚目的成就。

國內(nèi)對俄語語音的研究主要集中在教學(xué)方面。使用統(tǒng)計的方法,基于HMM對俄語語音進(jìn)行建模和識別研究,目前還沒有發(fā)現(xiàn)相關(guān)的文獻(xiàn)記錄。

2 語音識別技術(shù)

語音識別系統(tǒng)根據(jù)角度、范圍、性能等差別,有以下的分類。

根據(jù)詞匯量的大小分可為小詞匯量(10至100)、中詞匯量(100至500)和大詞匯量(大于500)。根據(jù)發(fā)音方式可分為孤立詞(isolated word)識別、連接詞(connected word)識別、連續(xù)語音(continuous word)識別等。根據(jù)說話人特征可分為特定(speaker-dependent)說話人和非特定(speaker-independent)說話人。根據(jù)語音識別的方法不同進(jìn)行了模板匹配、隨機(jī)模型和概率語法分析等分類方法。

2.1 語音識別基本原理

通過計算機(jī)的輔助功能把輸入的語音信號變換為對應(yīng)的文本和命令,并且能夠接受人類的語音、理解人類的意圖,是語音識別技術(shù)研究的根本目的。語音識別系統(tǒng)核心是一套語音取樣、識別、匹配的模式匹配系統(tǒng)[2],基本原理如圖1所示。

語音識別系統(tǒng)由三個基本單元組成,它包含特征提取、模式匹配和參考模式庫,雖然它是模式識別系統(tǒng),但它的結(jié)構(gòu)要比普通的模式識別系統(tǒng)要復(fù)雜,因為語音所包含的信息是復(fù)雜多樣的語言信息,結(jié)構(gòu)也是多變的。首先對輸入的語音信號進(jìn)行預(yù)處理,預(yù)處理包括適當(dāng)放大信號功率并對增益進(jìn)行有效控制,之后進(jìn)行反混疊濾波以消除信號的干擾;然后將模擬信號轉(zhuǎn)化為數(shù)字信號即數(shù)字化處理,便于存儲和處理;然后進(jìn)行特征提取,并使用一些參數(shù)來表示的語音信號的特性;最后對其進(jìn)行識別。語音識別又分為兩階段:訓(xùn)練和識別。在訓(xùn)練階段,利用特征參數(shù)表示語音信號的相應(yīng)特征,得到標(biāo)準(zhǔn)數(shù)據(jù)即模板,將模板構(gòu)建成一個數(shù)據(jù)庫即模板庫;在識別階段,將語音特征與模板庫中的每一個模板進(jìn)行比較,找到了最相似的參考模板,這就是識別的結(jié)果。

2.2 HMM模型技術(shù)

語音識別早期采用的有矢量量化(Vector quantization, VQ)技術(shù)、動態(tài)時間規(guī)整(dynamic time warping, DTW)技術(shù)等,從處理難度上看,最簡單的是小詞匯量、特定人、孤立詞的語音識別,最難解決的是大詞匯量、非特定人、連續(xù)語音識別。當(dāng)今語音識別系統(tǒng)采用的主流算法是HMM模型技術(shù)。

HMM模型的狀態(tài)不能被直接觀察到,但可以通過觀測向量序列來觀察到,這些向量都是通過某些特定的概率密度分布來表現(xiàn)為各種狀態(tài)的,每個觀測向量都是由一個狀態(tài)序列產(chǎn)生的,這些狀態(tài)序列具有相應(yīng)的概率密度分布。HMM是一個雙重隨機(jī)過程:具有一定狀態(tài)數(shù)量的隱馬爾可夫鏈和顯示隨機(jī)函數(shù)集。HMM的基本問題及解決算法6-9

1)評估問題(前向算法)。

現(xiàn)有觀測序列O=O1O2O3…Ot以及模型參數(shù)λ=(π,A,B),如何計算觀測序列的概率,進(jìn)一步可對該HMM做出相關(guān)評估。利用forward算法分別以每個HMM產(chǎn)生給定觀測序列O的概率進(jìn)行計算,然后從其中選出最優(yōu)秀的HMM模型。

經(jīng)典應(yīng)用例子就是語音識別。在HMM的語音識別描述中,每個單詞對應(yīng)一個HMM,每個觀測序列全部由一個單詞的語音來構(gòu)成,單詞的識別可以通過評估而選出最可能的HMM,此HMM由產(chǎn)生觀測序列所代表的讀音實(shí)現(xiàn)。

2)解碼問題(Viterbi算法)

現(xiàn)有觀測序列O=O1O2O3…Ot以及模型參數(shù)λ=(π,A,B),如何尋找最優(yōu)的隱含狀態(tài)序列。此類問題比較關(guān)注馬爾科夫模型中的隱含狀態(tài),在這些狀態(tài)中雖然不能直接觀測,但價值更大,可以利用Viterbi算法來解決。

實(shí)際例子是進(jìn)行分詞,分詞問題可以用HMM來解決。這句話的分割方法可以看做是一個隱式的狀態(tài),而這句話可以被視為一個給定的條件,從而找出基于HMM的可能正確的分割方法。

3)訓(xùn)練問題(Baum-Welch算法即前向后向算法)

此時HMM的模型參數(shù)λ=(π,A,B)未知,對這些參數(shù)進(jìn)行調(diào)整,使得觀測序列O=O1O2O3…Ot的概率最大,使用Reversed Viterbi算法以及Baum-Welch算法可以解決。

2.3 大詞匯量連續(xù)語言識別

在語音識別研究中難度和挑戰(zhàn)性最大為課題應(yīng)該是基于大詞匯量的、非特定人的連續(xù)語音識別[13]。在詞匯量大于1000詞的時候,比較容易混淆的詞數(shù)量增加,誤識率約為基于小詞匯量的、特定人的孤立詞識別系統(tǒng)的50倍左右。而且還帶來兩個重要的、不易解決的問題:語流的切分和連續(xù)語音的發(fā)音變化。此時采用統(tǒng)一框架可以有效解決這個問題。大詞匯量連續(xù)語音識別總體框架[14]如圖2所示。

俄語語音信號分析后,形成特征向量,并通過字典識別模型,然后,根據(jù)語言模型的語法,將輸入的語音與模板匹配,在句子層面進(jìn)行組合。從俄語聲學(xué)模型、俄語語言模型敘述大詞匯量連續(xù)語音識別的過程。

2.3.1聲學(xué)模型

設(shè)計俄語語音識別系統(tǒng)底層相應(yīng)的HMM子詞單元模型,需要充分考慮俄語聲學(xué)和語音學(xué)的特征。俄語基本聲學(xué)單元的選擇是聲學(xué)建模過程中一個基本而重要的問題。在俄語連續(xù)語音識別中,可供選擇的基本單元包括詞、音節(jié)、元輔音等。識別基本單元的選擇一般基于語音學(xué)知識。

俄語字母是語音的書面形式,每個俄語字母都有自己的字母名稱。元音字母的名稱和讀音相同,輔音字母的名稱是在該輔音后加一個元音[15-16]。如字母с的名稱為эс,字母б的名稱為бэ等。字母名稱通常用于讀某些縮寫詞。俄語字母共有33個字母如表1所示。

根據(jù)俄語詞的發(fā)音特征、音節(jié)的發(fā)音特征和字母的發(fā)音特征,選擇音素作為子詞單元,然后就可以進(jìn)行HMM訓(xùn)練,首先用一種很粗糙的方法進(jìn)行初始分段,然后向前向后算法或K-均值算法用于多次迭代,自動收斂到一個最佳的模型,并實(shí)現(xiàn)了一個合理的子詞分割。這樣就可以初步完成俄語的聲學(xué)建模,建設(shè)一個俄語語音參考模式庫。

2.3.2 統(tǒng)計語言模型

自然語言處理問題必然要乃至統(tǒng)計語言模型[17],如語音識別、機(jī)器翻譯、分詞、詞性標(biāo)注等等。統(tǒng)計語言模型是計算概率的模型,即。使用語言模型,可以確定一個單詞序列的概率,或給定一個單詞的數(shù)目,它可以預(yù)測下一個最有可能的單詞。

那么如何計算一個句子的概率呢?給定句子(詞語序列),它的概率可以表示為:

由于上式中的參數(shù)過多,因此需要近似的計算方法。下面介紹適用于俄語的n-gram統(tǒng)計語言模型。

n-gram模型即n-1階馬爾科夫模型,首先假設(shè):當(dāng)前詞的出現(xiàn)概率僅僅與前面n-1個詞相關(guān)。因此(1)式可以近似為:

當(dāng)n值為1、2、3時,n-gram模型分別稱為unigram、bigram和trigram語言模型。n-gram模型的參數(shù)就是條件概率。N取值越大,模型越準(zhǔn)確但計算越復(fù)雜計算量越大。在俄語語言模型的建立過程中,采用最多是二元模型和三元模型。

2.3.3 連續(xù)語音識別系統(tǒng)的性能評測

評定連續(xù)語音識別系統(tǒng)的優(yōu)劣,觀測系統(tǒng)的性能,一般都是針對不同的識別任務(wù),不同的任務(wù)單詞庫和任務(wù)語句庫,需要不同的評價標(biāo)準(zhǔn)。如果要想粗略地評估某個系統(tǒng),可以從兩個方面去考慮,一是系統(tǒng)識別任務(wù)的難易程度即復(fù)雜性;另一個是采用該系統(tǒng)的識別系統(tǒng)的識別方法對該難度的識別任務(wù)的識別效果即識別率。在連續(xù)語音識別系統(tǒng)中,通過對音素、音節(jié)或詞的識別率進(jìn)行識別性能評價,常用的系統(tǒng)參數(shù)是正確率(正確率),錯誤率和識別準(zhǔn)確率。

其中的正確數(shù)、轉(zhuǎn)換數(shù)、插入數(shù)和脫落數(shù),采用主觀的方法來目測,馬可以通過統(tǒng)計的方法來得到。

2.4 HTK工具

語音識別過程涉及的算法復(fù)雜,其中最為著名的HTK由劍橋大學(xué)研發(fā),主要用來建立基于HMM的大規(guī)模連續(xù)語音識別系統(tǒng)。該軟件集為開放源代碼,可以在UNIX/Linux和Windows環(huán)境下運(yùn)行。HTK提供了一系列命令函數(shù)用于語音識別,包括一系列的運(yùn)行庫和工具,使用基于ASNIC模塊化設(shè)計,可以實(shí)現(xiàn)語音錄制、分析、標(biāo)示、HMM的訓(xùn)練、測試和結(jié)果分析。整個HTK的工作過程包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練和識別過程。

3 語音識別的應(yīng)用

隨著計算機(jī)技術(shù)的進(jìn)步、算法的不斷優(yōu)化、信息處理技術(shù)的智能化,俄語語音識別技術(shù)的發(fā)展會越來越光明。應(yīng)用的范圍也會越來越廣,可能會出現(xiàn)一些新的應(yīng)用。

1)俄語語音信息檢索

網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的迅速發(fā)展,數(shù)據(jù)量急劇增多,如何在海量數(shù)據(jù)中挑選出有用的信息,并進(jìn)行相應(yīng)的分類和檢索,對合理地利用信息資源具有重要的意義。多媒體檢索技術(shù)應(yīng)運(yùn)而生。

2)俄語發(fā)音自學(xué)技術(shù)

非母語語言學(xué)習(xí)成為目前教育領(lǐng)域的一個熱點(diǎn),而自學(xué)是語言學(xué)習(xí)的一個有效途徑,它具有不受時間和空間限制、靈活方便的特點(diǎn),一種稱為計算機(jī)輔助語言學(xué)習(xí)的技術(shù)誕生了。有幾個普通問題和關(guān)鍵技術(shù)是必須要考慮和解決的:標(biāo)準(zhǔn)發(fā)音語料庫和非標(biāo)準(zhǔn)發(fā)音語料庫、學(xué)習(xí)者發(fā)音的分級標(biāo)準(zhǔn)、語音對齊、衡量發(fā)音質(zhì)量的評判標(biāo)準(zhǔn)和發(fā)音矯正。

3)基于俄語語音情感處理

人與人的交流,除了語言信息外,非語言信息也起著非常重要的作用,包含在語音信號中的情感因素[18],也反映了信息的一個方面。情感的分析和識別也是一個非常困難的研究方向。

4)嵌入式俄語語音識別技術(shù)

后PC時代智能終端的飛速發(fā)展,為人機(jī)之間的自然、快捷交互提供了可能。當(dāng)前嵌入式語音識別的應(yīng)用領(lǐng)域還比較有限,未來應(yīng)用可能會更加廣泛。

4 總結(jié)

語音識別技術(shù)的實(shí)用研究是一項極具挑戰(zhàn)性的工作,雖然經(jīng)歷了近半個世紀(jì)的發(fā)展,取得了一些突破性的進(jìn)展。語音識別技術(shù)在俄語方面的應(yīng)用更是如此,不僅要解決語音識別技術(shù)本身的問題,還要解決高質(zhì)量的俄語語音語料庫和文本語料庫的問題,同時還要解決各種算法與俄語適應(yīng)和匹配等其他問題,如俄語自然語言的識別與理解、俄語語音信息的變化范圍與幅度、俄語語音的清晰度、俄語語音發(fā)音與環(huán)境噪聲及上下文的影響等等。雖然面臨諸多困難,但是隨著人類文明的不斷發(fā)展與科技的不斷進(jìn)步,相信這些問題會在不久的將來逐一得到解決,展現(xiàn)在人們面前的是更加流暢、更加智能的人機(jī)交互界面。

參考文獻(xiàn)

[1] 趙力.語音信號處理 [M].北京:機(jī)械工業(yè)出版社,2011:191-215.

[2] 韓紀(jì)慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學(xué)出版社,2013:241-255.

[3] Karpov,K. Markov,I. Kipyatkova, et al.Large Vocabulary Russian Speech Recognition Using Syntactico-statistical Language Modeling[J].Speech Communication,2014,56(1):213-228.

[4] Alex Waibel,ToshiyukiHanazawa,Geoffrey Hinton, et al.Phoneme Recognition Using Time-delay Neural Networks[J].Acoustics, Speech and Signal Processing, IEEE Transactions on,1989,37(3):328-339.

[5] KH Davis,RBiddulph,SBalashek.Automatic Recognition of Spoken Digits[J].The Journal of the Acoustical Society of America,1952,24(6):637-642.

[6] Lawrence Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition [J].Proceedings of the IEEE, 1989, 77(2):257-286.

[7] Leonard E Baum,JAEagon.An Inequality with Applications to Statistical Estimation for Probabilistic Functions of Markov Processes and to a Model for Ecology[J].Bull. Amer. Math. Soc, 1967, 73(3):360-363.

[8] Leonard E Baum,TedPetrie,GeorgeSoules, et al.A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains[J].The Annals of Mathematical Statistics,1970(1):164-171.

[9] Leonard E Baum.An Equality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes [J].Inequalities, 1972, 3(1):1-8.

[10] ВВ Пилипенко.Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных[J].Искусственный интеллект,2006(3):548-557.

[11] ВВ Савченко,ДЮ Акатьев,НВ Карпов.Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра[J].Изв. вузов России. Радиоэлектр оника,2007(4):35-42.

[12] ВВ Савченко.Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в метрике Кульбака-Лейблера[J].Известия ВУЗов России.CРадиоэлектроника,2011(3):9-19.

[13] ВВ Савченко.Фонема как элемент информационной тео рии восприятия речи[J].Известия ВУЗов России.CРадиоэ лектроника,2008(4):3-11.

[14] ВЛ Розалиев.Построение модели эмоций по речи человека[J].Г л а в н ы й р е д а к т о р с б о р н и к а" Известия ВолгГТУ" д-р хим. наук проф. член-корр. РАН ИА Новаков, 2007(1):65.

[15] ВЯ Чучупал,КА Маковкин,АВ Чичагов.К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи[J].Искусственный интеллект,2002,4(1):575-579.

[16] ДН Бабин,ИЛ Мазуренко,АБ Холоденко.О перспектив ах создания системы автоматического распознавания сли тной устной русской речи[J].Интеллектуальные системы,2004,8(1):45-70.

第8篇

關(guān)鍵詞:語音識別;神經(jīng)網(wǎng)絡(luò);遺傳算法;遺傳神經(jīng)網(wǎng)絡(luò)

中圖分類號:TP183文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2008)22-774-03

Research of Speech Recognition Based on Genetic Neural Network

ZHAO Feng

(Computer School of Wuhan University,Wuhan 430081,China)

Abstract:This Paper mainly studies the application of the BP neural network in the research of speech recognition. BP neural network can get higher identification precision, but its training speed is very low. a new recognizing algorithm based on BP algorithm by combining with the good effect method in ANN which named genetic algorithm(GA) was proposed and used to improve the BP neural network . Experiment results show that the training speed can be accelerated by the method and the recognition performance is also promoted.

Key words: speech recognition; neural network; genetic algorithm; genetic neural network

1 引言

語音識別SR(Speech Recognition)是指讓機(jī)器聽懂人說的話,即在各種情況下,準(zhǔn)確地識別出語音的內(nèi)容,從而根據(jù)其信息,執(zhí)行人的各種意圖[1]?,F(xiàn)代語音識別技術(shù)以神經(jīng)網(wǎng)絡(luò)為主要發(fā)展趨勢,進(jìn)入20世紀(jì)90年代以來,神經(jīng)網(wǎng)絡(luò)已經(jīng)成為語音識別的一條重要途徑。由于神經(jīng)網(wǎng)絡(luò)反映了人腦功能的基本特征,故具有自組織性、自適應(yīng)性和連續(xù)學(xué)習(xí)能力等特點(diǎn),特別適合于解決像語音識別這類模擬人的認(rèn)知過程和智能處理能力,難以用算法來描述而又有大量樣本可供學(xué)習(xí)的問題[2]。

人工神經(jīng)網(wǎng)絡(luò)(ANN)是采用大量的簡單處理單元廣泛連接起來構(gòu)成的一種復(fù)雜信息處理網(wǎng)絡(luò)。網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)是應(yīng)用一系列輸入矢量,通過已確定的算法逐步調(diào)整網(wǎng)絡(luò)的權(quán)值,最終達(dá)到期望的目標(biāo)。BP神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中前向神經(jīng)網(wǎng)絡(luò)的核心部分,BP算法的學(xué)習(xí)過程由信號的正向傳播和誤差的反向傳播組成。隨著誤差逆?zhèn)鞑バ拚牟粩噙M(jìn)行,網(wǎng)絡(luò)對輸入模式響應(yīng)的正確率不斷上升。然而BP算法是一種梯度下降算法,梯度下降存在多極值問題,且BP網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練速度慢,容易陷入局部最小或振蕩。因此,參數(shù)的選擇非常重要。為克服標(biāo)準(zhǔn)BP算法存在的各種缺點(diǎn),本文研究用BP算法結(jié)合人工智能領(lǐng)域較為有效的方法――遺傳(GA)算法來訓(xùn)練網(wǎng)絡(luò)進(jìn)行語音識別,仿真實(shí)驗表明,GABP算法使BP網(wǎng)絡(luò)在收斂速度上有了很大提高,尤其是克服了容易陷入局部最小值的缺點(diǎn),基于GABP的語音識別系統(tǒng)的最高識別率和平均識別率都有了很大的提高。

2 語音識別的基本原理

大部分基于神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)實(shí)現(xiàn)識別功能都要經(jīng)過從特征參數(shù)提取到應(yīng)用識別算法進(jìn)行識別的過程,該過程如下圖1所示:

圖1 語音識別系統(tǒng)原理框圖

該文主要面向孤立數(shù)字識別系統(tǒng)作一些改進(jìn)研究,其基本識別過程也符合上圖1描述:輸入的語音信號首先進(jìn)行預(yù)處理,包括抗混疊濾波、聲音的預(yù)加重、加窗分癥處理與端點(diǎn)檢測等。預(yù)加重的目的是在于濾出低頻干擾,尤其是50Hz或60Hz的工頻干擾,將對于語音識別更為有用的高頻部分的頻譜進(jìn)行提升,以便于語音參數(shù)分析。

預(yù)加重濾波器傳遞函數(shù)為: H(Z)=1-0.9375Z-1(1)

若S(n)為預(yù)加重前語音信號,則經(jīng)過預(yù)加重濾波器后得到的信號■(n)為:

■(n)= S(n)-0.9375 S(n-1)(2)

該文主要完成孤立數(shù)字識別,所要求識別的字?jǐn)?shù)不多,對環(huán)境的噪聲的適應(yīng)能力的要求也并不高,因此采用了目前比較流行的雙門限端點(diǎn)檢測算法,借助于語音信號短時平均能量和短時過零率來判定語音有效范圍的開始和結(jié)束。

語音信號經(jīng)過預(yù)處理后,接下來很重要的一環(huán)就是進(jìn)行特征提取,常用的特征包括短時平均能量和幅度、短時平均過零率、線性預(yù)測系數(shù)(LPC)、短時傅里葉變換和Mel頻率倒譜系數(shù)(MFCC)。語音特征參數(shù)的時間序列構(gòu)成了語音的模式,將其與通過應(yīng)用一系列已知信號訓(xùn)練提取的參考模式逐一進(jìn)行比較,獲得最佳匹配的參考模式便是識別結(jié)果。本文中對于預(yù)處理的每個有效語音信號段,都要提取其12個一階MFCC系數(shù),提取過程為:用漢明窗將語音切割成長短一致的語音幀,對每幀語音進(jìn)行正反傅里葉變換,經(jīng)對數(shù)和離散余弦變換后取前12個數(shù)作為MFCC系數(shù)來描述每一個幀。最后將每個語音信號對應(yīng)的MFCC系數(shù)序列用K-means聚類算法進(jìn)行聚類,分為4個聚類,使得每個語音信號都得到相應(yīng)的12個4維一階MFCC系數(shù),即可作為語音的特征參數(shù)成為神經(jīng)網(wǎng)絡(luò)的輸入信號。

3 語音識別中的BP網(wǎng)絡(luò)構(gòu)造

語音識別中的BP網(wǎng)絡(luò)構(gòu)造主要包括輸入層、隱層、輸出層、初始權(quán)值、學(xué)習(xí)速率與期望誤差的選取幾個方面的問題。

1) 網(wǎng)絡(luò)層數(shù):理論上,在不限制隱層節(jié)點(diǎn)數(shù)的情況下,兩層(只有一個隱層)的BP網(wǎng)絡(luò)可以實(shí)現(xiàn)任意非線性映射。當(dāng)模式樣本很多時,減小網(wǎng)絡(luò)規(guī)模,增加一個隱層是必要的,但BP網(wǎng)絡(luò)隱層數(shù)一般不超過兩層。本文所要求識別的模式樣本不多,因此一個隱層已經(jīng)足夠。

2) 輸入層節(jié)點(diǎn)數(shù):在BP網(wǎng)絡(luò)語音識別系統(tǒng)中,輸入層節(jié)點(diǎn)數(shù)與選取的語音信號特征參數(shù)的維度和階數(shù)有關(guān)。本文中每個語音信號都得到相應(yīng)的12個4維一階MFCC系數(shù),故輸入層的節(jié)點(diǎn)數(shù)為12×4=48。

3) 輸出層節(jié)點(diǎn)數(shù):輸出層的節(jié)點(diǎn)數(shù)取決于輸出數(shù)據(jù)的類型和表示該類型所需的數(shù)據(jù)大小。當(dāng)BP網(wǎng)絡(luò)用于語音識別時,以二進(jìn)制形式來表示不同的識別結(jié)果,則輸出層的節(jié)點(diǎn)數(shù)可根據(jù)訓(xùn)練模板的語音數(shù)來確定。本文設(shè)定輸出節(jié)點(diǎn)數(shù)為10,分別對應(yīng)于0~9這10個數(shù)字。

4) 隱層節(jié)點(diǎn)數(shù):通過采用一個隱層,增加其神經(jīng)元數(shù)的方法來達(dá)到網(wǎng)絡(luò)訓(xùn)練精度的提高,這在結(jié)構(gòu)上,要比增加更多的隱層簡單的多。但究竟選取多少個隱層節(jié)點(diǎn)才合適?在理論上并沒有個明確的規(guī)定。在具體設(shè)計時,比較實(shí)際的做法是通過對不同神經(jīng)元數(shù)進(jìn)行訓(xùn)練對比,然后適當(dāng)?shù)募由弦稽c(diǎn)余量[4]。一般可利用下面式子決定:

n1=■+a(3)

其中n1為隱層節(jié)數(shù);m為輸入節(jié)點(diǎn)數(shù);n為輸出節(jié)點(diǎn)數(shù);a為取1~10的常數(shù)。本實(shí)驗中輸入節(jié)點(diǎn)數(shù)為48,輸出節(jié)點(diǎn)數(shù)為10,a選取為常數(shù)4,因此隱層節(jié)點(diǎn)數(shù)n1=12。

5) 初始權(quán)值:由于系統(tǒng)是非線性的,初始值對于學(xué)習(xí)是否達(dá)到局部最小、是否能收斂以及訓(xùn)練時間的長短關(guān)系很大。一般總是希望經(jīng)過初始加權(quán)后的每個神經(jīng)元的輸出值都接近于零。所以,一般取初始值在(-1,1)之間的隨機(jī)數(shù)。

6) 學(xué)習(xí)速率與期望誤差的選?。簩W(xué)習(xí)速率決定每一次循環(huán)訓(xùn)練中所產(chǎn)生的權(quán)值變化量。小的學(xué)習(xí)速率雖然會導(dǎo)致收斂速度慢,不過能保證網(wǎng)絡(luò)的誤差值不跳出誤差表面的低谷而最終趨于最小值。所以,一般情況下,學(xué)習(xí)速率的選取范圍在0.01~0.8之間。期望誤差0.000001。

解決了上述幾個方面的問題后,本文采用三層結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò),如圖2所示:輸入層各節(jié)點(diǎn)將輸入信號經(jīng)權(quán)重藕合到隱層的每個節(jié)點(diǎn),隱層各節(jié)點(diǎn)對來自前一層的信號加權(quán),經(jīng)激發(fā)函數(shù)轉(zhuǎn)換后再藕合到輸出層。

4 基于遺傳神經(jīng)網(wǎng)絡(luò)的語音識別

本文研究引用遺傳算法對網(wǎng)絡(luò)的初始連接權(quán)值進(jìn)行優(yōu)化處理,用BP算法完成給定精度的學(xué)習(xí)。

4.1 個體編碼方案

編碼對于網(wǎng)絡(luò)進(jìn)化過程的性能和效率影響很大,因此,編碼技術(shù)是連接權(quán)值進(jìn)化過程中學(xué)解決的首要問題和關(guān)鍵步驟。本文中考慮到BP網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)和結(jié)構(gòu)已經(jīng)固定,可以采用實(shí)數(shù)編碼方案,將網(wǎng)絡(luò)的權(quán)值和各節(jié)點(diǎn)的閥值依此排列得到一個向量。

假設(shè)一個具有m個節(jié)點(diǎn)的n層BP網(wǎng)絡(luò),如果第i個節(jié)點(diǎn)對應(yīng)的權(quán)值分別為vi(vi[-1,+1]),則一個個體用實(shí)數(shù)向量表示為X=(v1,v2,…vm)。

4.2 適應(yīng)度函數(shù)的選擇

一個網(wǎng)絡(luò)連接權(quán)值優(yōu)劣的標(biāo)準(zhǔn),是根據(jù)網(wǎng)絡(luò)對一組輸入得到的實(shí)際輸出與期望輸出之間的誤差大小來制定的。BP網(wǎng)絡(luò)中誤差平分和小,則表示該網(wǎng)絡(luò)性能比較好。本文中適應(yīng)度函數(shù)為:

f(x)=■(4)

其中,E為神經(jīng)網(wǎng)絡(luò)的輸出誤差,即:

■(5)

其中n為學(xué)習(xí)樣本總數(shù),yk,■k為第k個個體的期望輸出和實(shí)際輸出向量。

4.3 進(jìn)化參數(shù)

連接權(quán)的進(jìn)化過程中所涉及到的主要進(jìn)化參數(shù)有:種群規(guī)模、交叉率、變異率和進(jìn)化代數(shù)等等。交叉是最主要的進(jìn)化操作,交叉率是指各代中交叉產(chǎn)生的后代數(shù)與種群規(guī)模之比。常用的交叉率取值范圍為0.6~1.0。變異率是指種群中變異的基因數(shù)占總基因數(shù)的比例,其值控制了新基因引入的比例。常用變異率的數(shù)量級范圍為0.1~0.001。 種群規(guī)模是連接權(quán)進(jìn)化過程首先需要確定的參數(shù),是算法會否陷入局部解的主要影響因素。綜合考慮BP網(wǎng)絡(luò)的初始連接權(quán)值和交叉率、變異率的選擇,這里選擇種群規(guī)模為50。

5 仿真實(shí)驗結(jié)果

仿真實(shí)驗為針對非特定人的孤立數(shù)字詞語音識別。語音數(shù)據(jù)由二男二女(0到9共10個數(shù)字的普通話發(fā)音)通過PC話筒輸入,每個音每人發(fā)20遍,共計1000次發(fā)音,其中以每人每個音的前10次作訓(xùn)練樣本,后10次作測試樣本,錄音環(huán)境為安靜實(shí)驗室,采樣頻率為11.025kHz。

經(jīng)過反復(fù)實(shí)驗,不斷改善實(shí)驗環(huán)境,基于演化神經(jīng)網(wǎng)絡(luò)的識別得到了相對較高的識別率。對實(shí)驗結(jié)果分析可知,結(jié)合了GA算法的BP網(wǎng)絡(luò)通過GA全局搜索得到一個權(quán)值最優(yōu)解,只迭代了151次便使得誤差值為0.000001 ,而普通BP算法要迭代517才能勉強(qiáng)達(dá)到期望誤差,由此可知,結(jié)合了GA算法的BP網(wǎng)絡(luò)避免了局部極小,減低了學(xué)習(xí)速率,提高了收斂速度。

表1 基于遺傳神經(jīng)網(wǎng)絡(luò)與普通BP網(wǎng)絡(luò)語音識別系統(tǒng)對比表

通過表1對比可知,基于演化神經(jīng)網(wǎng)絡(luò)識別算法的語音識別系統(tǒng)無論是在訓(xùn)練時的收斂速度還是在最后的識別率上,都要優(yōu)于普通的BP網(wǎng)絡(luò)語音識別系統(tǒng)。

6 結(jié)論

語音信號處理和神經(jīng)網(wǎng)絡(luò)均是目前研究的熱點(diǎn),文章主要針對語音識別的特點(diǎn),結(jié)合人工智能領(lǐng)域兩種比較有效的方法――BP網(wǎng)絡(luò)和GA算法,構(gòu)建了一種基于遺傳神經(jīng)網(wǎng)絡(luò)的語音識別算法。仿真實(shí)驗結(jié)果表明,該算法避免了傳統(tǒng)BP算法容易陷入局部極小的缺點(diǎn),減低了訓(xùn)練時間,有效的提高了系統(tǒng)識別率。

參考文獻(xiàn):

[1] 趙力.語音信號處理[M].北京:機(jī)械工業(yè)出版社,2003.

[2] 蔡蓮紅,黃德智,蔡銳.現(xiàn)代語音技術(shù)基礎(chǔ)于應(yīng)用[M].北京:清華大學(xué)出版社,2003.

[3] 易克初.語音信號處理[M].北京:國防工業(yè)出版社,2000.

[4] 孫寧,孫勁光,孫宇.基于神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)研究[J].計算機(jī)與數(shù)字工程,2005,34(3):58-61.

[5] 何英.Matlab擴(kuò)展編程[M].北京:清華大學(xué)出版社,2002.

第9篇

摘要:介紹了一種基于HTK的語音撥號系統(tǒng)設(shè)計方案。方案中以HMM實(shí)驗工具包HTK3.3為工具,通過對撥號語音提取39維MFCC特征參數(shù),采用基于模板匹配的訓(xùn)練方法,完成了撥號語音識別系統(tǒng)的構(gòu)建,并對該系統(tǒng)進(jìn)行了性能分析。

關(guān)鍵詞:語音撥號;模式識別;隱馬爾科夫模型;隱馬爾科夫工具箱;Mel頻率倒譜系數(shù)

中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2009)28-7932-02

Design and Analysis of A Voice Dialing System Based on HTK

CHEN Xin-rui1, JIANG Zheng-feng2, LU Shi-peng1

(1.Electronic Engineering Institute of Guangxi Normal University, Guilin 541004, China; puter Science and Information Engineering Institute of Guangxi Normal University, Guilin 541004, China)

Abstract: Introduced a HTK-based voice dialing system design.Used HTK3.3 as a tool and used training method based on template matching,by extracted 39-dimensional MFCC feature parameters of the dial-up voice, has completed the digit dialing speech recognition system's construction, and has carried on the performance analysis to this system.

Key words: voice dialing; pattern recognition; HMM; HTK; MFCC

信息科技的快速發(fā)展,使得數(shù)字語音撥號系統(tǒng)的推廣應(yīng)用日益廣泛。語音撥號的實(shí)用化會在眾多場合給人們帶來便捷,如司機(jī)開車、黑夜或盲人撥打電話時,用手指撥電話號碼是很不方便或不安全的,而最自然的方式就是采用語音撥號,因此具有語音識別能力,能夠進(jìn)行聲音撥號的系統(tǒng),有著較好的市場前景,對于高性能低成本的數(shù)字語音識別系統(tǒng)的研究具有很強(qiáng)的應(yīng)用價值。HTK(HMM tools kit)是劍橋大學(xué)開發(fā)的一個專門用于建立和處理HMM的實(shí)驗工具包,主要應(yīng)用于語音識別領(lǐng)域,也可以應(yīng)用于語音合成、字符識別和DNA排序等領(lǐng)域,它有著源代碼開放以及基于ANSI C的模塊化設(shè)計等特點(diǎn),可以方便地嵌入到用戶系統(tǒng)中。

1 基于HTK的語音撥號系統(tǒng)的構(gòu)建

隱馬爾可夫模型(Hidden Markov Model)即HMM是現(xiàn)今語音識別的主流技術(shù),目前大多數(shù)的語音識別系統(tǒng)都是基于它的。要把HMM應(yīng)用于實(shí)際,必須解決的三個基本關(guān)鍵問題是[1]:1)輸出概率的計算問題:給定觀察序列O=O1,O2,…,OT和HMM模型λ=(π,A,B),如何計算觀察序列對HMM模型的輸出概率P(O|λ)。2)狀態(tài)序列解碼問題:給定觀察序列O=O1,O2,…,OT和HMM模型λ=(π,A,B),如何確定一個最優(yōu)的狀態(tài)轉(zhuǎn)移序列q=(q1,q2,…,qT)。3)模型參數(shù)的估計問題:如何調(diào)整λ=(π,A,B)的參數(shù),使P(O|λ)最大。針對上述問題,前人分別提出了三種解決方法即前向-后向算法、Viterbi算法、Baum-Welch算法。本文在把HMM應(yīng)用于語音識別時采用連續(xù)混合密度HMM模型,以摒棄離散HMM模型因矢量量化而造成的語音信號丟失的不足,并選擇了從左到右、有跳變的HMM結(jié)構(gòu)。連續(xù)HMM語音識別具體實(shí)施方案:1)端點(diǎn)檢測;2)提取MFCC參數(shù)和一階差分MFCC參數(shù);3)對數(shù)形式Viterbi算法;4)將訓(xùn)練所得的HMM模型用于對訓(xùn)練集和測試集的識別,得到識別結(jié)果并保存。其征參數(shù)的選擇與提取是語音識別的關(guān)鍵任務(wù)。Mel頻率倒譜系數(shù)(MFCC) 將人耳的聽覺感知特性和語音的產(chǎn)生機(jī)制相結(jié)合, 是將頻譜轉(zhuǎn)換為基于Mel頻標(biāo)的非線性頻譜,然后轉(zhuǎn)換到倒譜域上,因而被目前大多數(shù)語音識別系統(tǒng)所采用。Mel頻率倒譜系數(shù)(MFCC)的提取過程如圖1所示。圖中s(n)為原始語音信號,x(n)為分幀后的時域信號,預(yù)加重是將語音信號 s(n) 通過一個高通濾波器H(z)=1-a*z-1,文中取預(yù)加重系數(shù)a=0.9375,加漢明窗,用工具Hsigp可完成預(yù)加重和分幀。分幀時幀長和幀移的大小由信號的采樣頻率決定。X(k)為線性頻譜,s(m)為Mel能量譜取對數(shù),c(n)為Mel頻率倒譜系數(shù),c^(n)為所求的MFCC特征參數(shù)。

HTK工具箱中比較重要的兩個文件夾是HTKLib和HTKTools。HTKLib里面包含了語音信號處理所用到的資源文件,如內(nèi)存分配(HMem)、信號處理(HSigP)、參數(shù)產(chǎn)生(HParm)、數(shù)學(xué)計算((HMath)等,這些模塊構(gòu)成了HTK的主體結(jié)構(gòu);HTKTools作為入口程序,利用上述文件夾里面的庫文件,通過對源文件進(jìn)行調(diào)用,鏈接生成一些可以執(zhí)行的程序。根據(jù)HTK語音識別原理,搭建一個語音識別系統(tǒng)一般分為四步: 數(shù)據(jù)準(zhǔn)備,模型訓(xùn)練,模式識別和模型分析。其語音識別系統(tǒng)框圖如圖2所示。也可理解為包括語音信號預(yù)處理、特征提取、特征建模(建立參考模板庫)及模式匹配等幾個功能模塊,即訓(xùn)練和識別兩個階段。

漢語普通話是以字為單元的,從聲學(xué)角度看,漢語中一個字就對應(yīng)一個音節(jié)。音節(jié)結(jié)構(gòu)的顯著特點(diǎn)是聲、韻母結(jié)構(gòu),一般每一個音節(jié)都有韻母,因而音節(jié)劃分成聲韻母音素作為識別單元符合漢語特點(diǎn),也將推動漢語語音識別向大詞匯量連續(xù)語音識別的方向不斷發(fā)展。在本系統(tǒng)中分別采用了不同的識別單元,并建立了不同字典。對于語音撥號電話類的系統(tǒng),它要求能夠識別用戶的語音輸入,主要是人名和電話號碼的語音識別。

系統(tǒng)所用語音數(shù)據(jù)由CoolEdit2.1軟件錄制,數(shù)據(jù)采樣率為16000Hz,量化精度為16bit,是一個人的200個語音樣本,其中100樣本作為訓(xùn)練集,另外100樣本作為測試集,包含有14個不同的電話號碼以及6個人名,錄制環(huán)境為實(shí)驗室。系統(tǒng)用工具Hcopy對撥號語音提取39維的梅爾倒頻譜參MFCC包括12階的頻譜值加上能量值,并取其一階差分作為語音特征參數(shù),聲學(xué)模型狀態(tài)數(shù)目分別為:音節(jié)狀態(tài)數(shù)6個、聲母狀態(tài)數(shù)3個、韻母狀態(tài)數(shù)6個、靜音狀態(tài)數(shù)3個、間隔符狀態(tài)數(shù)1個。系統(tǒng)的概要構(gòu)建步驟是:在定義任務(wù)語法后通過HParse轉(zhuǎn)成HTK可用的底層表示。使用任務(wù)語法產(chǎn)生真值文本,再進(jìn)行字典定義,用工具HLEd通過一個轉(zhuǎn)換規(guī)則文件,將詞級的mlf文件轉(zhuǎn)換為音節(jié)級的mlf文件,用工具HCopy進(jìn)行特征提取,用工具HCompV計算訓(xùn)練數(shù)據(jù)的均值與方差,采用工具HERest對HMM模型進(jìn)行訓(xùn)練,再進(jìn)行重復(fù)估算,建立一個識別結(jié)果輸出的目錄,執(zhí)行HVite進(jìn)行Viterbi校準(zhǔn),將所有用到過的字,全部列表到wordlist文件中進(jìn)行識別得到最終識別結(jié)果。

2 語音撥號系統(tǒng)性能分析

在系統(tǒng)測試中,分別采用三種不同的語音識別單元進(jìn)行識別實(shí)驗,并且增加高斯分量個數(shù)以測試其對識別的影響情況,得到的實(shí)驗結(jié)果如表1所示。本文用到的識別率有三種,分別為句識別率(SRR)、詞識別率(WRR-WC)和考慮插入錯誤的詞識別率(WRR-WA)。

從表1中的識別結(jié)果可以得出這樣的結(jié)論:不含間隔的音節(jié)作為聲學(xué)模型識別效果是最好的,而有間隔的音節(jié)要比聲、韻母效果要好。[2]高斯混合分量個數(shù)的增加加大了語音擬合效果從而使對應(yīng)識別單元的識別率有所提高。因而對于漢語連續(xù)數(shù)字和連續(xù)詞結(jié)合的語音識別,可以選擇音節(jié)作為聲學(xué)模型,以提高系統(tǒng)的識別率。對于特定人的語音識別,當(dāng)訓(xùn)練語音集越大時,識別率就越高。該系統(tǒng)的識別包括兩部分語音的識別,電話號碼的識別和人名的識別,兩者的組合識別要比單獨(dú)識別的識別率低。由于待識別語音的漢字或者數(shù)字在排序上存在著相互重合的現(xiàn)象,因此有必要建立一個最優(yōu)的語音識別網(wǎng)絡(luò),從而提高系統(tǒng)的識別率。

參考文獻(xiàn):

[1] Rabiner L R,Fellow.IEEE A Tutorrial on Hidden Markov Models and Selected Applications in Speech Recognition[C].Proceedings of the IEEE,1989,77(2).

[2] 蔣正鋒.基于HTK的漢語連續(xù)數(shù)字語音識別研究[D].廣西師范大學(xué)碩士研究生學(xué)位論文,2008

[3] Flandrin P,Gabriel Rilling G,Goncalves P.Empirical mode decompositon as a filter bank[C].IEEE Signal Processing Letters 2004,11(2):112-114.

[4] Benjamin J S,Kuldip K P.Feature extraction form higher-lag autocorrelation Coefficients for robust speeeh recognition[J].Speech Communication,2006(48):1458-1485.

[5] 趙力.語音信號處理[M].北京:機(jī)械工業(yè)出版社,2003.

[6] 侯周國.基于HMM的漢語數(shù)字語音識別系統(tǒng)研究[D].湖南師范大學(xué)碩士研究生學(xué)位論文,2006.

[7] 胡航.語音信號處理[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2000:20-24

[8] 蔡蓮紅,黃德智,蔡銳,等.現(xiàn)代語音技術(shù)基礎(chǔ)與應(yīng)用[M].北京:清華大學(xué)出版社,2003.