中文摘要 |
在人與人的互動當中,語音是最自然且直接的表達方式之一。透過語音,人們可以彼此溝通,傳達想法、感受以及情緒。因此,我們期望能讓電腦具備與人溝通的能力,能為生活帶來便利性。要達到此目標,我們必須先對使用者輸入的語音訊號進行辨識;待轉換成文字後,再對文字所欲表達的語意作理解,進而做出最適當的動作來回應使用者。將語音訊號轉換成文字的過程,可以透過自動語音辨識(Automatic Speech Recognition, ASR)技術來完成。在自動語音辨識的過程中,我們必須先將語音訊號做特徵擷取(Feature Extraction),保留語音訊號中的聲學特性(Acoustic Characteristics),並轉換成能使電腦容易處理的聲學特徵向量(Acoustic Feature Vector);利用這些聲學特徵向量,我們可以為不同的音素(Phoneme)分別建立聲學模型(Acoustic Model),進而產生可能的候選詞序列(Candidate Word Sequences)。另一方面,我們也必須收集大量的文字訓練語料,用以統計自然語言中各種詞序列的出現情形,並藉此訓練語言模型(Language Model)。傳統語言模型是收集各種詞彙出現在自然語言中的詞頻數,經由最大化相似度估測(Maximum Likelihood Estimation, MLE)來建立語言模型。例如,N連(N-gram)語言模型是估測每一個詞在其前面緊鄰N-1個歷史詞序列已知情況下的條件機率;它可協助語音辨識器從所產生的候選詞序列中,選取機率最高(最可能)的詞序列做為最後的語音辨識結果。 |