語音助手能和人類進行深度交談的背后,離不開自然語言處理(NLP)和自然語言生成(NLG)這兩種基礎(chǔ)技術(shù)。機器學(xué)習(xí)的這兩個分支使得語音助手能夠?qū)⑷祟愓Z言轉(zhuǎn)換為計算機命令,反之亦然。
NLP指在計算機讀取語言時將文本轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的過程。簡而言之,NLP是計算機的閱讀語言。可以粗略地說,在NLP中,系統(tǒng)攝取人語,將其分解,分析,確定適當?shù)牟僮鳎⒁匀祟惱斫獾恼Z言進行響應(yīng)。NLP結(jié)合了計算機科學(xué)、人工智能和計算語言學(xué),涵蓋了以人類理解的方式解釋和生成人類語言的所有機制:語言過濾、情感分析、主題分類、位置檢測等。
自然語言處理由自然語言理解(NLU)和自然語言生成(NLG)構(gòu)成。NLG是計算機的“編寫語言”,它將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為文本,以人類語言表達。即能夠根據(jù)一些關(guān)鍵信息及其在機器內(nèi)部的表達形式,經(jīng)過一個規(guī)劃過程,來自動生成一段高質(zhì)量的自然語言文本。
對于“AI語音識別”,每一個“語音識別”都是APP,這個APP里面內(nèi)置著我們常用字的“標準發(fā)音字庫“,同時,為了讓軟件能否識別我們“不標準的發(fā)音”,軟件還需要AI編程語言對我們不標準的發(fā)音做評分,然后做比對,最后選擇評分最高的那一個“標準發(fā)音”作為我們“不標準發(fā)音”的字庫!
語音識別系統(tǒng)本質(zhì)上是一種模式識別系統(tǒng),包括特征提取、模式匹配、參考模式庫等三個基本單元,它的基本結(jié)構(gòu)如下圖所示:
語音識別系統(tǒng)構(gòu)建過程整體上包括兩大部分:訓(xùn)練和識別。訓(xùn)練通常是離線完成的,對預(yù)先收集好的海量語音、語言數(shù)據(jù)庫進行信號處理和知識挖掘,獲取語音識別系統(tǒng)所需要的“聲學(xué)模型”和“語言模型”;而識別過程通常是在線完成的,對用戶實時的語音進行自動識別。自動語音識別技術(shù)有三個基本原理:首先語音信號中的語言信息是按照短時幅度譜的時間變化模式來編碼;其次語音是可以閱讀的,即它的聲學(xué)信號可以在不考慮說話人試圖傳達的信息內(nèi)容的情況下用數(shù)十個具有區(qū)別性的、離散的符號來表示;第三語音交互是一個認知過程,因而不能與語言的語法、語義和語用結(jié)構(gòu)割裂開來。
第一步,把幀識別成狀態(tài)(難點)。
第二步,把狀態(tài)組合成音素。
第三步,把音素組合成單詞。
一般來說,一套完整的語音識別系統(tǒng)其工作過程分為7步:
①對語音信號進行分析和處理,除去冗余信息。
②提取影響語音識別的關(guān)鍵信息和表達語言含義的特征信息。
③緊扣特征信息,用最小單元識別字詞。
④按照不同語言的各自語法,依照先后次序識別字詞。
⑤把前后意思當作輔助識別條件,有利于分析和識別。
⑥按照語義分析,給關(guān)鍵信息劃分段落,取出所識別出的字詞并連接起來,同時根據(jù)語句意思調(diào)整句子構(gòu)成。
⑦結(jié)合語義,仔細分析上下文的相互聯(lián)系,對當前正在處理的語句進行適當修正。
1.語境理解提供個性化回應(yīng):目前而言,市場上的智能助理大多缺乏語境理解。
2.語音區(qū)分:語音助理或?qū)⑼ㄟ^區(qū)分語音,提供更多個性化體驗。
3.不僅是手機:Amazon Alexa副總裁Steve Rabuchin表示:“我們希望客戶可以隨時隨地訪問Alexa,這意味著客戶可以通過語音遙控他們的汽車、冰箱、恒溫器、燈具以及家中內(nèi)外的各種設(shè)備。“
4.搜索行為的變化:語音搜索一直是熱門話題。但語音的可見性將是巨大的挑戰(zhàn)。
5.語音通知:在移動應(yīng)用營銷方面,語音智能也提出了新的挑戰(zhàn)-用戶參與度和維護度。
6.信息安全問題:隨著語音支付越來越方便,更多用戶選擇語音支付。支持智能語音的智能家居設(shè)備等也涉及大量用戶隱私和用戶習(xí)慣,其安全性也成為用戶關(guān)注的焦點。
新聞熱點
疑難解答
圖片精選