[發(fā)明專利]一種碎片文本的處理方法、裝置及電子設(shè)備在審
| 申請?zhí)枺?/td> | 202010224736.2 | 申請日: | 2020-03-26 |
| 公開(公告)號: | CN111460096A | 公開(公告)日: | 2020-07-28 |
| 發(fā)明(設(shè)計)人: | 許晏銘 | 申請(專利權(quán))人: | 北京金山安全軟件有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F17/16;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京柏杉松知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11413 | 代理人: | 項京;馬敬 |
| 地址: | 100123 北京市朝*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 碎片 文本 處理 方法 裝置 電子設(shè)備 | ||
本發(fā)明實施例提供了一種碎片文本的處理方法、裝置及電子設(shè)備,包括:獲取待處理的待處理文本,并且確定待處理文本所屬的垂直場景類別,以及當(dāng)待處理文本的所屬的垂直場景類別為預(yù)設(shè)垂直場景類別時,將待處理文本輸入至與預(yù)設(shè)垂直場景類別對應(yīng)的關(guān)鍵詞兜底模塊,以得到對應(yīng)待處理文本的兜底語音,由于通過預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型可以確定碎片文本的垂直場景類別,進而可以將屬于預(yù)設(shè)垂直場景類別輸入至關(guān)鍵詞兜底模塊,使得輸入至關(guān)鍵詞兜底模塊的碎片文本均為屬于預(yù)設(shè)垂直場景類別的碎片文本,從而提高了關(guān)鍵詞兜底模塊反饋的正確率。
技術(shù)領(lǐng)域
本發(fā)明涉及文本處理技術(shù)領(lǐng)域,特別是涉及一種碎片文本的處理方法、裝置及電子設(shè)備。
背景技術(shù)
隨著技術(shù)的發(fā)展,語音識別技術(shù)被廣泛的應(yīng)用在不同的應(yīng)用領(lǐng)域,例如,利用語音識別技術(shù)開發(fā)的對話機器人,可以很好的完成商場、酒店、機場、醫(yī)院等場景中的引導(dǎo)服務(wù)。
如圖1所示,為一種常規(guī)的語音對話過程示意圖,圖中語音識別模塊采集用戶的語音,并將采集到的用戶語音通過語音識別技術(shù)轉(zhuǎn)換為文本段,作為語音文本段,進一步的,將該語音文本段輸入到自然語言理解模塊進行處理,生成對應(yīng)該語音文本段的反饋語音并輸出,完成語音對話過程。
在實際使用過程中,語音識別模塊采集到的用戶語音往往存在大量的環(huán)境噪音,使得語音識別模塊輸出的語音文本段中往往包含大量不規(guī)則的碎片文本。舉例而言,語音識別模塊輸出的語音文本段為“呷哺呷哺呀哈哈”、或“我呀阿的哈根達斯斯”等。將這些碎片文本輸入到自然語言理解模塊,由于其構(gòu)成文字的不規(guī)則性,使得自然語言理解模塊無法生成對應(yīng)的反饋語音,造成語音對話的召回率較低。
為了解決這一問題,業(yè)界在語音對話的過程中引入了關(guān)鍵詞兜底模塊,如圖2所示,關(guān)鍵詞兜底模塊根據(jù)輸入的碎片文本,輸出對應(yīng)該碎片文本的兜底語音,從而提高語音對話的召回率。
發(fā)明人在實現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),現(xiàn)有技術(shù)至少存在如下問題:
由于很多碎片文本都是無意義,將這些碎片文本輸入至關(guān)鍵詞兜底模塊后,可能導(dǎo)致關(guān)鍵詞兜底模塊反饋錯誤的兜底語音,使得關(guān)鍵詞兜底模塊反饋的正確率較低。
發(fā)明內(nèi)容
本發(fā)明實施例的目的在于提供一種碎片文本的處理方法,以提高關(guān)鍵詞兜底模塊反饋的正確率。具體技術(shù)方案如下:
本發(fā)明實施例提供一種碎片文本的處理方法,包括:
獲取待處理的碎片文本,作為待處理文本;
基于預(yù)設(shè)的詞嵌入模型,將所述待處理文本轉(zhuǎn)換為表征所述待處理文本的文本矩陣;
基于所述第一文本矩陣,生成所述待處理文本的文本特征數(shù)據(jù);
將所述文本特征數(shù)據(jù)輸入到預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,確定所述待處理文本所屬的垂直場景類別;其中,所述神經(jīng)網(wǎng)絡(luò)模型為基于樣本文本的樣本文本特征數(shù)據(jù)和所述樣本文本所屬的樣本垂直場景類別預(yù)先訓(xùn)練完成的;
當(dāng)所述待處理文本的所屬的垂直場景類別為預(yù)設(shè)垂直場景類別時,將所述待處理文本輸入至與所述預(yù)設(shè)垂直場景類別對應(yīng)的關(guān)鍵詞兜底模塊,以得到對應(yīng)所述待處理文本的兜底語音。
進一步的,在所述基于所述第一文本矩陣,生成所述待處理文本的文本特征數(shù)據(jù)之前,還包括:
確定所述待處理文本中屬于所述預(yù)設(shè)垂直場景類別的實體詞,作為目標(biāo)實體詞;
基于所述目標(biāo)實體詞在所述待處理文本中所處的位置,生成所述待處理文本的文本向量,其中,所述文本向量的維度與所述待處理文本所包含的文字數(shù)量相同,所述文本向量中與所述目標(biāo)實體詞在所述待處理文本中所處的位置相同位置處的數(shù)值為第一數(shù)值,不同的位置處的數(shù)值為第二數(shù)值;
所述基于所述第一文本矩陣,生成所述待處理文本的文本特征數(shù)據(jù),包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京金山安全軟件有限公司,未經(jīng)北京金山安全軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010224736.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





