[發明專利]一種碎片文本的處理方法、裝置及電子設備在審
| 申請號: | 202010224736.2 | 申請日: | 2020-03-26 |
| 公開(公告)號: | CN111460096A | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 許晏銘 | 申請(專利權)人: | 北京金山安全軟件有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F17/16;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 項京;馬敬 |
| 地址: | 100123 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 碎片 文本 處理 方法 裝置 電子設備 | ||
1.一種碎片文本的處理方法,其特征在于,包括:
獲取待處理的碎片文本,作為待處理文本;
基于預設的詞嵌入模型,將所述待處理文本轉換為表征所述待處理文本的第一文本矩陣;
基于所述第一文本矩陣,生成所述待處理文本的文本特征數據;
將所述文本特征數據輸入到預先訓練的神經網絡模型,確定所述待處理文本所屬的垂直場景類別;其中,所述神經網絡模型為基于樣本文本的樣本文本特征數據和所述樣本文本所屬的樣本垂直場景類別預先訓練完成的;
當所述待處理文本的所屬的垂直場景類別為預設垂直場景類別時,將所述待處理文本輸入至與所述預設垂直場景類別對應的關鍵詞兜底模塊,以得到對應所述待處理文本的兜底語音。
2.根據權利要求1所述的方法,其特征在于,在所述基于所述第一文本矩陣,生成所述待處理文本的文本特征數據之前,還包括:
確定所述待處理文本中屬于所述預設垂直場景類別的實體詞,作為目標實體詞;
基于所述目標實體詞在所述待處理文本中所處的位置,生成所述待處理文本的文本向量,其中,所述文本向量的維度與所述待處理文本所包含的文字數量相同,所述文本向量中與所述目標實體詞在所述待處理文本中所處的位置相同位置處的數值為第一數值,不同的位置處的數值為第二數值;
所述基于所述第一文本矩陣,生成所述待處理文本的文本特征數據,包括:
將所述第一文本矩陣與所述文本向量合并,得到第二文本矩陣,作為所述待處理文本的文本特征數據。
3.根據權利要求1或2所述的方法,其特征在于,所述待處理文本包含N個文字;
所述基于預設的詞嵌入模型,將所述理文本轉換為表征所述待處理文本的第一文本矩陣,包括:
針對所述待處理文本中每個文字,基于預設的詞嵌入模型,生成用于表征該文字的M維字向量;
按照所述待處理文本中各文字的在所述待處理文本中的位置,將生成的N個M維字向量合并為行數為N,列數為M的特征矩陣,作為所述待處理文本的第一文本矩陣。
4.根據權利要求1或2所述的方法,其特征在于,所述方法還包括:
當所述待處理文本的所屬的垂直場景類別與所述預設垂直場景類別不同時,確定所述待處理文本為無意義文本;
反饋與所述無意義文本相匹配的預設反饋語音。
5.根據權利要求1或2所述的方法,其特征在于,所述神經網絡模型的訓練步驟包括:
將所述樣本文本特征數據輸入至所述神經網絡模型,得到所述神經網絡模型預測的所述樣本文本的垂直場景類別,作為預測垂直場景類別;
基于所述預測垂直場景類別和樣本垂直場景類別,計算所述神經網絡模型的損失函數值;
根據所述損失函數值,判斷所述神經網絡模型是否收斂,當所述神經網絡模型未收斂時,根據所述損失函數值調整所述神經網絡模型參數,并進行下一次訓練,當所述神經網絡模型收斂時,得到訓練完成的所述深度神經網絡模型。
6.根據權利要求5所述的方法,其特征在于,所述神經網絡模型包括卷積層、batchnorm層、修正線性單元、池化層和全連接層。
7.一種碎片文本的處理裝置,其特征在于,包括:
文本獲取模塊,用于獲取待處理的碎片文本,作為待處理文本;
文本矩陣轉換模塊,用于基于預設的詞嵌入模型,將所述待處理文本轉換為表征所述待處理文本的文本矩陣;
特征數據生成模塊,用于基于所述第一文本矩陣,生成所述待處理文本的文本特征數據;
垂直場景確定模塊,用于將所述文本特征數據輸入到預先訓練的神經網絡模型,確定所述待處理文本所屬的垂直場景類別;其中,所述神經網絡模型為基于樣本文本的樣本文本特征數據和所述樣本文本所屬的樣本垂直場景類別預先訓練完成的;
文本輸入模塊,用于當所述待處理文本的所屬的垂直場景類別為預設垂直場景類別時,將所述待處理文本輸入至與所述預設垂直場景類別對應的關鍵詞兜底模塊,以得到對應所述待處理文本的兜底語音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山安全軟件有限公司,未經北京金山安全軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010224736.2/1.html,轉載請聲明來源鉆瓜專利網。





