[發明專利]語義向量的處理方法及裝置在審
| 申請號: | 201811190745.3 | 申請日: | 2018-10-12 |
| 公開(公告)號: | CN109460549A | 公開(公告)日: | 2019-03-12 |
| 發明(設計)人: | 唐梓毅;汪冠春;胡一川;張海雷 | 申請(專利權)人: | 北京奔影網絡科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京卓唐知識產權代理有限公司 11541 | 代理人: | 唐海力;李志剛 |
| 地址: | 100083 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義向量 文本語義 用戶請求 詞向量 預設 句子 申請 相似度計算 接收用戶 向量編碼 輸出 | ||
本申請公開了一種語義向量的處理方法及裝置。該方法包括接收用戶請求;通過對所述用戶請求執行預設處理得到詞向量;以及將所述詞向量輸入預設句向量編碼模型并輸出所述用戶請求中的句子的語義向量。本申請解決了文本語義相似時處理效果較差的的技術問題。通過本申請可以準確得到句子的語義向量,并可以用于兩個文本語義相似時的相似度計算。
技術領域
本申請涉及自然語言處理領域,具體而言,涉及一種語義向量的處理方法及裝置。
背景技術
語義向量,是指將文本的符號表示轉換為語義空間中的向量的過程。
發明人發現,在人機對話場景中當接收到的用戶請求中的問題相似度較高時,機器人無法準確地分辨出問題所屬知識點。進一步,對于相似度較低的問題,無法進行有效地區分。
針對相關技術中文本語義相似時處理效果較差的問題,目前尚未提出有效的解決方案。
發明內容
本申請的主要目的在于提供一種語義向量的處理方法及裝置,以解決文本語義相似時處理效果較差的問題。
為了實現上述目的,根據本申請的一個方面,提供了一種語義向量的處理方法。
根據本申請的語義向量的處理方法包括:接收用戶請求;通過對所述用戶請求執行預設處理得到詞向量;以及將所述詞向量輸入預設句向量編碼模型并輸出所述用戶請求中的句子的語義向量。
進一步地,所述預設句向量編碼模型包括:構造訓練數據集,所述構造訓練數據集包括:將知識庫中劃分的知識點按照分類標簽分為多層級結構,其中,所述多層級結構至少包括:一級標簽和二級標簽;將同一知識點下的相似問題作為正樣本;將不同知識點下的相似問題作為負樣本;以及根據所述相似問題挑選句對并構造出訓練數據集。
進一步地,將不同知識點下的相似問題作為負樣本包括如下一種或多種操作:隨機選擇任意兩個不同的知識點下的相似問題作為矛盾關系的負樣本;選擇一級標簽相同以及二級標簽不同的知識點的相似問題作為矛盾關系的負樣本。
進一步地,所述預設句向量編碼模型包括:訓練句向量編碼模型,所述訓練句向量編碼模型包括:根據自然語言推理任務訓練分類器判斷輸入的兩個句子的語義向量;判斷兩個句子的蘊含、中立或矛盾的關系;其中,在訓練過程中根據分類器輸出結果調整句向量編碼模型的權重,訓練好的模型中的編碼器部分得到可用于語義向量編碼的模型。
進一步地,將所述詞向量輸入預設句向量編碼模型并輸出所述用戶請求中的句子的語義向量包括:將經過預設處理得到詞向量依次通過BiLSTM后得到多個隱藏狀態向量;對所述隱藏狀態向量做池化處理到的句子語義向量。
為了實現上述目的,根據本申請的另一方面,提供了一種語義向量的處理裝置。
根據本申請的語義向量的處理裝置包括:接收模塊,用于接收用戶請求;預處理模塊,用于通過對所述用戶請求執行預設處理得到詞向量;以及句向量模型模塊,用于將所述詞向量輸入預設句向量編碼模型并輸出所述用戶請求中的句子的語義向量。
進一步地,所述句向量模型模塊包括:構造訓練數據集模塊,所述構造訓練數據集模塊包括:標簽單元,用于將知識庫中劃分的知識點按照分類標簽分為多層級結構,其中,所述多層級結構至少包括:一級標簽和二級標簽;正樣本處理單元,用于將同一知識點下的相似問題作為正樣本;負樣本處理單元,用于將不同知識點下的相似問題作為負樣本;以及挑選單元,用于根據所述相似問題挑選句對并構造出訓練數據集。
進一步地,所述負樣本處理單元中包括如下一種或多種操作:隨機選擇任意兩個不同的知識點下的相似問題作為矛盾關系的負樣本;選擇一級標簽相同以及二級標簽不同的知識點的相似問題作為矛盾關系的負樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奔影網絡科技有限公司,未經北京奔影網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811190745.3/2.html,轉載請聲明來源鉆瓜專利網。





