[發明專利]語義向量的處理方法及裝置在審
| 申請號: | 201811190745.3 | 申請日: | 2018-10-12 |
| 公開(公告)號: | CN109460549A | 公開(公告)日: | 2019-03-12 |
| 發明(設計)人: | 唐梓毅;汪冠春;胡一川;張海雷 | 申請(專利權)人: | 北京奔影網絡科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京卓唐知識產權代理有限公司 11541 | 代理人: | 唐海力;李志剛 |
| 地址: | 100083 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義向量 文本語義 用戶請求 詞向量 預設 句子 申請 相似度計算 接收用戶 向量編碼 輸出 | ||
1.一種語義向量的處理方法,其特征在于,包括:
接收用戶請求;
通過對所述用戶請求執行預設處理得到詞向量;以及
將所述詞向量輸入預設句向量編碼模型并輸出所述用戶請求中的句子的語義向量。
2.根據權利要求1所述的處理方法,其特征在于,所述預設句向量編碼模型包括:構造訓練數據集,所述構造訓練數據集包括:
將知識庫中劃分的知識點按照分類標簽分為多層級結構,其中,所述多層級結構至少包括:一級標簽和二級標簽;
將同一知識點下的相似問題作為正樣本;
將不同知識點下的相似問題作為負樣本;以及
根據所述相似問題挑選句對并構造出訓練數據集。
3.根據權利要求2所述的處理方法,其特征在于,將不同知識點下的相似問題作為負樣本包括如下一種或多種操作:
隨機選擇任意兩個不同的知識點下的相似問題作為矛盾關系的負樣本;
選擇一級標簽相同以及二級標簽不同的知識點的相似問題作為矛盾關系的負樣本。
4.根據權利要求1所述的處理方法,其特征在于,所述預設句向量編碼模型包括:訓練句向量編碼模型,所述訓練句向量編碼模型包括:
根據自然語言推理任務訓練分類器判斷輸入的兩個句子的語義向量;
判斷兩個句子的蘊含、中立或矛盾的關系;
其中,在訓練過程中根據分類器輸出結果調整句向量編碼模型的權重,訓練好的模型中的編碼器部分得到可用于語義向量編碼的模型。
5.根據權利要求1所述的處理方法,其特征在于,將所述詞向量輸入預設句向量編碼模型并輸出所述用戶請求中的句子的語義向量包括:
將經過預設處理得到詞向量依次通過BiLSTM后得到多個隱藏狀態向量;
對所述隱藏狀態向量做池化處理到的句子語義向量。
6.一種語義向量的處理裝置,其特征在于,包括:
接收模塊,用于接收用戶請求;
預處理模塊,用于通過對所述用戶請求執行預設處理得到詞向量;以及
句向量模型模塊,用于將所述詞向量輸入預設句向量編碼模型并輸出所述用戶請求中的句子的語義向量。
7.根據權利要求6所述的處理裝置,其特征在于,所述句向量模型模塊包括:構造訓練數據集模塊,所述構造訓練數據集模塊包括:
標簽單元,用于將知識庫中劃分的知識點按照分類標簽分為多層級結構,其中,所述多層級結構至少包括:一級標簽和二級標簽;
正樣本處理單元,用于將同一知識點下的相似問題作為正樣本;
負樣本處理單元,用于將不同知識點下的相似問題作為負樣本;以及
挑選單元,用于根據所述相似問題挑選句對并構造出訓練數據集。
8.根據權利要求7所述的處理裝置,其特征在于,所述負樣本處理單元中包括如下一種或多種操作:
隨機選擇任意兩個不同的知識點下的相似問題作為矛盾關系的負樣本;
選擇一級標簽相同以及二級標簽不同的知識點的相似問題作為矛盾關系的負樣本。
9.根據權利要求6所述的處理裝置,其特征在于,所述句向量模型模塊包括:訓練句向量編碼模型模塊,所述訓練句向量編碼模型模塊包括:
分類器單元,用于根據自然語言推理任務訓練分類器判斷輸入的兩個句子的語義向量;
編碼器判斷單元,判斷兩個句子的蘊含、中立或矛盾的關系;
其中,在訓練過程中根據分類器輸出結果調整句向量編碼模型的權重,訓練好的模型中的編碼器部分得到可用于語義向量編碼的模型。
10.根據權利要求6所述的處理裝置,其特征在于,所述句向量模型模塊包括:
分析單元,用于將經過預設處理得到詞向量依次通過BiLSTM后得到多個隱藏狀態向量;
池化單元,用于對所述隱藏狀態向量做池化處理到的句子語義向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奔影網絡科技有限公司,未經北京奔影網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811190745.3/1.html,轉載請聲明來源鉆瓜專利網。





