[發明專利]同義文本獲取方法、裝置、電子設備及存儲介質有效
| 申請號: | 202010587746.2 | 申請日: | 2020-06-24 |
| 公開(公告)號: | CN111881255B | 公開(公告)日: | 2023-10-27 |
| 發明(設計)人: | 連義江;易鵬 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06F40/247;G06F40/30;G06F18/214 |
| 代理公司: | 北京鴻德海業知識產權代理有限公司 11412 | 代理人: | 谷春靜 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 同義 文本 獲取 方法 裝置 電子設備 存儲 介質 | ||
1.一種同義文本獲取方法,包括:
獲取訓練數據,任一訓練數據中分別包括:兩個同義的文本;利用所述訓練數據訓練圖模型,得到所述圖模型中的各節點的向量表達,其中,所述圖模型中的各節點分別對應于所述訓練數據中的一個不同的文本,若任意兩個節點出現在同一訓練數據中,則將所述兩個節點通過邊相連;
針對所述圖模型中的任一節點對應的待處理的文本,根據所述圖模型中的各節點的向量表達,確定出所述待處理的文本的K個近鄰文本,作為所述待處理的文本的同義文本,K為正整數。
2.根據權利要求1所述的方法,其中,
所述兩個同義的文本包括:兩個同義的第一文本,或兩個同義的第二文本,或兩個同義的第一文本和第二文本,第一文本和第二文本為不同類型的文本;
所述待處理的文本包括:待處理的第一文本;所述根據所述圖模型中的各節點的向量表達,確定出所述待處理的文本的K個近鄰文本包括:根據所述待處理的第一文本的向量表達及所述圖模型中的各第二文本的向量表達,確定出所述待處理的第一文本的K個近鄰第二文本。
3.根據權利要求1所述的方法,其中,所述圖模型中的任一節點的向量表達均通過對所述節點的鄰居節點的向量表達進行聚合得到,所述鄰居節點為與所述節點通過邊直接相連的節點。
4.根據權利要求2所述的方法,其中,
所述第一文本包括:查詢query;所述第二文本包括:關鍵詞keyword;
所述獲取訓練數據包括:
根據用戶的搜索點擊日志,將符合預定要求的兩個query組成query對,若所述query對中的兩個query的相似度大于第一閾值,則將所述query對作為訓練數據;
根據商家購買日志,將符合預定要求的兩個keyword組成keyword對,若所述keyword對中的兩個keyword的相似度大于第二閾值,則將所述keyword對作為訓練數據;
根據用戶的會話日志,將符合預定要求的兩個query組成query對,若所述query對中的兩個query的相似度大于第三閾值,則將所述query對作為訓練數據;
根據預先構建的同義詞表,構建所述訓練數據,所述同義詞表中記錄有各query與對應的同義keyword之間的對應關系。
5.根據權利要求2所述的方法,其中,所述確定出所述待處理的第一文本的K個近鄰第二文本包括:
分別將所述圖模型中的各第二文本與所述待處理的第一文本組成文本對,分別計算各文本對中的兩個文本的向量表達之間的距離,按照距離從小到大的順序對各文本對進行排序,選出排序后處于前K位的文本對,將選出的文本對中的第二文本作為所述待處理的第一文本的K個近鄰第二文本;
或者,采用K近鄰算法確定出所述待處理的第一文本的K個近鄰第二文本。
6.根據權利要求2所述的方法,還包括:
分別將各近鄰第二文本與所述待處理的第一文本組成文本對,并分別獲取各文本對中的兩個文本的同義評分;
過濾掉評分低于第四閾值的文本對,將剩余的文本對中的第二文本作為所述待處理的第一文本的同義文本。
7.根據權利要求6所述的方法,其中,所述分別獲取各文本對中的兩個文本的同義評分包括:
針對任一文本對,分別利用同義判別模型,確定出所述文本對中的兩個文本的同義評分;所述同義判別模型為對已有的基礎模型進行微調得到的。
8.根據權利要求7所述的方法,其中,所述微調包括:
獲取第一階段微調訓練數據,利用所述第一階段微調訓練數據對所述基礎模型進行第一階段微調;
獲取第二階段微調訓練數據,利用所述第二階段微調訓練數據對進行第一階段微調后的模型進行第二階段微調,得到所述同義判別模型;
其中,所述第一階段微調訓練數據和所述第二階段微調訓練數據為采用不同方式獲取到的訓練數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010587746.2/1.html,轉載請聲明來源鉆瓜專利網。





