[發明專利]一種同義詞獲取方法及裝置在審
| 申請號: | 202111313822.1 | 申請日: | 2021-11-08 |
| 公開(公告)號: | CN113988056A | 公開(公告)日: | 2022-01-28 |
| 發明(設計)人: | 朱自強;黃龍濤 | 申請(專利權)人: | 阿里巴巴(中國)有限公司 |
| 主分類號: | G06F40/247 | 分類號: | G06F40/247;G06K9/62 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 李丹;栗若木 |
| 地址: | 310052 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 同義詞 獲取 方法 裝置 | ||
1.一種同義詞獲取方法,應用于基于關鍵詞做決策的場景,包括:
獲取所述關鍵詞的詞向量表示;
計算所述關鍵詞對應的詞向量表示與待擴充的詞包中的詞語對應的詞向量表示之間的距離;
將距離小于預設距離閾值的詞向量表示對應的詞語作為所述關鍵詞的同義詞并擴充到所述詞包中,以使用于做決策的關鍵詞包括所述關鍵詞和獲得的同義詞。
2.根據權利要求1所述的同義詞獲取方法,其中,所述獲取所述關鍵詞的詞向量表示,包括:
利用根據搜索歷史信息訓練得到的預訓練模型,將待處理的關鍵詞轉換為詞向量表示。
3.根據權利要求2所述的同義詞獲取方法,還包括根據所述搜索歷史信息訓練得到所述預訓練模型,包括:
基于用戶的所述搜索歷史信息,構建搜索序列;
對構建的搜索序列進行清洗得到包括關鍵詞的搜索序列;
將清洗后的搜索序列中的每個搜索內容作為單詞進行預訓練,得到基于搜索內容的所述預訓練模型。
4.根據權利要求3所述的同義詞獲取方法,其中,所述基于用戶的搜索歷史信息,構建搜索序列包括:
將所述搜索歷史信息中,搜索時間間隔小于預設時長的搜索歷史信息作為同一個搜索序列,以構建出多個所述搜索序列。
5.根據權利要求3所述的同義詞獲取方法,其中,所述對構建的搜索序列進行清洗得到包括關鍵詞的搜索序列,包括:
對同一個所述搜索序列中出現的相同的搜索內容進行去重處理;
所述搜索序列中至少包括兩個搜索內容;
保留包括有所述需要擴展的詞包中的關鍵詞的搜索序列。
6.根據權利要求3所述的同義詞獲取方法,其中,所述將清洗后的搜索序列中的每個搜索內容作為單詞進行預訓練,得到基于搜索內容的預訓練模型,包括:
將搜索序列中的每個搜索內容看作單詞,進行將單詞轉換成詞向量表示的預訓練,以針對搜索內容,訓練出所述基于搜索內容的預訓練模型;所述預訓練模型的輸入為單詞,輸出為單詞對應的詞向量表示。
7.根據權利要求6所述的同義詞獲取方法,得到所述預訓練模型之后,還包括:
對同一所述搜索內容的多個向量表示取平均值,將取平均值的結果作為該搜索內容的所述詞向量表示。
8.根據權利要求1所述的同義詞獲取方法,還包括:
對所述同義詞進行人工審核,將通過審核的同義詞作為所述待處理的關鍵詞的同義詞。
9.根據權利要求8所述的同義詞獲取方法,還包括:
將所述通過審核的候選同義詞作為關鍵詞添加到所述需要擴充的關鍵詞詞包中,返回執行所述將待處理的關鍵詞轉換為詞向量表示的步驟,直至不能產出新的有價值的關鍵詞。
10.一種計算機可讀存儲介質,存儲有計算機可執行指令,所述計算機可執行指令用于執行權利要求1~權利要求9任一項所述同義詞獲取方法。
11.一種實現同義詞獲取的設備,包括存儲器和處理器,其中,存儲器中存儲有以下可被處理器執行的指令:用于執行權利要求1~權利要求9任一項所述的同義詞獲取方法的步驟。
12.一種同義詞獲取裝置,包括:轉換模塊、計算模塊、獲取模塊;其中,
轉換模塊,用于利用根據搜索歷史信息訓練得到的預訓練模型,將待處理的關鍵詞轉換為詞向量表示;
計算模塊,用于計算待處理的關鍵詞對應的詞向量表示與待擴充的詞包中的詞語對應的詞向量表示之間的距離;
獲取模塊,用于將距離小于預設距離閾值的詞向量表示對應的詞語作為待處理的關鍵詞的同義詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴(中國)有限公司,未經阿里巴巴(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111313822.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鋼結構建筑房頂及其施工方法
- 下一篇:一種克立硼羅及其中間產物的制備方法





