[發明專利]一種同義詞獲取方法及裝置在審
| 申請號: | 202111313822.1 | 申請日: | 2021-11-08 |
| 公開(公告)號: | CN113988056A | 公開(公告)日: | 2022-01-28 |
| 發明(設計)人: | 朱自強;黃龍濤 | 申請(專利權)人: | 阿里巴巴(中國)有限公司 |
| 主分類號: | G06F40/247 | 分類號: | G06F40/247;G06K9/62 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 李丹;栗若木 |
| 地址: | 310052 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 同義詞 獲取 方法 裝置 | ||
本申請公開了一種同義詞獲取方法及裝置,本申請從用戶的搜索行為中獲取搜索序列,并以此引入預訓練模型來進行搜索內容的向量化表示,然后利用搜索內容的向量化表示,實現對待處理的關鍵詞的同義詞的挖掘。本申請實施例直接利用用戶的搜索內容作為詞,從詞有效性的角度衡量要遠高于傳統的新詞挖掘算法,大大提升了挖掘的準確性,而且本申請實施例挖掘出了詞匯的知識性變異,很好地適用于更多的應用場景。
技術領域
本申請涉及但不限于計算機技術,尤指一種同義詞獲取方法及裝置。
背景技術
同義詞的挖掘是基礎的自然語言處理(NLP,Natural Language Processing)工具,具有非常廣泛的應用場景。相關技術中挖掘同義詞的方法,只能挖掘出類似于NLP這種級別的同義詞,挖掘不出詞匯的知識性變異,從而對挖掘的準確性大打折扣,大大降低了其實用性。
發明內容
本申請提供一種同義詞獲取方法及裝置,能夠大大提升挖掘的準確性,很好地適用于更多的應用場景。
本發明實施例提供了一種同義詞獲取方法,應用于基于關鍵詞做決策的場景,包括:
獲取所述關鍵詞的詞向量表示;
計算所述關鍵詞對應的詞向量表示與待擴充的詞包中的詞語對應的詞向量表示之間的距離;
將距離小于預設距離閾值的詞向量表示對應的詞語作為所述關鍵詞的同義詞并擴充到所述詞包中,以使用于做決策的關鍵詞包括所述關鍵詞和獲得的同義詞。
在一種示例性實例中,所述獲取所述關鍵詞的詞向量表示,包括:
利用根據搜索歷史信息訓練得到的預訓練模型,將待處理的關鍵詞轉換為詞向量表示。
在一種示例性實例中,還包括根據所述搜索歷史信息訓練得到所述預訓練模型,包括:
基于用戶的所述搜索歷史信息,構建搜索序列;
對構建的搜索序列進行清洗得到包括關鍵詞的搜索序列;
將清洗后的搜索序列中的每個搜索內容作為單詞進行預訓練,得到基于搜索內容的所述預訓練模型。
在一種示例性實例中,所述基于用戶的搜索歷史信息,構建搜索序列包括:
將所述搜索歷史信息中,搜索時間間隔小于預設時長的搜索歷史信息作為同一個搜索序列,以構建出多個所述搜索序列。
在一種示例性實例中,所述對構建的搜索序列進行清洗得到包括關鍵詞的搜索序列,包括:
對同一個所述搜索序列中出現的相同的搜索內容進行去重處理;
所述搜索序列中至少包括兩個搜索內容;
保留包括有所述需要擴展的詞包中的關鍵詞的搜索序列。
在一種示例性實例中,所述將清洗后的搜索序列中的每個搜索內容作為單詞進行預訓練,得到基于搜索內容的預訓練模型,包括:
將搜索序列中的每個搜索內容看作單詞,進行將單詞轉換成詞向量表示的預訓練,以針對搜索內容,訓練出所述基于搜索內容的預訓練模型;所述預訓練模型的輸入為單詞,輸出為單詞對應的詞向量表示。
在一種示例性實例中,得到所述預訓練模型之后,還包括:
對同一所述搜索內容的多個向量表示取平均值,將取平均值的結果作為該搜索內容的所述詞向量表示。
在一種示例性實例中,還包括:
對所述同義詞進行人工審核,將通過審核的同義詞作為所述待處理的關鍵詞的同義詞。
在一種示例性實例中,還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴(中國)有限公司,未經阿里巴巴(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111313822.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鋼結構建筑房頂及其施工方法
- 下一篇:一種克立硼羅及其中間產物的制備方法





