[發明專利]一種同義詞的識別方法及裝置有效
| 申請號: | 201410143864.9 | 申請日: | 2014-04-10 |
| 公開(公告)號: | CN104978356B | 公開(公告)日: | 2019-09-06 |
| 發明(設計)人: | 陳俊波;王力;李紅松;龐昂博;陳春明 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 許志勇 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 同義詞 識別 方法 裝置 | ||
1.一種同義詞的識別方法,其特征在于,包括:
根據待測描述文本,使用屬性詞識別模型,獲取待測描述文本的屬性詞和與所述待測描述文本的屬性詞相對應的類型;
根據所述待測描述文本的屬性詞和與所述待測描述文本的屬性詞相對應的類型,結合用戶行為日志,計算所述待測描述文本的屬性詞之間的關聯性;
根據從所述待測描述文本的屬性詞中選擇的樣本屬性詞之間的關聯性和樣本屬性詞之間的文本差異特征,進行同義詞識別模型的訓練,以得到同義詞識別模型;以及
根據待測屬性詞之間的關聯性和待測屬性詞之間的文本差異特征,使用所述同義詞識別模型,識別數據庫中各待測屬性詞之間是否是同義詞,以進行后續處理,其中,所述待測屬性詞包括所述數據庫中任意兩個同一類型的屬性詞。
2.根據權利要求1所述的方法,其特征在于,所述屬性詞識別模型通過如下步驟建立:
將樣本描述文本切分為屬性詞的集合,并且對所述屬性詞的集合中的屬性詞標注類型;以及
根據樣本描述文本和切分并標注過的屬性詞的集合,利用判別模型進行機器學習的訓練,以得到屬性詞識別模型。
3.根據權利要求1所述的方法,其特征在于,在根據待測描述文本,使用屬性詞識別模型,獲取待測描述文本的屬性詞和與所述待測描述文本的屬性詞相對應的類型之后,在根據所述待測描述文本的屬性詞和與所述待測描述文本的屬性詞相對應的類型,結合用戶行為日志,計算待測描述文本的屬性詞之間的關聯性的步驟之前,還包括:
根據所述待測描述文本的屬性詞和與所述待測描述文本的屬性詞相對應的類型,計算有共現關系的待測描述文本的屬性詞之間的條件概率;
根據屬性詞識別模型,結合有共現關系的待測描述文本的屬性詞之間的條件概率,進行優化的屬性詞識別模型的訓練,以得到優化的屬性詞識別模型;以及
使用優化的屬性詞識別模型,獲取待測描述文本的屬性詞和與待測描述文本的屬性詞相對應的類型。
4.根據權利要求1所述的方法,其特征在于,根據所述待測描述文本的屬性詞和與所述待測描述文本的屬性詞相對應的類型,結合用戶行為日志,計算所述待測描述文本的屬性詞之間的關聯性,進一步包括:
根據所述待測描述文本的屬性詞和與所述待測描述文本的屬性詞相對應的類型,獲取屬于同一類型的待測描述文本的屬性詞;以及
結合用戶行為日志,計算所述屬于同一類型的待測描述文本的屬性詞之間的條件概率。
5.根據權利要求1所述的方法,其特征在于,根據從待測描述文本的屬性詞中選擇的樣本屬性詞之間的關聯性和樣本屬性詞之間的文本差異特征,進行同義詞識別模型的訓練,以得到同義詞識別模型,進一步包括:
計算樣本屬性詞之間的編輯距離、Cosine距離和Jaccard距離,以得到樣本屬性詞之間的文本差異特征;以及
根據樣本屬性詞之間的關聯性和樣本屬性詞之間的文本差異特征,進行同義詞識別模型的訓練,以得到同義詞識別模型。
6.根據權利要求1所述的方法,其特征在于,根據待測屬性詞之間的關聯性和待測屬性詞之間的文本差異特征,使用所述同義詞識別模型,識別數據庫中各待測屬性詞之間是否是同義詞,以進行后續處理,進一步包括:
根據待測屬性詞之間的關聯性和待測屬性詞之間的文本差異特征,使用同義詞識別模型,計算數據庫中各待測屬性詞之間是同義詞的概率;
當待測屬性詞之間是同義詞的概率大于或等于預設值時,識別所述待測屬性詞之間是同義詞;以及
當待測屬性詞之間是同義詞的概率小于預設值時,識別所述待測屬性詞之間不是同義詞。
7.根據上述任一項權利要求所述的方法,其特征在于,所述描述文本包括數據對象的標題和用戶的檢索詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410143864.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種視頻專輯的關鍵詞設置方法及裝置
- 下一篇:文本分類方法和裝置





