[發明專利]基于用戶操作行為數據提取同義詞的方法和裝置有效
| 申請號: | 201710785024.6 | 申請日: | 2017-09-04 |
| 公開(公告)號: | CN107679030B | 公開(公告)日: | 2021-08-13 |
| 發明(設計)人: | 謝群群;邵榮防;郝暉;李蕭蕭;陳賤輝 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F40/247 | 分類號: | G06F40/247;G06F40/284;G06F16/903 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;陸錦華 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 用戶 操作 行為 數據 提取 同義詞 方法 裝置 | ||
本發明公開了基于用戶操作行為數據提取同義詞的方法和裝置,涉及計算機技術領域。該方法的一具體實施方式包括:基于用戶操作行為數據,確定每類操作行為的操作數據鏈路,操作數據鏈路包括:操作行為的操作對象及其搜索詞;根據操作數據鏈路,確定第一搜索詞在每類操作行為的第一操作對象分布、以及第二搜索詞在每類操作行為的第二操作對象分布;依據第一操作對象分布和第二操作對象分布,確定第一搜索詞與第二搜索詞的相似度;若該相似度滿足預設的條件,確定第一搜索詞與第二搜索詞為同義詞。本發明實施例適用于各種應用場景,大大提高同義詞提取的時效性和準確率。
技術領域
本發明涉及計算機技術領域,尤其涉及一種基于用戶操作行為數據提取同義詞的方法和裝置。
背景技術
現有技術中,主要通過詞典數據和人工標記提取同義詞。在實現本發明過程中,發明人發現現有技術中至少存在如下問題:
1)基于詞典數據提取同義詞的方法依賴于人工標記,效率低;
2)詞典數據的數據量有限,影響同義詞提取的準確率;
3)詞典數據的更新速度慢,無法適用于日益復雜的應用場景。
發明內容
有鑒于此,本發明實施例提供一種基于用戶操作行為數據提取同義詞的方法和裝置,能夠適用于各種應用場景,大大提高同義詞提取的時效性和準確率。
為實現上述目的,根據本發明實施例的一個方面,提供了一種基于用戶操作行為數據提取同義詞的方法,包括:
基于用戶操作行為數據,確定每類操作行為的操作數據鏈路;
根據所述操作數據鏈路,確定第一搜索詞在每類操作行為的第一操作對象分布、以及第二搜索詞在每類操作行為的第二操作對象分布;
依據第一操作對象分布和第二操作對象分布,確定第一搜索詞與第二搜索詞的相似度;若該相似度滿足預設的條件,確定第一搜索詞與第二搜索詞為同義詞;
其中,操作數據鏈路包括:操作行為的操作對象及其搜索詞。
可選地,每類操作行為包括:第一操作行為和第二操作行為;
按照如下關系式確定第一搜索詞與第二搜索詞的相似度:
式中,W1為第一搜索詞,W2為第二搜索詞,為第一搜索詞與第二搜索詞的相似度,A為第一操作對象分布中第一操作行為的操作對象的集合,B為第二操作對象分布中第一操作行為的操作對象的集合,C為第一操作對象分布中第二操作行為的操作對象的集合,D為第二操作對象分布中第二操作行為的操作對象的集合;α為第一操作行為的相似度權重值,β為第二操作行為的相似度權重值。
可選地,第一操作行為的相似度權重值為0.8,第二操作行為的相似度權重值為0.2。
可選地,若第一搜索詞與第二搜索詞的相似度大于0.7,則確定第一搜索詞與第二搜索詞為同義詞。
可選地,本實施例的同義詞提取方法進一步包括:
依據第一操作對象分布和第二操作對象分布,確定第一搜索詞和第二搜索詞的同義詞方向。
可選地,本實施例的方法包括:
根據第一操作對象分布確定第一搜索詞在每類操作行為的操作對象的數量;基于每類操作行為的權重、以及第一搜索詞在每類操作行為的操作對象的數量,確定第一搜索詞的第一得分;
根據第二操作對象分布確定第二搜索詞在每類操作行為的操作對象的數量;基于每類操作行為的權重以及第二搜索詞在每類操作行為的操作對象的數量,確定第二搜索詞的第二得分;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710785024.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種定位方法及裝置
- 下一篇:一種智能終端的投影鍵盤及該投影鍵盤的操作方法





