[發明專利]基于頻繁項集的模板自動挖掘系統及其方法在審
| 申請號: | 201911382005.4 | 申請日: | 2019-12-28 |
| 公開(公告)號: | CN111597322A | 公開(公告)日: | 2020-08-28 |
| 發明(設計)人: | 何立華;賀小勇 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F40/289 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 何淑珍;江裕強 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 頻繁 模板 自動 挖掘 系統 及其 方法 | ||
本發明公開了基于頻繁項集的模板自動挖掘系統及其方法。所述系統包括意圖識別模塊、類目詞替換模塊、頻繁項集挖掘模塊、篩選模板模塊、模板排序模塊;意圖識別模塊對用戶的歷史搜索記錄進行意圖識別;類目詞替換模塊用于對經過意圖識別以后的記錄進行切詞,替換類目詞;頻繁項集挖掘模塊用于對替換類目詞后的記錄進行頻繁項集挖掘;所述篩選模板模塊根據頻繁項集挖掘模塊得到的結果對替換類目詞后的記錄進行篩選;模板排序模塊并根據熵值、相似度、搜索記錄次數對模板進行排序,得到最終的模板。本發明利用FP?growth算法挖掘搜索模板,相對于已有技術,可以保留一些長尾的低支持度但是高質量的記錄。
技術領域
本發明涉及搜索模板自動挖掘領域,尤其涉及基于頻繁項集的模板自動挖掘系統及其方法。
背景技術
在垂直搜索中,當用戶的搜索關鍵詞與數據庫中的規則詞匹配時,就會返回數據庫中的相關數據。實際應用中,用戶的搜索關鍵詞是多樣的,很難手動配置所有的匹配詞,隨著搜索種類數目的增加,手動配置顯然是一個不現實的做法,因此設計算法自動挖掘出用戶常用的搜索模板就很有必要。當前的研究主要是從用戶的歷史數據中挖掘搜索模板,典型的代表為百度的搜索技術專利《需求識別模板的自動挖掘方法、需求識別方法及對應裝置》,該技術提供了一種識別模板的自動挖掘方法。具體的步驟為:在搜索日志中確定預設類型對應的記錄集合;從集合中選擇對應預設類型被點擊次數超過預設次數的記錄,組成種子模板;將種子模板中的預設類型詞與預設詞典的詞語進行匹配,替換成類型屬性詞;得到模板。
該技術的缺陷主要表現在:會丟棄一些具有潛在模板意圖的記錄。比如“七天酒店多少錢”,“如家酒店多少錢”這兩個記錄公共的部分就是“酒店多少錢”,按照現有技術,如果兩個記錄的點擊量比較低就會剔除在外,實際上是有模板意圖的。
發明內容
為解決上述現有技術存在的問題,本發明提出了基于頻繁項集的模板自動挖掘系統及其方法,首先把記錄切詞,然后挖掘頻繁項,這里的頻繁項是“酒店”,“多少錢”,然后把同時包含著兩個頻繁項的記錄都保留下來,因此可以保持一些長尾低支持度高質量的記錄。
本發明的目的至少通過如下技術方案之一實現。
基于頻繁項集的模板自動挖掘系統,包括意圖識別模塊、類目詞替換模塊、頻繁項集挖掘模塊、篩選模板模塊、模板排序模塊;
所述意圖識別模塊用于對用戶的歷史搜索記錄進行意圖識別,并將經過意圖識別后的記錄發送至類目詞替換模塊;
所述類目詞替換模塊用于對經過意圖識別以后的記錄進行切詞,替換類目詞,并將替換類目詞后的記錄發送至頻繁項集挖掘模塊;
所述頻繁項集挖掘模塊用于對替換類目詞后的記錄進行頻繁項集挖掘并將挖掘的結果發送至篩選模板模塊;
所述篩選模板模塊根據頻繁項集挖掘模塊得到的結果對替換類目詞后的記錄進行篩選,得到初步的模板并將其發送至模板排序模塊;
所述模板排序模塊計算最初的模板的熵值以及與已有匹配詞的相似度,并根據熵值,相似度以及搜索記錄的次數對模板進行排序,得到最終的模板。
進一步地,所述意圖識別模塊中,采用相關記錄訓練意圖識別模型,所述相關記錄指的是用戶的搜索記錄,所述意圖識別模型包括fasttext模型,采用訓練完的意圖識別模型對歷史搜索記錄進行意圖識別;
所述訓練意圖模型是輸入帶有類目標簽的數據,模型的輸出為對應的類目標簽,比如輸入有:‘酒店多少錢’,標簽是‘酒店’;‘天氣怎么樣’,標簽是‘天氣’,訓練的時候給模型的輸入是‘酒店多少錢’,‘天氣怎么樣’,輸出是‘酒店’,‘天氣’,輸入大量帶標簽的數據后這個模型就會去學習其中的參數,經過訓練使得意圖模型根據輸入的記錄計算該記錄分別屬于各個類目的概率并輸出其中概率最大的類目,比如新輸入‘附近酒店’,模型給出的概率中,酒店類的概率最大,就把這個分到酒店類,屬于其他的概率比較小,就不會分到其他類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911382005.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:撓曲嚙合式齒輪裝置及其制造方法
- 下一篇:一種電動爬桿裝置及其方法





