[發明專利]基于頻繁項集的模板自動挖掘系統及其方法在審
| 申請號: | 201911382005.4 | 申請日: | 2019-12-28 |
| 公開(公告)號: | CN111597322A | 公開(公告)日: | 2020-08-28 |
| 發明(設計)人: | 何立華;賀小勇 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F40/289 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 何淑珍;江裕強 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 頻繁 模板 自動 挖掘 系統 及其 方法 | ||
1.基于頻繁項集的模板自動挖掘系統,其特征在于,包括意圖識別模塊、類目詞替換模塊、頻繁項集挖掘模塊、篩選模板模塊、模板排序模塊;
所述意圖識別模塊用于對用戶的歷史搜索記錄進行意圖識別,并將經過意圖識別后的記錄發送至類目詞替換模塊;
所述類目詞替換模塊用于對經過意圖識別以后的記錄進行切詞,替換類目詞,并將替換類目詞后的記錄發送至頻繁項集挖掘模塊;
所述頻繁項集挖掘模塊用于對替換類目詞后的記錄進行頻繁項集挖掘并將挖掘的結果發送至篩選模板模塊;
所述篩選模板模塊根據頻繁項集挖掘模塊得到的結果對替換類目詞后的記錄進行篩選,得到初步的模板并將其發送至模板排序模塊;
所述模板排序模塊計算最初的模板的熵值以及與已有匹配詞的相似度,并根據熵值、相似度以及搜索記錄次數對模板進行排序,得到最終的模板;
所述意圖識別模塊中,采用相關記錄訓練意圖識別模型,所述相關記錄指的是用戶的搜索記錄,所述意圖識別模型包括fasttext模型,采用訓練完的意圖識別模型對歷史搜索記錄進行意圖識別;
所述訓練意圖識別模型是輸入帶有類目標簽的數據,模型的輸出為對應的類目標簽,經過訓練使得意圖模型根據輸入的記錄計算該記錄分別屬于各個類目的概率并輸出其中概率最大的類目;
所述類目詞替換模塊中,采用結巴分詞對經過意圖識別的記錄進行切詞,將記錄中和固定類相關的詞語替換成固定類目詞;
所述頻繁項集挖掘模塊中,對替換類目詞后的記錄進行切詞;對切詞以后得到的單詞進行去重并且去掉標點符號作為待挖掘的項,利用關聯規則挖掘算法進行挖掘,然后將挖掘得到的結果發送至篩選模板模塊;
所述篩選模板模塊中,對滿足置信度的頻繁項保留下來,然后把包括特定頻繁項的記錄保留得到挖掘模板,所述置信度的計算公式如下:
其中P(A)指的是A出現的概率,P(AB)指的是A和B同時出現的概率;
所述模板排序模塊中,計算同一類型模板中配模詞的可能性,利用熵值來評價模板的通用性,所述熵值排序,衡量的是帶有固定類目詞所包括的可能性個數,熵值S的計算公式如下:
S=-∑p(A)log(p(A));
用余弦相似度計算與已有詞表的相似度,根據熵值,與已有詞表的相似度以及搜索記錄的次數,訓練LR模型即排序模型對模板進行排序,排序模型用到的是LR算法首先訓練模型得到排序優先度占比參數,再根據熵值、與已有詞表的相似度以及搜索記錄次數的優先度占比參數對模板進行排序;
所述排序模型的訓練方法是,首先人工收集歷史記錄數據,與訓練類目相關的數據打上標簽‘1’,不相關的打上標簽‘0’,然后輸入到排序模型里面去訓練,得到排序模型的優先度占比參數,下次輸入新的記錄安裝該參數進行排序。
2.根據權利要求1所述的基于頻繁項集的模板自動挖掘系統,其特征在于,所述關聯規則挖掘算法,包括FP-Growth算法。
3.利用權利要求1所述的基于頻繁項集的模板自動挖掘系統的模板自動挖掘方法,其特征在于,包括以下步驟:
S1:輸入用戶的歷史記錄,采用意圖識別模塊對用戶的歷史記錄進行意圖識別;
S2:采用類目詞替換模塊對經過意圖識別的記錄用結巴分詞進行切詞,將記錄中和固定類相關的詞語替換成固定類目詞,得到替換類目詞后的記錄;
S3、采用頻繁項集挖掘模塊對替換類目詞后的記錄用結巴分詞進行切詞并且進行去重,把切詞以后得到的詞語作為待挖掘的項;
S4:把經過S3處理的項輸入FP-Growth算法,篩選指標選擇支持度以及置信度,采用篩選模板模塊把滿足支持度,置信度閾值的結果篩選出來;
S5:遍歷S1中處理得到的記錄,把同時包含S4中頻繁項的結果保留下來得到初步的模板;
S6:根據S5得到的模板,采用模板排序模塊根據模板的熵值、與已有詞表的相似度、搜索記錄的次數,訓練排序模型進行排序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911382005.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:撓曲嚙合式齒輪裝置及其制造方法
- 下一篇:一種電動爬桿裝置及其方法





