[發明專利]一種基于耦合關系分析的組合關鍵字語義相關度評估方法在審
| 申請號: | 201810489286.2 | 申請日: | 2018-05-21 |
| 公開(公告)號: | CN108647213A | 公開(公告)日: | 2018-10-12 |
| 發明(設計)人: | 孟祥福;張霄雁;賈迪;王偉;畢崇春;唐延歡;趙路路 | 申請(專利權)人: | 遼寧工程技術大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 朱光林 |
| 地址: | 123000 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 耦合關系 組合關鍵字 語義相關度 查詢 短文本 分析 矩陣 關鍵字查詢 核函數 評估 有效表達 中英文 分詞 集合 取出 模糊 引入 轉換 | ||
本發明提供一種基于耦合關系分析的組合關鍵字語義相關度評估方法,涉及短文本分析、Web數據庫關鍵字查詢技術領域。該方法包括:利用中英文分詞方法從短文本集合中抽取出不同關鍵字建立關鍵字耦合關系圖;計算關鍵字之間的耦合關系;將組合關鍵字對轉換為耦合關系矩陣,利用耦合關系矩陣構成核函數,根據核函數計算組合關鍵字之間的語義相關度。本發明提供的一種基于耦合關系分析的組合關鍵字語義相關度評估方法,將耦合關系分析思想引入到短文本分析和Web數據庫的關鍵字查詢中,擴展了用戶的查詢思路,完善了用戶的查詢需求,解決了用戶的查詢意圖模糊或不明確,無法有效表達查詢需求的問題,有效提高了查詢的準確性。
技術領域
本發明涉及短文本分析、Web數據庫關鍵字查詢技術領域,具體涉及一種基于耦合關系分析的組合關鍵字語義相關度評估方法。
背景技術
在短文本分析和Web數據庫的關鍵字查詢領域,關鍵字之間以及組合關鍵字(由多個關鍵字構成的一組關鍵字)之間的語義相關度評估至關重要,現有的短文本和關鍵字語義相關度評估方法可分為兩類:一類是基于向量空間模型的Cosine相似度評估方法,另一類是基于自然語義理解和主題模型的方法。而基于向量空間模型的Cosine相似度評估方法僅考慮了關鍵字以及組合關鍵字之間的文本相似性而不能反映語義相關性;基于自然語義理解和主題模型的方法,一方面短文本在語法格式上隨意,使用傳統的自然語言處理方法并不能取得很好的效果,另一方面短文本包含的統計信息不足,不能有效支持主題模型。因此,需要研究一種有效的短文本中組合關鍵字之間的語義相關度評估方法。
在Web數據庫查詢領域,關鍵字查詢匹配和相關查詢推薦是當前的研究熱點。關鍵字查詢的代表性研究工作主要是基于模式圖(Schema Graph.SG)和候選網(CandidateNetwork,CN)的全文匹配方法,然而,上述方法通常假定用戶能夠使用關鍵字明確表達自己的查詢意圖,進而主要關注關鍵字的形式化匹配及查詢效率,沒有考慮查詢關鍵字與查詢結果的語義相關性,此外,如果查詢關鍵字的選擇性過強,還將會導致空或少量查詢結果問題。
發明內容
針對現有技術存在的問題,本發明提供一種基于耦合關系分析的組合關鍵字語義相關度評估方法,將耦合關系分析思想引入到短文本分析和Web數據庫的關鍵字查詢中,為用戶提供了與初始查詢語義相關的組合關鍵字,擴展了用戶的查詢思路,進一步完善了用戶的查詢需求,有效提高了查詢的準確性。
為了實現上述目的,一種基于耦合關系分析的組合關鍵字語義相關度評估方法,包括以下步驟:
步驟1:利用中英文分詞方法從短文本集合中抽取出不同關鍵字,根據關鍵字出現的頻率和共現關系建立關鍵字耦合關系圖;所述短文本集合為歷史查詢記錄;
步驟2:根據關鍵字耦合關系圖,計算關鍵字之間的耦合關系,具體步驟如下:
步驟2.1:根據Jaccard系數對關鍵字對之間的相關度進行評估;
步驟2.2:根據關鍵字對之間的相關度,計算關鍵字對的內耦合關系;對于至少在短文本集合中的某個短文本中共同出現過的兩個關鍵字,稱這兩個關鍵字具有內耦合關系;
步驟2.3:將與指定關鍵字共同出現的關鍵字看做指定關鍵字的語義相關詞語集合,則關鍵字對形成兩個語義相關詞語集合A和B,集合A和B中包含的共同關鍵字構成了關鍵字對的共同關鍵字集合S,根據信息檢索中的倒排文檔頻率IDF思想,計算關鍵字對的共同關鍵字集合S中關鍵字的權重;
步驟2.4:根據關鍵字對的共同關鍵字集合S中關鍵字的權重、關鍵字對中的關鍵字與集合S中關鍵字的內耦合關系,計算關鍵字對的間耦合關系;對于在短文本集合中沒有共現過的兩個關鍵字,通過某個或某些其他關鍵字間接關聯,稱這兩個關鍵字具有間耦合關系;
步驟2.5:根據關鍵字對的內耦合關系及間耦合關系,計算關鍵字對的耦合關系;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于遼寧工程技術大學,未經遼寧工程技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810489286.2/2.html,轉載請聲明來源鉆瓜專利網。





