[發明專利]基于商品評論文檔集的概念層次創建方法有效
| 申請號: | 201310754874.1 | 申請日: | 2013-12-31 |
| 公開(公告)號: | CN103761264A | 公開(公告)日: | 2014-04-30 |
| 發明(設計)人: | 陳嶺;涂鼎 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06Q30/02 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 商品 評論 文檔 概念 層次 創建 方法 | ||
技術領域
本發明涉及語義挖掘領域,尤其涉及基于商品評論文檔集的概念層次創建方法。
背景技術
隨著社交網絡和電子商務的迅速發展,網絡和信息系統中產生了大量評論數據。面對龐大的數據集,人們一般難以快速找到其感興趣的內容,如電子商務系統用戶往往需要閱讀某一產品大量的用戶評論,才能對其某項性能做出相對準確的評價。由于概念層次能提供數據之間的內在相關性,所以其能大幅提高人們分析數據集的效率,發掘其內在價值,在信息檢索、文本分類、自動問答等領域有著廣闊的應用空間。
概念層次是一個分類表,以等級方式對概念進行分類,是本體的一種特殊形式,其僅包含子類關系。構建針對特定文檔集的概念分類通常包含3個步驟:1)提取出對于該文檔集來說是最具代表性和相關性的概念;2)在確認這些概念后,發掘出這些概念之間的語義關系;3)通過概念之間的語義關系將其有效的組織起來。一般獲得文檔集關鍵概念和語義關系之后需要通過恰當的方法去生成最終的層次結構。在語義關系比較明顯的情況下,可以采用推理的方法去生成最終結構,但此類方法對于文本本身數量和質量要求較高,在評論數據中無法滿足。而其他情況下,則一般采取根據語義距離進行層次聚類的方法。
公開號為1669029A的專利文獻公開了一種可自一文件集合中自動搜尋概念并自動生成一概念層次結構的方法、系統及計算機程序。該方法包括:自文件集合中抽取特征字符;利用統計方法計算特征字符間的相似度;提煉特征字符的分布頻率以使上述相似度計算趨于精確;對特征字符進行語義排歧以解決意義分歧的問題;以經提煉的分布頻率及語義排歧后的特征字符為基礎,重新計算特征字符的相似度。經再次計算所得的相似度可反映各特征字符間的實際相似程度,藉此,可將相關的特征字符進行聚類形成不同的概念,所得概念排列為一個概念層次結構。該概念層次結構可自動對某一待檢索的特定概念產生詢問并返回與該概念相關的文件。
層次聚類是一種常用的數據聚類方法,其根據一定標準對數據進行層次分解。基本層次聚類方法一般以二叉樹的形式輸出最終結果,但這樣的知識表達方式對于很多應用場景來說顯得不恰當。例如在電視機評論數據中有液晶電視、等離子電視和OLED電視三個概念,較符合人類認知的概念分類應該將這三個概念合并到同一個節點下,但通過基本層次聚類算法無法實現。
發明內容
為了能夠對數據實現符合人類認知的聚類,本發明提出了一種基于商品評論文檔集的概念層次創建方法。
一種基于商品評論文檔集的概念層次創建方法,包括如下步驟:
步驟1,對初始的文檔集進行預處理,得到文檔矩陣以及關鍵詞表;
步驟2,根據文檔矩陣以及關鍵詞表建立主題模型,并將每個主題下相關度最高的k個名詞作為關鍵概念;
步驟3,對關鍵概念進行語義關系提取,得到關鍵概念的距離矩陣;
步驟4,根據距離矩陣進行多路凝聚聚類,得到概念層次。
k的取值由用戶根據需要來確定,一般取值范圍在10-15。在概念層次生成時,使用多路凝聚層次聚類組織概念節點,從而構建多叉樹形式的概念分類。
對初始的文檔集進行預處理的步驟如下:
步驟1-1,從初始的文檔集提取具有評論數據的內容;
步驟1-2,對所提取內容進行去停用詞和索引處理;
步驟1-3,根據索引中詞的出現頻率對內容進行過濾,并生成相應的文檔矩陣和關鍵詞表。
某些情況下,一些常見詞在文檔和用戶需求進行匹配時價值并不大,需要徹底從詞匯表中去除,這類詞稱為停用詞。常用的生成停用詞表的方法就是將詞項按照在文檔集中出現的頻率從高到低排列,然后手工選擇那些語義內容與文檔主題關系不大的高頻詞作為停用詞。停用詞表中的每個詞將在索引過程中被忽略。使用停用詞表可以大大減小系統所需要存儲的倒排記錄表的數目。采用分詞器進行索引處理。
步驟2中,主題模型的建立方法為:
步驟2-1,從文檔矩陣中得到主題-詞矩陣;
步驟2-2,由關鍵詞表得到關鍵名詞鏈表,主題-詞矩陣及關鍵名詞鏈表構成主題模型。
其中,關鍵概念來自于關鍵名詞鏈表。主題模型通過詞項在文檔集的共現信息抽取出語義相關的主題集合,并能夠將詞項空間中的文檔變換到主題空間,得到文檔在低維空間中的表達。
步驟2-1中,得到主題-詞矩陣的步驟如下:
步驟2-11,讀取文檔矩陣,并通過預設的參數得到初始的主題模型,并從初始的主題模型得到抽樣的文檔集,其中預設的參數為文檔-主題分布的分布參數以及主題-詞分布的分布參數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310754874.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種碎石端可封閉的經皮腎鏡取石裝置
- 下一篇:自動護理鋸口的果樹修剪機





