[發明專利]一種基于維基語義匹配的文檔分類方法及系統有效

申請號：	201610712106.3	申請日：	2016-08-23
公開（公告）號：	CN106372122B	公開（公告）日：	2018-04-10
發明（設計）人：	吳宗大;徐湖鵬	申請（專利權）人：	溫州大學甌江學院
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	武漢臻誠專利代理事務所(普通合伙)42233	代理人：	仲暉
地址：	325035 浙江省溫州市甌海經濟***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于語義匹配文檔分類方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明屬于互聯網技術領域，更具體地，涉及一種基于維基語義匹配的文檔分類方法及系統。

背景技術

隨著萬維網技術的發展，在線文本文檔數量的爆炸式增長急需高效文本分類算法，以方便用戶實現對在線文本文檔的快速導航和瀏覽。傳統的文本文檔分類方法采用的通常是“關鍵詞文本匹配技術”，其基本思想是：首先，將文本文檔表示成關鍵詞的加權出現頻度向量，然后，以關鍵詞向量相關度作為文本文檔之間的相似性度量；即文本文檔之間的相似度通過分析文本文檔之間的共同關鍵字進行度量。然而，關鍵詞文本匹配技術由于僅僅考慮了文本文檔關鍵詞的表面文本信息，而沒有考慮關鍵詞的背后語義信息，導致了諸多問題，如多義詞引發語義混淆、同義詞引發的內容失配等，從而嚴重制約了該項技術的有效性。為此，學者們提出了“維基語義匹配技術”，其基本思想是：利用維基百科豐富的語義概念作為中間參考空間，將文本文檔從關鍵字空間中的一個關鍵詞向量映射為維基參考空間中的一個概念向量(每個元素對應一個維基概念)，以獲取文本文檔背后所隱藏的語義信息。維基百科相比于其它知識本體具有以下優點：(1)寬廣的知識概念覆蓋范圍，易于為文本文檔確定相關的參考概念；(2)維基概念能夠及時有效更新，使得知識始終保持最新；(3)包含許多其它知識庫所沒有的最新詞匯。正是這些優點使得維基語義匹配技術能有效地解決關鍵字文本匹配技術所遇到的語義失配問題，從而提高了文本文檔相似度量的準確性。以下，我們通過一個具體例子來展示維基語義匹配相比于關鍵詞匹配的優越性。給定三個短文本文檔：

文本文檔一：“Puma,an American Feline Resembling a Lion(美洲豹，一種類似獅子的美洲貓科動物)”

文本文檔二：“Puma,a Famous Sports Brand from German(彪馬，來自于德國的一個著名運動品牌)”

文本文檔三：“Zoo,the Animal World(動物園，動物世界)”

由于多義詞引發的語義混淆問題，關鍵字匹配技術會認為文本文檔一和文本文檔二間的相似性要高于文本文檔一和文本文檔三間的相似性，因為文本文檔一和文本文檔三均蘊含同一關鍵詞Puma。在維基匹配技術中，利用關鍵詞匹配技術，三個文本文檔首先會被映射為維基參考空間中三個概念向量。由于文本文檔一中存在Feline和Lion等關鍵詞，因此與動物相關的維基概念將在文本文檔一的概念向量中擁有較高的相應元素值。而這些維基概念在文本文檔三的概念向量中也將同樣擁有較高的元素值，但在文本文檔二向量中卻擁有較低的元素值,因為文本文檔二不包含動物相關詞。所以，基于概念向量進行文本文檔相似性度量的維基語義匹配技術得出結論：相比于文本文檔二，文本文檔三與文本文檔一擁有更高的相似性。可以看出，維基匹配技術利用維基語義知識來分析文本文檔文本背后所蘊含的語義信息，較好地解決了關鍵字匹配技術所遇到的語義失配問題，從而提高了文本文檔相似性度量的準確性，進而提高了文本文檔分類性能。此外，許多研究成果也驗證了維基語義匹配的有效性。

然而，由于維基百科包含非常多概念文章,數量在千萬級別，因而在文本文檔的概念向量映射時，需要進行大量的全文關鍵詞匹配操作，極大地影響了維基語義匹配技術的執行性能，從而嚴重制約了它在在線文本文檔分類應用環境中的實際效用。為了提高計算效率，一種直接的做法是從維基百科中挑選出一小部分概念組建一個小規模的維基參考空間，以減少全文關鍵詞匹配操作的次數。例如，文獻提出使用1000個覆蓋各種主題的“特征概念”組建維基參考空間。然而，這種策略會極大地制約參考空間的知識語義覆蓋范圍，使得許多待分類文本文檔難以在參考空間里找到相關參考概念，導致文本文檔概念向量的元素值均為零，從而降低了文本文檔相似度量的準確性。實際上，如果僅使用維基百科的部分知識概念，那么維基百科的許多優點尤其是擁有寬廣的知識覆蓋范圍,也將不復存在。總而言之，維基語義匹配技術存在以下矛盾：一方面，若為了提高計算效率，而如果挑選較少的維基概念組建參考空間，則又難以保證語義知識覆蓋范圍，從而影響文本文檔相似性度量的準確性；另一方面，若為了確保知識覆蓋范圍，以提高相似度量性能，而挑選較多的維基概念組建參考空間，則又將嚴重降低文本文檔分類的執行效率。

發明內容

為了克服維基語義匹配方法所面臨的有效性和高效性之間的矛盾，本發明提供了一種基于維基語義匹配的文檔分類方法及系統，其目的在于通過結合關鍵詞和維基語義匹配，高效地計算文檔之間的相似性從而對文檔進行分類，由此解決現有文檔分類技術效率低或者不準確的技術問題。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于溫州大學甌江學院，未經溫州大學甌江學院許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201610712106.3/2.html，轉載請聲明來源鉆瓜專利網。