[發明專利]一種基于實體突發特征的文本表示方法在審
| 申請號: | 201810095748.2 | 申請日: | 2018-01-31 |
| 公開(公告)號: | CN108228570A | 公開(公告)日: | 2018-06-29 |
| 發明(設計)人: | 馬樂榮;高興慧 | 申請(專利權)人: | 延安大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 羅磊 |
| 地址: | 716000 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 突發特征 文檔 文本表示 文檔表示 時序 語義 表示模型 分類系統 建模實體 目標實體 時間信息 特征表示 向量表示 語義信息 分類 線索 融入 | ||
本發明公開的一種基于實體突發特征的文本表示方法,包括提出了一種基于實體突發特征的文檔表示模型,稱為Entity Burst based Document Representation(EBDR),用于實體?文檔相關性分類任務。EBDR將時間信息和語義信息同時融入到實體?文檔的特征表示中。使用這種表示模型將實體?文檔對作為向量表示,然后利用Logistic Regression進行分類。本發明一種基于實體突發特征的文本表示方法,以目標實體的突發特征為線索,提出一種新的實體?文檔表示模型,該模型從時序和語義兩個方面建模實體?文檔的特征,以此來提高實體?文檔相關性分類系統的性能。
技術領域
本發明屬于知識工程、信息檢索和文本分類技術領域,具體涉及一種基于實體突發特征的文本表示方法。
背景技術
隨著互聯網的快速發展,特別是以移動互聯網為基礎的各種社交網絡、即時通訊平臺在人們日常生活中的普及,大量用戶生成的數據隨之而來,這些大數據具有巨大的科研、商業應用價值,蘊含了大量的人類碎片化知識。因此,從這些用戶生成的大數據中檢索并更新知識庫中目標實體的內容,對以知識庫為基礎的其它應用來說是具有重要意義的。如查詢擴展、實體鏈接、問答系統和實體檢索等應用。對于這些應用的性能和準確性而言,維護知識庫的時效性是非常至關重要的。當知識庫中關于現存文章主題的狀態、行為或境況的即時信息一旦出現,知識庫就應該更新其對應的內容。知識庫中的實體可以是人、實施、機構或概念等;實體的即時信息為“新奇”信息。
考慮到新實體隨時可能出現,以及由用戶生成的網絡文本大數據相當巨大,因此,要保持百科知識庫內容的時效性面臨很大的理論和技術挑戰。為了緩解或解決這個挑戰,2012年,國際文本檢索大會(TREC)啟動了知識庫加速-累積文檔推薦(KBA-CCR)。累積文檔推薦(CCR)的任務旨在從文本大數據流中發現包含目標實體重要信息高度相關的文檔并作為目標實體的文檔。在以前的研究中,實體的突發活動已被證明能有效地挖掘其潛在的候選引用。目標實體突發活動最直觀的想法是:當目標實體發生了重要事件時,人們通過知識庫搜索實體的查詢數量將急劇上升。如圖1所示,在2011年10月1日至2011年12月31日期間,道格拉斯·卡斯韋爾實體在維基百科知識庫中被用戶搜索數量的統計。從圖1中可以看出該實體有兩個顯而易見的突發時期。第一次爆發的時期是道格拉斯·卡斯韋爾對關于英國脫歐的辯論演講,第二次是道格拉斯·卡斯韋爾提出英國與全世界國家貿易的問題,而不僅僅是與歐盟的貿易。
在先前的累積文檔推薦(CCR)工作中,實體的突發特征通常作為實體-文檔相關性分類的語義特征補充。在這些工作中,只是簡單的統計目標實體在知識庫中的查詢量或者在某個時間段提及目標實體的文檔數,沒有充分挖掘目標實體突發特征在文檔推薦中的作用。此外,CCR被視為分類任務,相對于知識庫中的目標實體,文檔被分為相關或不相關兩類。對于分類任務,需要將文檔表示為固定長度的向量。經典的文本表示方法,如詞袋模型中的向量每一個維度對應一個詞項,其權重由TF-IDF來確定,無法處理文檔中的時間信息。另一個是文本表示的可擴展性問題,當文本大數據流中的文檔數量增加時,流語料庫生成的詞匯量可能會非常大,因此需要大量的時間和空間來處理文本大數據流,這在實際的應用系統中幾乎無法實現。
發明內容
本發明的目的在于提供一種基于實體突發特征的文本表示方法,來提高實體-文檔相關性分類系統的性能。
本發明所采用的技術方案是:一種基于實體突發特征的文本表示方法,包括下列步驟:
步驟1:建立基于實體突發特征的文本表示向量;
步驟2:抽取實體-文檔對的語義特征并將其融入到步驟1中得到的文本表示向量中;
步驟3:建立實體-文檔的Logistic Regression分類模型并給定實體-文檔訓練集,利用步驟2中得到的文本表示向量學習Logistic Regression實體-文檔分類模型,之后對實體-文檔測試集數據進行分類。
本發明的特點還在于,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于延安大學,未經延安大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810095748.2/2.html,轉載請聲明來源鉆瓜專利網。





