[發明專利]一種面向開放域的事件抽取系統及方法在審
| 申請號: | 201710075116.5 | 申請日: | 2017-02-13 |
| 公開(公告)號: | CN106951438A | 公開(公告)日: | 2017-07-14 |
| 發明(設計)人: | 張永強;巢文涵;李舟軍 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京科迪生專利代理有限責任公司11251 | 代理人: | 楊學明,顧煒 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 開放 事件 抽取 系統 方法 | ||
技術領域
本發明涉及一種面向開放域的事件抽取系統及方法,屬于自然語言處理技術領域。
背景技術
隨著互聯網的快速發展,互聯網上的資源呈現了爆炸式的增長。在這些資源中,新聞資訊占據了重要的一塊,人們獲取新聞資訊的途徑得到了極大的擴展,但是,面對如此多的資訊,怎樣才能讓人們快速地獲取感興趣的內容,這已經成為了研究者需要面對的首要問題。在這樣的需求指引下,研究者投入了大量的精力到信息抽取中。
信息抽取(Information Extraction)是指從非結構化來源中自動地抽取出結構化的信息,這些信息可以是實體、實體關系、實體屬性等。事件抽取(Event Extraction)是一種更復雜的信息抽取形式,它能夠提供更高層次的內容處理抽象能力。事件通常是指某個特定的時間片段和地域范圍內發生的,由一個或者多個角色參與,由一個或者多個動作組成的一件事情。事件抽取就是指從非結構化的信息中抽取用戶感興趣的事件,并以結構化的形式呈現給用戶。
現有的事件抽取技術主要針對一些具體的特定的領域,設計和領域相關的特征進行事件抽取,因此也就表現出了較強的領域相關特性。將這些方法利用到其它領域的時候,往往也就表現出了領域不適應現象,即事件抽取效果相對原領域表現較差。
發明內容
本發明技術解決問題:針對任意的領域的新聞資訊,提供一種開放域的事件抽取系統及方法,對于互聯網上發布的新聞資訊,利用自然語言處理、深度學習相關技術,對資訊進行結構化的事件信息抽取,為高效獲取新聞內容,資訊新聞聚合智能分析提供了基礎。
本發明技術解決方案:一種面向開放域的事件抽取系統,包括:預處理模塊、觸發詞識別模塊、事件參數識別模塊、事件圖譜分析模塊和事件抽取展示模塊;其中:
預處理模塊:對網絡爬蟲從互聯網上獲取到的原始文本數據進行預處理,預處理工作包括去除網頁的原始文本數據中的冗余標簽,提取網頁的原始文本數據的正文內容,對正文內容進行分段、分句、分詞、詞性標注,然后對得到的數據建立索引,形成索引庫和網頁內容數據庫;
觸發詞識別模塊:以用戶輸入的關鍵詞在索引庫中進行檢索,得到與用戶輸入的關鍵詞相關的數據,然后將得到的數據進行觸發詞識別;觸發詞識別基于卷積神經網絡模型,卷積神經網絡模型針對預處理之后得到的原始文本數據,將文本內容中的詞的詞向量、位置特征轉化為矩陣,然后通過卷積、池化操作進行特征學習,最后通過softmax分類器進行分類,判斷當前詞語是否是觸發詞;經過觸發詞識別后,將得到的觸發詞輸入到事件圖譜分析模塊;
事件參數識別模塊:基于用戶端輸入的關鍵詞在索引庫中檢索得到和用戶輸入關鍵詞相關的數據,然后對這些數據進行實體識別,對實體識別得到實體構建超圖,然后對所述超圖進行分割,得到和觸發詞相關的實體,從而得到一個事件中所涉及到的實體,也就得到了事件相關參數,從而完成了事件參數識別;事件參數識別后,將得到的事件參數識別結果輸入到事件圖譜分析模塊;
事件圖譜分析模塊:對觸發詞識別模塊和事件參數識別模塊得到的觸發詞和事件參數識別結果,進行實體和事件的泛化分析,將同類事件進行融合,最后將融合后的所有事件信息輸入到事件抽取展示模塊;
事件抽取展示模塊:將事件圖譜分析模塊的所有事件信息進行可視化展現,可視化展現使用關系圖對事件信息進行表示,用戶通過關系圖直接獲取和輸入關鍵詞相關的事件信息。
所述事件參數識別模塊中,構建超圖過程為:
(1)將觸發詞和候選事件元素分別作為超圖中的節點;
(2)將所述節點和候選事件元素通過超邊進行連接;
(3)計算超邊權重,計算時選擇的特征包括:觸發詞與實體之間的句法路徑長度;觸發詞與實體的相對位置;觸發詞與實體之間的標點符號數;觸發詞與實體之間的實體個數;觸發詞與實體之間的非實體個數。
所述事件圖譜構建模塊中,泛化的過程為:對于抽取出的兩個事件,如果它們具有完全一樣的實體,則認為這兩個事件是同一個事件,合并事件的觸發詞用兩個事件觸發詞的并集來表示;對于兩個事件多元組,如果只存在一個實體不同,其它的元素完全一樣,則認為這兩個實體是同樣的實體,新的表示用實體并集表示;如果兩個事件,存在大于一個相同的實體,則認為兩個事件之間存在關系,通過泛化之后得到同類事件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710075116.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:吸液裝置
- 下一篇:基于DCS控制系統的自動投料裝置





