[發明專利]一種文本集合中事件的重要度的計算方法無效
| 申請號: | 200910199576.4 | 申請日: | 2009-11-26 |
| 公開(公告)號: | CN101727437A | 公開(公告)日: | 2010-06-09 |
| 發明(設計)人: | 仲兆滿;劉宗田;周文;劉煒;付劍鋒 | 申請(專利權)人: | 上海大學 |
| 主分類號: | G06F17/21 | 分類號: | G06F17/21 |
| 代理公司: | 上海上大專利事務所(普通合伙) 31205 | 代理人: | 陸聰明 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 集合 事件 重要 計算方法 | ||
技術領域
本發明屬于語言文字信息處理領域,具體地說是涉及一種文本集合中事件的重要度的計算方法。
背景技術
大量研究成果表明,事件在許多文本中是客觀存在的,事件之間有著緊密的聯系,不同的事件在文本中有不同的重要度。計算文本集合中的事件重要度,是文本信息處理的基礎工作。基于文本中的重要事件,在自動問答領域,可以有針對性的抽取一些重要事件作為問題的答案;在自動文摘領域可以選擇包含重要事件的句子作為文摘的單位;在信息檢索領域,可以根據事件重要度的不同選擇一些事件作為查詢擴展的對象,事件重要度也可以作為擴展對象的權重設置的參考;在本體領域,可以為領域本體的構建推薦重要的事件,可以為領域本體的評價提供標準,等等。
計算文本集合中事件重要度的研究主要應用在自動文摘領域。普遍認為事件之間的關系是通過事件的要素而直接關聯的,表現在文本中就是事件的同一要素出現在不同的事件中。例如有文章報道,其題目為:Extractive?summarization?using?inter-and?intra-eventrelevance(該文作者是:W.J.Li,M.L.Wu,and?Q.Lu,發表于2006年出版的期刊:Proceedings?of?the?21st?International?Conference?on?Computational?Linguistics?andthe?44th?annual?meeting?of?the?ACL)和文章Event-centric?summary?generation(該文作者是:L.Vanderwende,M.Banko,and?A.Menezes,發表于2004年出版的期刊:Proceedingsof?the?DUC-2004?Workshop),該文公開了通過事件要素的關聯,建立事件關系圖,進而采用經典的PageRank算法計算事件的重要度的方法。已有方法存在的不足:(1)對每個事件提取其要素是一件非常困難的工作,目前的提取效果還是非常不理想的;(2)在很多情況下,事件間的關系并不是直接通過事件要素而關聯的;(3)使用經典的PageRank算法計算事件的重要度并不是很合適的選擇。因此,已有方法在文本集合中計算事件的重要度時難以自動實現,且準確率低。
發明內容
鑒于以上所述現有技術存在的問題和不足,本發明要解決的技術問題是提供一種文本集合中事件的重要度的計算方法,該方法可以自動實現、能夠提高文本集合中事件的重要度計算的準確率。
為了解決上述問題,本發明采用下述技術方案:
一種文本集合中事件的重要度的計算方法,其特征在于利用事件間相互的影響關系計算文本集合中事件的重要度,首先輸入文本集合,從文本集合中識別出所有的事件,由該所有事件組成事件集合E;其次根據一個事件的發生導致另一個事件發生的概率計算兩事件間的影響因子;接著依據兩兩事件間的影響因子構造事件影響因子矩陣;最后利用鏈接分析算法迭代計算事件影響因子矩陣中每個事件的重要度,具體步驟如下:
A、輸入文本集合,從文本集合中識別出事件集合E;
B、計算事件集合E中的事件間的影響因子;
C、構造事件影響因子矩陣;
D、計算事件集合E中每個事件的重要度。
上述步驟A中所述的從文本集合中得到事件集合E,其操作步驟如下:
A1、將文本集合經ICTCLAS分詞后,依據《漢語文本詞性標注標記集》選取所有的動詞(v)、名動詞(vn)構成候選事件集合E1;
A2、從候選事件集合E1中刪除主觀感知、猜想、闡述等類似動詞,得到候選事件集合E2;
A3、從候選事件集合E2中刪除一部分抽象意義高的動詞,并將與其一起出現的名詞(n)添加到候選事件集合E2,最后得到的候選事件集合E3,即為所述文本集合的事件集合E。
上述步驟B中所述的計算事件集合E中的事件間的影響因子,其事件ei對事件ej的影響因子的計算公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大學,未經上海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910199576.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電子運維流程的定制方法及系統
- 下一篇:數據庫的仿真測試方法和系統





