[發(fā)明專利]互聯(lián)網政治外交類新聞事件抽取方法有效
| 申請?zhí)枺?/td> | 201910937986.8 | 申請日: | 2019-09-28 |
| 公開(公告)號: | CN110941692B | 公開(公告)日: | 2022-07-29 |
| 發(fā)明(設計)人: | 崔瑩;代翔;孫濤;潘磊;丁洪麗 | 申請(專利權)人: | 西南電子技術研究所(中國電子科技集團公司第十研究所) |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F40/211;G06F40/289 |
| 代理公司: | 成飛(集團)公司專利中心 51121 | 代理人: | 郭純武 |
| 地址: | 610036 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 互聯(lián)網 政治 外交 新聞 事件 抽取 方法 | ||
1.一種互聯(lián)網政治外交類新聞事件抽取方法,其特征在于,包括如下步驟:
針對互聯(lián)網政治外交類新聞事件,采用人工構建初始觸發(fā)詞集合,根據觸發(fā)詞集合定義事件類別,針對每類事件構建觸發(fā)詞表和包含觸發(fā)詞、事件論元角色的事件類別模板;結合文本依存句法,分析、識別和抽取政外領域事件元素;文本預處理:按逗號、句號切分句子,對單篇文檔進行分詞、詞性標注,完成單文本預處理操作;文本預處理和事件觸發(fā)詞表擴展:根據觸發(fā)詞表,判斷句中是否包含觸發(fā)詞或與觸發(fā)詞相似的詞,計算句子中相似詞、動詞和觸發(fā)詞的相似度,并基于義原相似性計算并擴展類別事件觸發(fā)詞;事件句識別:篩選觸發(fā)詞相似度,設定滿足相似度的閾值,將滿足相似度的閾值的句子作為候選事件句,同時為事件句指定事件類別;根據事件類別模板內的論元角色約束篩選滿足事件類別模板的事件元素,即事件元素的識別,提取事件句中的實體要素,再按照事件模板將事件元素填充到對應的論元角色中;根據觸發(fā)詞,依存句法、上下文信息,篩選得到滿足類別模板的候選事件元素;完成事件元素識別后,針對非結構化文本類新聞數據進行結構化,按事件模板生成事件的結構化描述文件,構建出政外領域事件庫;在句法分析樹中找到觸發(fā)詞在句中的位置,判斷句中觸發(fā)詞個數是否大于1,若觸發(fā)詞個數大于1,則通過觸發(fā)詞表找到并列關系的詞,分別找到與每個觸發(fā)詞滿足動賓關系的賓語詞;若觸發(fā)詞個數小于1,則判斷是否存在與觸發(fā)詞滿足主謂關系的主語詞,滿足主謂關系,則將該詞保存為事件模板中的施事者,如果不滿足,則在句中分詞結果中選擇詞性為nr的詞作為事件模板中的施事者;然后進行賓語識別,判斷是否是特殊事件觸發(fā)詞,特殊觸發(fā)詞則按特殊事件給出賓語;若不是特殊觸發(fā)詞,則找到句法分析樹中與觸發(fā)詞滿足動賓關系的賓語詞;在句法分析樹中對該賓語循環(huán)向父節(jié)點方向進行判斷,判斷賓語是否有定中關系的定語詞,通過觸發(fā)詞找到并列關系的詞,并分別找到與每個觸發(fā)詞滿足動賓關系的賓語詞,如果不存在,則將該賓語保存為事件模板中的受事者;如果存在,則將定語與該定語拼接,如果此定中關系的父節(jié)點仍然是定中關系,則繼續(xù)對該賓語進行拼接,按元事件模板填充論元角色內容。
2.如權利要求1所述的互聯(lián)網政治外交類新聞事件抽取方法,其特征在于:當一句話中包含多個觸發(fā)詞時,則該多個觸發(fā)詞句屬于多事件句,對該事件句賦予多個事件類別。
3.如權利要求2所述的互聯(lián)網政治外交類新聞事件抽取方法,其特征在于:篩選觸發(fā)詞相似度滿足設定閾值的句子作為事件句,同時為事件句指定事件類別。
4.如權利要求3所述的互聯(lián)網政治外交類新聞事件抽取方法,其特征在于:事件句識別通過對句子進行分詞處理,將所有詞性為動詞的詞與觸發(fā)詞表進行比對,當句子中包含有觸發(fā)詞表中的某觸發(fā)詞時,將該句子 判定為事件句,同時根據觸發(fā)詞指定該事件句的事件類別。
5.如權利要求1所述的互聯(lián)網政治外交類新聞事件抽取方法,其特征在于:在事件元素識別中,提取事件句中的實體要素,根據事件類別模板內的論元角色約束,對事件句中的事件元素進行識別,再按照事件模板將事件元素填充到對應的論元角色中。
6.如權利要求1所述的互聯(lián)網政治外交類新聞事件抽取方法,其特征在于:根據新聞標題或正文內容利用句子的依存句法關系繪制事件依存句法分析圖,將是否包含觸發(fā)詞作為判斷是否是候選事件的標準,判斷句子中是否有觸發(fā)詞,有則歸類到相關候選類別中。
7.如權利要求1所述的互聯(lián)網政治外交類新聞事件抽取方法,其特征在于:利用知網詞語相似度計算標題文本中的詞語與類別觸發(fā)詞的相似度,其中,實詞的每一個概念是由一組義原描述式來定義的,這些義原描述式分為第一獨立義原描述式、其他獨立義原描述式、關系義原描述式和符號義原描述式,四部分,第一獨立義原之間的相似度通過義原在知網中義原,根據上下位關系所形成的樹中的距離來計算,公式為
其中,p1表示知網中義原,p2表示其它獨立義原,d是p1、p2在義原層次體系中的路徑長度,是一個正整數,α是一個可調節(jié)的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南電子技術研究所(中國電子科技集團公司第十研究所),未經西南電子技術研究所(中國電子科技集團公司第十研究所)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910937986.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種無飛邊一次鍛造成型的結構
- 下一篇:一種坐姿檢測方法及裝置
- 基于網絡電視的互聯(lián)網業(yè)務處理方法和系統(tǒng)
- 互聯(lián)網業(yè)務接入網關的實現方法和系統(tǒng)
- 一種互聯(lián)網電視終端安全訪問互聯(lián)網的方法
- 一種互聯(lián)網應用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網移動攝像終端進行異地圖像拍攝的系統(tǒng)
- 一種網絡電視終端安全訪問互聯(lián)網的方法
- 利用區(qū)塊鏈保護用于互聯(lián)網資源分配的事務
- 互聯(lián)網廣告裝置及方法
- 中央管理服務器的互聯(lián)網連接方法及系統(tǒng)
- 互聯(lián)網節(jié)點中信任傳播方法、系統(tǒng)及相關產品





