[發明專利]一種中文事件事實性識別方法和系統有效
| 申請號: | 201611170133.9 | 申請日: | 2016-12-16 |
| 公開(公告)號: | CN106844448B | 公開(公告)日: | 2020-05-15 |
| 發明(設計)人: | 何天雄;李培峰;朱曉旭;朱巧明;周國棟 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/35;G06F16/36 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 李陽 |
| 地址: | 215000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 事件 事實性 識別 方法 系統 | ||
1.一種中文事件事實性識別方法,其特征在于:用于識別中文事件的事實性,包括步驟:
S10、從預先標注了各類事實性信息的標注語料庫中抽取中文事件的事實性相關信息及其真實事實性構造基本的標注語料集合;從預先標注了各類事實性信息的測試語料庫中抽取中文事件的事實性相關信息構造基本的測試語料集合;
S20、在標注語料集合上,針對每個中文事件的事實性相關信息,使用基于規則的方法,進行特征的處理、轉化和融合,得到一系列事實性相關特征,再加入事件的真實事實性,構造出標注語料特征集合;
在測試語料集合上,針對每個中文事件的事實性相關信息,使用相同的基于規則的方法,進行特征的處理、轉化和融合,得到一系列事實性相關特征,構造出測試語料特征集合;
S30、根據標注語料特征集合中各個事件的特征,訓練一個最大熵事件事實性識別模型,再利用最大熵事件事實性識別模型識別測試語料特征集合中事件的事實性;
所述步驟S20的具體過程如下:
S201、事件句特征處理,選取每個事件所屬的事件句情態和時態信息作為特征,并以此構造語料特征集合;
在標注語料集合中,選取每個事件所屬的事件句的情態和時態信息作為事件句特征,并構造標注語料特征集合;
在測試語料集合中,選取每個事件所屬的事件句的情態和時態信息作為事件句特征,并構造測試語料特征集合;
S202、詞匯級特征處理,對每個事件的事件源、否定詞和程度詞進行詞性標注,進而選取此三者詞性作為詞匯級特征,并加入到語料特征集合中;
在標注語料集合中,使用詞性標注工具對事件源、否定詞和程度詞三類詞匯信息進行詞性標注,選取它們的詞性作為特征,若當前事件不存在以上某一詞匯,則默認其對應詞性特征為“無”,并將此三類信息加入到語料特征集合中;
在測試語料集合中,使用詞性標注工具對事件源、否定詞和程度詞三類詞匯信息進行詞性標注,選取它們的詞性作為特征,若當前事件不存在以上某一詞匯,則默認其對應詞性特征為“無”,并將此三類信息加入到語料特征集合中;
S203、謂詞級別特征處理,對每個事件的事件選擇謂詞的級別屬性進行規則轉化,進而獲取謂詞級別特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件按規則轉化其事件選擇謂詞的級別屬性,進而獲取謂詞級別特征;
在測試語料集合中,對每個事件按規則轉化其事件選擇謂詞的級別屬性,進而獲取謂詞級別特征;
S204、程度詞屬性特征處理,對每個事件的程度詞時態和級別進行特征轉化,獲取程度詞的時態特征和級別特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件的程度詞時態和級別按規則進行特征轉化,獲取程度詞的時態特征和級別特征,即程度詞屬性特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件的程度詞時態和級別按規則進行特征轉化,獲取程度詞的時態特征和級別特征,即程度詞屬性特征,并加入到語料特征集合中;
S205、級別特征處理,對每個事件的事件選擇謂詞的級別和程度詞的級別進行規則轉化,進而獲取級別特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件的事件選擇謂詞的級別和程度詞的級別按規則進行特征轉化,獲取級別特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件的事件選擇謂詞的級別和程度詞的級別按規則進行特征轉化,獲取級別特征,并加入到語料特征集合中;
S206、極性特征處理,依據每個事件的否定詞的個數對其進行特征處理,得到極性特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件進行極性特征處理,若否定詞個數為偶數,則極性特征為“正”,若為奇數,則極性特征為“負”,繼而獲取極性特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件進行極性特征處理,若否定詞個數為偶數,則極性特征為“正”,若為奇數,則極性特征為“負”,繼而獲取極性特征,并加入到語料特征集合中;
S207、時態特征處理,依據每個事件的所屬事件句時態和其包含時態的程度詞,進行規則轉化,獲取時態特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件的所屬事件句時態和包含時態的程度詞按照規則進行轉化,進而獲取時態特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件的所屬事件句時態和包含時態的程度詞按照規則進行轉化,進而獲取時態特征,并加入到語料特征集合中;
S208、事實性特征處理,在經過步驟S201~S207后,將獲取到的事件級別特征、極性特征和時態特征按照規則進行特征轉化,構造出事件事實性特征,并加入到語料特征集合中;
在標注語料集合中,對獲取到的事件級別特征、極性特征和時態特征的按照規則進行轉化,進而構造出事實性特征,并加入到語料特征集合中;
在測試語料集合中,對獲取到的事件級別特征、極性特征和時態特征的按照規則進行轉化,進而構造出事實性特征,并加入到語料特征集合中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611170133.9/1.html,轉載請聲明來源鉆瓜專利網。





