[發明專利]基于關鍵詞和動詞依存的中文實體關系抽取方法有效
| 申請號: | 201811124153.1 | 申請日: | 2018-09-26 |
| 公開(公告)號: | CN109241538B | 公開(公告)日: | 2022-12-20 |
| 發明(設計)人: | 許青青;謝赟;韓欣;卓建飛 | 申請(專利權)人: | 上海德拓信息技術股份有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/295;G06F40/211 |
| 代理公司: | 上海灣谷知識產權代理事務所(普通合伙) 31289 | 代理人: | 張恒 |
| 地址: | 200233 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 關鍵詞 動詞 依存 中文 實體 關系 抽取 方法 | ||
1.一種基于關鍵詞和動詞依存的中文實體關系抽取方法,其特征在于,包括:
對文本進行分詞,抽取關鍵詞,生成文本關鍵詞詞庫;
對文本分句,對各個單句分別進行分詞、詞性標注、命名實體識別和依存句法分析,獲得每個單句的分詞、詞性、命名實體和依存句法分析信息;
獲取各個單句中的動詞集合和實體集合;
單句中動詞和實體個數都大于0時,分析依存于動詞的詞項是否匹配關系句法規則,若匹配,獲得初始的實體關系三元組,再對實體關系三元組進行擴充;否則,進行該單句的下一個動詞匹配;
文本中所有單句執行關系抽取后,得到文本三元組集合;
抽取關鍵詞時,先根據詞性特征對分詞結果進行過濾,僅保留名詞性詞項作為候選關鍵詞,再計算候選關鍵詞的TF-IDF權值,最后將閾值大于設定閾值的詞輸入文本關鍵詞集合;其中,TF是指詞在文本中出現的次數,IDF是指逆文件頻率;
所述的實體集合由文本全局關鍵詞集合和命名實體構成;
所述的對實體關系三元組進行擴充,包括實體詞擴充、關系詞擴充和并列三元組擴充,具體為:
所述的實體詞擴充是將關鍵詞實體與其定語修飾詞合并;
所述的關系詞擴充包括添加否定狀語、添加非實體賓語;
所述的并列三元組擴充是當已獲取實體關系三元組中的實體存在并列實體時,將并列實體與該關系詞組成新的三元組。
2.根據權利要求1所述的基于關鍵詞和動詞依存的中文實體關系抽取方法,其特征在于,根據句號、感嘆號和問號對輸入的文本進行分句處理,獲得單句集合。
3.根據權利要求1所述的基于關鍵詞和動詞依存的中文實體關系抽取方法,其特征在于,所述的關系句法規則是根據句子依存句法結構,將動詞作為候選關系詞,分析句子中其他詞項與動詞的依存關系是否為主謂、動賓、介賓、動補關系,若句中存在兩個詞項與動詞間的依存關系為這些關系中的兩種,比如主謂和動賓,主謂和介賓等,且這兩個詞項都是實體,則可確定初始的實體關系三元組。
4.根據權利要求3所述的基于關鍵詞和動詞依存的中文實體關系抽取方法,其特征在于,所述的關系句法規則包括判斷類動詞的isA規則和其他動詞的非isA規則。
5.根據權利要求4所述的基于關鍵詞和動詞依存的中文實體關系抽取方法,其特征在于,
isA規則中,實體與關系詞有關的規則的句子結構表示為“Entity1 + Noun + is +Entity2”或“Entity2 + is + Entity1 +Noun”,實體關系三元組初步表示為(Entity1,Noun, Entity2);其中,Entity1和Entity2是句子中的實體對,一個實體與判斷類動詞為主謂關系或動賓關系,另一個實體與判斷類動詞無直接關系;Noun表示句子中的名詞,與判斷類動詞存在主謂關系或動賓關系,并且存在另一個實體與判斷類動詞無直接關系,但與該名詞是定中依存關系,用來修飾該名詞;
isA規則中,實體與關系詞無關的規則是指句子中存在一個實體與判斷類動詞為主謂關系,存在一個名詞與判斷類動詞為動賓關系,而實體與實體之間是并列關系,其句子結構可表示為“Entity1 + Conj + Entity2(++) + is +Noun”,關系三元組可初步表示為(Entity1, Noun, Entity2);其中,Entity1和Entity2是句子中的實體對,Entity2(++)表示可能存在一個或多個實體與Entity1并列,Noun是句子中的名詞。
6.根據權利要求5所述的基于關鍵詞和動詞依存的中文實體關系抽取方法,其特征在于,非isA規則包括動詞有主語規則以及動詞無主語規則;
動詞有主語規則包括主謂賓結構、主謂介賓結構、主謂補賓結構、前賓介賓結構和其他結構,具體包括:
所述主謂賓結構是指從某一動詞出發,根據依存句法,該動詞的主語和賓語存在,且都為實體,可以建成初始的實體關系三元組;
所述主謂介賓結構是指從某一動詞出發,根據依存句法,該動詞的主語存在且為實體,依存于該動詞的介詞有賓語且為實體,可以抽出初始的實體關系三元組;
所述主謂補賓結構是指從某一動詞出發,該動詞為不及物動詞,根據依存句法,該動詞存在主語且為實體,存在依存于動詞的補語,而補語有賓語且為實體,可構成初始的實體關系三元組;
所述前賓介賓結構是指從某一動詞出發,根據依存句法,存在依存于該動詞的前置賓語且為實體,存在依存于該動詞的介詞,而介詞有賓語且為實體,可形成初始的實體關系三元組;
所述其他結構是指從某一動詞出發,根據依存句法,該動詞的主語存在且為實體,存在依存于動詞的其他結構,該結構存在賓語且為實體,能夠構建出三元組關系;
動詞無主語規則包括動詞并列結構和句子無主語結構,具體包括:
所述動詞并列結構表示句子中存在一個詞項能夠與某個動詞直接建立動賓關系或間接建立介賓關系、補賓關系,且該詞項為實體,沒有能與該動詞建立主謂關系的詞項,但存在與該動詞并列的其他動詞,兩者主語一致,所以以其并列動詞的主語作為主語,可構建實體關系三元組;
所述句子無主語結構表示句子不存在主語,但存在一個詞項能與某個動詞直接建立動賓關系或間接建立介賓、補賓關系,且該詞項為實體,根據中文啟發式規則可追溯該句子的前一個句子,以前句核心動詞的主語作為該句的主語;在依存句法理論中,主張核心動詞是句子的中心成分,支配著其他成分,而一個句子可能存在多個動詞,每個動詞可能都存在主語,所以該規則只取前句的核心動詞的主語作為該句的主語。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海德拓信息技術股份有限公司,未經上海德拓信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811124153.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息處理方法及信息處理裝置
- 下一篇:機器學習人工智能翻譯數據庫的更新方法





