[發明專利]一種新型實體指代消解的方法及其系統在審
| 申請號: | 201710255732.9 | 申請日: | 2017-04-19 |
| 公開(公告)號: | CN107168947A | 公開(公告)日: | 2017-09-15 |
| 發明(設計)人: | 林輝 | 申請(專利權)人: | 成都準星云學科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 成都環泰知識產權代理事務所(特殊普通合伙)51242 | 代理人: | 李斌,鄒翠 |
| 地址: | 610000 四川省成都市高*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 新型 實體 指代 消解 方法 及其 系統 | ||
技術領域
本發明涉及自然語言處理應用領域,具體涉及一種新型實體指代消解的方法及其系統。
背景技術
隨著人工智能的發展和自然語言處理技術的深化,漢語中指代消解是文本理解不可或缺的內容,也是自然語言處理應用領域的一個關鍵問題,指代消解在機器翻譯、信息抽取、自動文摘以及自動解題等領域中都有重要應用。指代消解有時也叫參照消解,其核心就是確定照應語與先行語之間的相互關系,從而明確照應詞指代的是什么對象;在自動解題中,可以發現,代詞的消解效果將直接影響著題目語義的理解程度。
而在現有的實體指代消解方法中,單純實體替代已經解決不了在自動解題中的一些問題,在解題推理中還需用到實體的一些性質、屬性,而這是傳統的指代消解方法滿足不了的。
由此可見,一種新的實體指代消解方法在人工智能及其相關的自動解題系統中有著至關重要的作用。
發明內容
基于此,針對上述問題,有必要提出一種新型實體指代消解的方法及其系統,其在針對自動解題系統自然語言處理方面,效果顯著;在指代消解過程中,融入了實體屬性的概念,讓指代消解過程帶著屬性;對于自然語言處理有著極大的推動作用。
為解決上述問題,本發明提供一種新型實體指代消解的方法,其技術方案如下:
一種新型實體指代消解的方法,包括以下步驟:
a、確定某一原始文本,并對該原始文本進行文本分詞操作;
b、判斷分詞是否成功,如果是,則進入步驟c;如果否,則重新進入步驟a;
c、對分詞成功的文本進行文本標注;
d、判斷標注后的文本是否存在實體指代問題,如果是,則進行實體替換操作,進入步驟e;如果否,則進入步驟f;
e、判斷實體替換操作是否成功,如果是,則進入步驟f;如果否,則重新進入步驟d;
f、獲取屬性齊全的實體,將需要替代的實體替換為新的屬性齊全的實體。
作為上述方案的進一步優化,所述步驟d和e中的實體替換操作具體包括以下步驟:
執行實體指代存操作,遍歷標注后的文本,找出文本中的實體,并將這些實體及其屬性分別存入對應的類中。
作為上述方案的更進一步優化,所述步驟d和e中的實體替換操作還包括以下步驟:
執行實體指代取操作,在實體指代存操作完成后,再次遍歷標注后的文本,獲取需要進行替代的實體,并從存儲的實體中找到與之對應的實體,將存儲實體的屬性賦值給該需要替代的實體。
在本發明中提到的指代、指代消解、分詞以及標注作出如下解釋:
指代,是指在文本中用一個指代詞回指某個之前提到過的實體,也成為照應語,所指的實體成為先行詞。
指代消解,確定照應語與先行詞之間的相互關系,從而明確照應語指代的是什么對象,確定指代語的先行詞的過程稱為指代消解過程。
分詞,給定一個字的序列,找出最可能的標簽序列,將數學文本按字逐行展開后,對于每個字進行位置標注,即表示該字在詞中的位置,例如:該字在詞的詞首、詞中間亦或是在詞尾的位置,相應的表示方法為B(開頭),M(中間),E(結尾),S(獨立成詞)。
標注,詞性是詞匯基本的語法屬性,通常也稱為詞類,標注是在給定文本中判定每個詞的語法范疇,確定其詞性并加以標注的過程,標注該詞的詞性,表示該詞是動詞、名詞或是其他的連接詞等等。
在本發明中,首先對選定的原始文本進行分詞,得到一組標簽序列;再對具有標簽的文本進行標注,確定其語法范疇;然后對需要替換的實體實施屬性替換,用屬性齊全的實體代替需要替換的實體;實現實體指代消解。其在指代消解過程中,融入了實體屬性的概念,讓指代消解過程帶著屬性,對于自然語言處理有著極大的推動作用;針對自動解題系統自然語言處理方面,效果顯著。
本發明還提供一種新型實體指代消解的系統,其技術方案如下:
一種新型實體指代消解的系統,包括文本分詞模塊、分詞判斷模塊、文本標注模塊、指代判斷模塊、實體替換模塊和替換完成模塊,其中:
文本分詞模塊,用于確定某一原始文本,并對該原始文本進行文本分詞操作;
分詞判斷模塊,判斷分詞是否成功,如果是,則跳轉到文本標注模塊,對文本進行標注;如果否,則重新對原始文本進行文本分詞操作;
文本標注模塊,用于對分詞成功的文本進行文本標注;
指代判斷模塊,判斷標注后的文本是否存在實體指代問題,如果是,則進行實體替換操作;如果否,則結束判斷,獲得屬性齊全的實體;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都準星云學科技有限公司,未經成都準星云學科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710255732.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種醫療文本數據的命名實體識別方法
- 下一篇:一種語句識別方法與系統





