[發明專利]指代消解方法和裝置、電子設備及存儲介質有效
| 申請號: | 201910905211.2 | 申請日: | 2019-09-24 |
| 公開(公告)號: | CN110674630B | 公開(公告)日: | 2023-03-21 |
| 發明(設計)人: | 薛小娜 | 申請(專利權)人: | 北京明略軟件系統有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/253 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 許書音 |
| 地址: | 100000 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 指代 消解 方法 裝置 電子設備 存儲 介質 | ||
本申請實施例提供的指代消解方法和裝置、電子設備及存儲介質,涉及指代消解技術領域。在本申請實施例中,首先,對待處理的文本進行文本分解和零指代消解處理,得到該文本的簡單句子集合。然后,針對每個簡單句子中包括的每個代詞,對所述簡單句子中該代詞之前的人稱的特征和該代詞的特征進行比較得到該代詞對應的候選人稱。其次,計算該代詞與對應的候選人稱之間的相關度,以進行代詞消解。通過上述方法,可以提高指代消解的準確度。
技術領域
本申請涉及指代消解技術領域,具體而言,涉及一種指代消解方法和裝置、電子設備及存儲介質。
背景技術
代詞指代在自然語言中非常常見,盡管這種現象簡化了表達,但其給機器理解帶來了巨大的挑戰。在信息抽取領域,人們關心的實體以及不同實體之間的關系往往散布于文本的不同位置,而且這些涉及到的實體有許多不同的表達方式,為了最大化利用文本信息(即從文中抽取更多的準確的、完整的相關信息),必須對文本進行指代消解。
目前指代消解在問答系統、機器翻譯等方面也起著至關重要的作用。為了更加方便和準確的給其它任務(如關系抽取、實體鏈接、個人標簽設置等場景)使用,需要對文本數據進行處理,把文本中的人稱代詞盡可能地進行消解。
但是,經發明人研究發現,在現有技術中,直接對待處理的文本進行代詞消解,從而存在著指代消解的準確度并不高的問題。
發明內容
有鑒于此,本申請的目的在于提供一種指代消解方法和裝置、電子設備及存儲介質,以改善現有技術中存在的問題。
為實現上述目的,本申請實施例采用如下技術方案:
一種指代消解方法,包括:
對待處理的文本進行文本分解和零指代消解處理,得到該文本的簡單句子集合;
針對每個簡單句子中包括的每個代詞,對所述簡單句子中該代詞之前的人稱的特征和該代詞的特征進行比較得到該代詞對應的候選人稱;
計算該代詞與對應的候選人稱之間的相關度,以進行代詞消解。
在本申請實施例較佳的選擇中,所述對待處理的文本進行文本分解和零指代消解處理,得到該文本的簡單句子集合的步驟,包括:
檢測所述待處理的文本中的標點符號,根據檢測得到的標點符號將所述待處理的文本切分為多個短句,并對每個所述短句進行依存分析,得到對應的依存句法結構數據;
根據各所述短句對應的依存句法結構數據進行零指代消解,得到包括多個簡單句子的簡單句子集合。
在本申請實施例較佳的選擇中,所述根據各所述短句對應的依存句法結構數據進行零指代消解,得到包括多個簡單句子的簡單句子集合的步驟,包括:
根據所述依存句法結構數據獲取所述多個短句中第一個元素的主謂關系節點作為基礎節點,并判斷所述多個短句中的其他元素是否存在主謂關系節點;
若其他元素存在主謂關系節點,則將該元素的主謂關系節點作為基礎節點;
若其他元素不存在主謂關系節點,則將所述基礎節點作為該元素的主謂關系節點,以得到替換后的多個簡單句子。
在本申請實施例較佳的選擇中,所述針對每個簡單句子中包括的每個代詞,對所述簡單句子中該代詞之前的人稱的特征和該代詞的特征進行比較得到該代詞對應的候選人稱的步驟,包括:
根據該簡單句子集合包括的每個簡單句子的依存句法結構數據獲取人名列表,并根據該人名列表建立對應的代詞列表;
根據所述代詞列表獲取所述代詞之前的人稱的代詞特征和所述代詞的代詞特征;
分別對所述簡單句子中所述代詞之前的人稱和所述代詞的代詞特征、單復數特征和性別特征進行比較得到所述代詞對應的候選人稱。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略軟件系統有限公司,未經北京明略軟件系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910905211.2/2.html,轉載請聲明來源鉆瓜專利網。





