[發明專利]指代消解方法及裝置有效
| 申請號: | 202010469113.1 | 申請日: | 2020-05-28 |
| 公開(公告)號: | CN111626042B | 公開(公告)日: | 2023-07-21 |
| 發明(設計)人: | 李巧;伍文成;朱永強 | 申請(專利權)人: | 成都網安科技發展有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/253;G06F40/289 |
| 代理公司: | 成都極刻智慧知識產權代理事務所(普通合伙) 51310 | 代理人: | 唐維虎 |
| 地址: | 610000 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 指代 消解 方法 裝置 | ||
本申請實施例提供一種指代消解方法及裝置,通過確定每個訓練樣本對應的先行語候選集,并根據每個訓練樣本中的代詞類別,為先行語候選集中的每個元素構建特征向量,以用于反映照應語和先行語之間的語義關系,以便于有效發揮語義關系的優勢。然后,將先行語候選集中每個元素的特征向量和對應的訓練樣本的指代消解結果輸入最大熵模型進行訓練,從而可以采用訓練獲得的指代消解模型對語句進行指代消解。如此,能夠對照應語的上下文語義關系進行充分利用,從而便于后續有效識別先行語和照應語之間的語義關系,提高指代消解的準確率和召回率。
技術領域
本申請涉及計算機技術領域,具體而言,涉及一種指代消解方法及裝置。
背景技術
指代是指在語篇中用一個照應語回指某個之前提到過的語言單位,一般將指代語稱為照應語,指代的對象或內容稱為先行語。通常先行語可以在照應語之前,也可以在之后。例如,如果先行語可以在照應語之前,那么照應語與先行語之間的關系稱為照應關系;如果先行語可以在照應語之后,則稱為逆照應關系。
指代消解就是確定照應語與先行語的對應關系,相同的照應語也可以指代不同的先行語,確定照應語的先行語的過程就是指代消解的過程。
當前的指代消解方案,無法對照應語的上下文語義關系進行充分利用,導致難以有效識別先行語和照應語之間的語義關系,從而導致指代消解的準確率和召回率較低。
發明內容
基于現有設計的不足,本申請提供一種指代消解方法及裝置,能夠對照應語的上下文語義關系進行充分利用,從而便于后續有效識別先行語和照應語之間的語義關系,提高指代消解的準確率和召回率。
根據本申請的第一方面,提供一種指代消解方法,應用于計算機設備,所述方法包括:
獲取由多個訓練樣本以及每個訓練樣本對應的指代消解標簽構成的訓練樣本集,所述訓練樣本包括對具有指照應語和先行語的訓練分句進行預處理后得到的分句特征信息;
確定每個訓練樣本對應的先行語候選集,并根據每個訓練樣本中的代詞類別,為所述先行語候選集中的每個元素構建特征向量,其中,所述特征向量用于反映照應語和先行語之間的語義關系;
將所述先行語候選集中每個元素的特征向量和對應的訓練樣本的指代消解結果輸入最大熵模型進行訓練,得到指代消解模型,其中,所述指代消解模型用于對待指代消解的語句進行指代消解。
在第一方面的一種可能的實施方式中,所述獲取由多個訓練樣本以及每個訓練樣本對應的指代消解標簽構成的訓練樣本集的步驟,包括:
獲取待處理文本并對所述待處理文本進行分段,將分段獲得的多個分段文本進行分句,得到多個分句;
對每個分句進行分詞獲得分詞序列,并提取所述分詞序列的句法分析特征、詞性標注特征和命名實體識別特征,作為每個分句的訓練樣本;
獲取每個分句的訓練樣本對應的指代消解標簽,并將所述指代消解標簽關聯到對應分句的訓練樣本,以獲得訓練樣本集。
在第一方面的一種可能的實施方式中,所述根據每個訓練樣本中的代詞類別,為所述先行語候選集中的每個元素構建特征向量的步驟,包括:
針對每個訓練樣本,當該訓練樣本中的代詞類別為第三人稱代詞時,根據第三人稱代詞特征向量提取策略為所述先行語候選集中的每個元素構建第一特征向量;以及
當該訓練樣本中的代詞類別為指示代詞時,根據指示代詞特征向量提取策略為所述先行語候選集中的每個元素構建第二特征向量。
在第一方面的一種可能的實施方式中,根據第三人稱代詞特征向量提取策略為所述先行語候選集中的每個元素構建第一特征向量的步驟,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都網安科技發展有限公司,未經成都網安科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010469113.1/2.html,轉載請聲明來源鉆瓜專利網。





