[發(fā)明專利]指代消解方法及裝置有效
| 申請?zhí)枺?/td> | 202010469113.1 | 申請日: | 2020-05-28 |
| 公開(公告)號: | CN111626042B | 公開(公告)日: | 2023-07-21 |
| 發(fā)明(設計)人: | 李巧;伍文成;朱永強 | 申請(專利權)人: | 成都網(wǎng)安科技發(fā)展有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/253;G06F40/289 |
| 代理公司: | 成都極刻智慧知識產(chǎn)權代理事務所(普通合伙) 51310 | 代理人: | 唐維虎 |
| 地址: | 610000 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 指代 消解 方法 裝置 | ||
1.一種指代消解方法,其特征在于,應用于計算機設備,所述方法包括:
獲取由多個訓練樣本以及每個訓練樣本對應的指代消解標簽構成的訓練樣本集,所述訓練樣本包括對具有指照應語和先行語的訓練分句進行預處理后得到的分句特征信息;
確定每個訓練樣本對應的先行語候選集,并根據(jù)每個訓練樣本中的代詞類別,為所述先行語候選集中的每個元素構建特征向量,其中,所述特征向量用于反映照應語和先行語之間的語義關系;
將所述先行語候選集中每個元素的特征向量和對應的訓練樣本的指代消解結果輸入最大熵模型進行訓練,得到指代消解模型,其中,所述指代消解模型用于對待指代消解的語句進行指代消解;
其中,所述根據(jù)每個訓練樣本中的代詞類別,為所述先行語候選集中的每個元素構建特征向量的步驟,包括:
針對每個訓練樣本,當該訓練樣本中的代詞類別為第三人稱代詞時,根據(jù)第三人稱代詞特征向量提取策略為所述先行語候選集中的每個元素構建第一特征向量;以及
當該訓練樣本中的代詞類別為指示代詞時,根據(jù)指示代詞特征向量提取策略為所述先行語候選集中的每個元素構建第二特征向量;
其中,根據(jù)第三人稱代詞特征向量提取策略為所述先行語候選集中的每個元素構建第一特征向量的步驟,包括:
基于第一設定規(guī)則提取所述先行語候選集中的每個元素對應的第一規(guī)則特征向量,所述第一規(guī)則特征向量包括單復數(shù)一致特征向量、性別一致特征向量、詞頻特征向量、距離特征向量中的至少一種,其中,所述單復數(shù)一致特征向量用于表征先行語與對應的第三人稱代詞的單復數(shù)屬性一致性,所述性別一致特征向量用于表征在先行語與對應的第三人稱代詞都代指人的情況下的性別屬性一致性,所述詞頻特征向量用于表征在先行語的詞頻特征,所述距離特征向量用于表征先行語與對應的第三人稱代詞之間的距離特征;
提取所述先行語候選集中的每個元素對應的句法特征向量,其中,所述句法特征向量用于表征每個元素在對應的分句中的句法關系特征;以及
提取所述先行語候選集中的每個元素對應的相似性特征向量;
將所述第一規(guī)則特征向量、句法特征向量以及相似性特征向量構建為第一特征向量。
2.根據(jù)權利要求1所述的指代消解方法,其特征在于,所述獲取由多個訓練樣本以及每個訓練樣本對應的指代消解標簽構成的訓練樣本集的步驟,包括:
獲取待處理文本并對所述待處理文本進行分段,將分段獲得的多個分段文本進行分句,得到多個分句;
對每個分句進行分詞獲得分詞序列,并提取所述分詞序列的句法分析特征、詞性標注特征和命名實體識別特征,作為每個分句的訓練樣本;
獲取每個分句的訓練樣本對應的指代消解標簽,并將所述指代消解標簽關聯(lián)到對應分句的訓練樣本,以獲得訓練樣本集。
3.根據(jù)權利要求1所述的指代消解方法,其特征在于,提取所述先行語候選集中的每個元素對應的相似性特征向量的步驟,包括:
針對所述先行語候選集中的每個元素,獲取該元素的第三人稱代詞出現(xiàn)后的第一個動詞,作為第一動詞;
獲取在所述第三人稱代詞出現(xiàn)之前所有的動詞,作為第二動詞;
計算所述第一動詞和每個所述第二動詞之間的相似度,并將相似度值最高的動詞所對應的主語作為先行語;
若在所述先行語與對應的元素的先行語匹配,則確定該元素對應的相似性特征向量為第一預設特征向量,若在所述先行語與對應的元素的先行語不匹配,則確定該元素對應的相似性特征向量為第二預設特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都網(wǎng)安科技發(fā)展有限公司,未經(jīng)成都網(wǎng)安科技發(fā)展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010469113.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





