[發明專利]一種文本內的基于語義特征的人稱代詞指代消解方法有效
| 申請號: | 201310431571.6 | 申請日: | 2013-09-22 |
| 公開(公告)號: | CN104462053B | 公開(公告)日: | 2018-10-12 |
| 發明(設計)人: | 仲兆滿;姜劍;陳宗華;陳永江;喬磊 | 申請(專利權)人: | 江蘇金鴿網絡科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 連云港潤知專利代理事務所 32255 | 代理人: | 劉喜蓮 |
| 地址: | 222000 江蘇省連云港市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 基于 語義 特征 人稱 代詞 指代 消解 方法 | ||
1.一種文本內的基于語義特征的人稱代詞指代消解方法,其特征在于:首先識別文本中的人物;其次提取人物語義特征;再次選擇代詞的候選人物;最終計算代詞與候選人物的指代關系確定代詞的指代人物,其具體步驟如下:
A:人物識別:對文本進行預處理,所述預處理包括:分詞、命名實體識別、詞性標注;對處理后的文本,確定人物的人名及代詞在文本內中的位置;其操作步驟如下:
A1:對文本進行分詞處理,其中包括詞性標注;
A2:順序提取詞性標注為人名nr及代詞r的人物詞語,并確定人物詞語在文本中的位置;
B:語義特征提取:對識別出的人物根據其各自所在語句及段落信息,提取語義關聯詞,構建人名及代詞語義特征;其操作步驟如下:
B1:確定當前人物在文本中的有效關聯范圍;
B2:在人物有效關聯范圍內的字符串中,根據分詞結果,去停用詞,提取人物關聯詞,構建人物的語義特征;
C:候選人物選擇:針對人名及代詞的性別、單復數、距離進行過濾,為代詞選擇若干符合條件的候選人物;其操作步驟如下:
C1:判斷代詞的性別、單復數屬性;
C2:選擇代詞的先遣人物,判斷先遣人物的性別、單復數屬性及先遣人物與代詞的句子距離屬性;
C3:根據候選人物選擇規則,過濾不滿足條件的先遣人物;
其具體如下:
代詞候選人物,包括人名和已被消解的人稱代詞,并且在代詞的前部;利用人物的性別、單復數、距離相關屬性構建判斷規則,對出現在代詞前的人物進行過濾;
性別一致性S1:通過明顯的人物關聯性別特征詞來進行人名的性別識別;如果代詞與該人物的性別是一致的為1,有一項性別無法判斷的為0.5,兩項的性別不一致為0;
單復數一致性S2:單復數主要分為單數、復數和無單復數三類,對于那些無法判斷單復數屬性的待消解項就賦值為無單復數;比較代詞與候選先行詞的單復數,兩者單復數一致的話,為1;若有一方無單復數屬性則為0.5,不一致則為0;
距離屬性S3:該屬性值可能的值是0,1,2…為代詞與先遣人物間隔句子個數;考查代詞與先遣人物的句子距離,取值為它們所屬句子編號之差的絕對值;
判斷規則如下:
a.若S3>2,該人物不為當前代詞候選人物;
b.若S1或S2屬性詞均為0,該人物不為代詞的候選人物,排除;
D:指代關系計算:計算代詞與候選人物的語義特征相關度,結合語義特征相關度及兩者間的距離,確定代詞的指代人物;其操作步驟如下:
D1:計算代詞與每一個候選人物的語義特征相關度;
D2:根據相關度閾值及兩者間的距離屬性,確定代詞的指代人物;
指代關系計算具體如下:
(1)計算代詞與候選人物的語義特征相關度
如果計算得到的相關度大于閾值,則表示代詞與候選先行詞的語義聯系很緊密;而語義聯系最高者即為該代詞的最優指代結果;
利用知網作為語義特征相關度計算的工具,對于兩個人物R1和R2,如果R1有n個關聯詞:W11,W12,……,W1n,R2有m個關聯詞:W21,W22,……,W2m,R1和R2的相似度是各個概念的相似度之最大值:
(1)
計算人物關聯詞的相似度,取關聯詞相似度最大值為人物的語義特征相關度;
(2)指代關系確定規則
對于有多個候選先行詞的代詞,其候選先行詞選擇及過濾規則如下:
a)如果候選集中候選人物或代詞沒有關聯詞,這兩者的語義特征相關度默認為相關度閾值;
b)若候選集中只有一個候選人物,則該候選先行詞即為消解結果,不再進行語義判斷;
c)候選集中候選人物的關聯詞分別與代詞關聯詞計算相關度,取相關度大于閾值的候選人物中與代詞相關性最大的為代詞的指代消解結果;
d)如果有兩個候選人物與代詞的相關度相同,則取距離代詞最近的候選人物;如果候選人物與代詞的相關度均小于閾值,取距離代詞最近的候選人物為指代結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇金鴿網絡科技有限公司,未經江蘇金鴿網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310431571.6/1.html,轉載請聲明來源鉆瓜專利網。





