[發(fā)明專利]一種文本內(nèi)的基于語義特征的人稱代詞指代消解方法有效
| 申請(qǐng)?zhí)枺?/td> | 201310431571.6 | 申請(qǐng)日: | 2013-09-22 |
| 公開(公告)號(hào): | CN104462053B | 公開(公告)日: | 2018-10-12 |
| 發(fā)明(設(shè)計(jì))人: | 仲兆滿;姜?jiǎng)?/a>;陳宗華;陳永江;喬磊 | 申請(qǐng)(專利權(quán))人: | 江蘇金鴿網(wǎng)絡(luò)科技有限公司 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 連云港潤知專利代理事務(wù)所 32255 | 代理人: | 劉喜蓮 |
| 地址: | 222000 江蘇省連云港市*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 基于 語義 特征 人稱 代詞 指代 消解 方法 | ||
1.一種文本內(nèi)的基于語義特征的人稱代詞指代消解方法,其特征在于:首先識(shí)別文本中的人物;其次提取人物語義特征;再次選擇代詞的候選人物;最終計(jì)算代詞與候選人物的指代關(guān)系確定代詞的指代人物,其具體步驟如下:
A:人物識(shí)別:對(duì)文本進(jìn)行預(yù)處理,所述預(yù)處理包括:分詞、命名實(shí)體識(shí)別、詞性標(biāo)注;對(duì)處理后的文本,確定人物的人名及代詞在文本內(nèi)中的位置;其操作步驟如下:
A1:對(duì)文本進(jìn)行分詞處理,其中包括詞性標(biāo)注;
A2:順序提取詞性標(biāo)注為人名nr及代詞r的人物詞語,并確定人物詞語在文本中的位置;
B:語義特征提取:對(duì)識(shí)別出的人物根據(jù)其各自所在語句及段落信息,提取語義關(guān)聯(lián)詞,構(gòu)建人名及代詞語義特征;其操作步驟如下:
B1:確定當(dāng)前人物在文本中的有效關(guān)聯(lián)范圍;
B2:在人物有效關(guān)聯(lián)范圍內(nèi)的字符串中,根據(jù)分詞結(jié)果,去停用詞,提取人物關(guān)聯(lián)詞,構(gòu)建人物的語義特征;
C:候選人物選擇:針對(duì)人名及代詞的性別、單復(fù)數(shù)、距離進(jìn)行過濾,為代詞選擇若干符合條件的候選人物;其操作步驟如下:
C1:判斷代詞的性別、單復(fù)數(shù)屬性;
C2:選擇代詞的先遣人物,判斷先遣人物的性別、單復(fù)數(shù)屬性及先遣人物與代詞的句子距離屬性;
C3:根據(jù)候選人物選擇規(guī)則,過濾不滿足條件的先遣人物;
其具體如下:
代詞候選人物,包括人名和已被消解的人稱代詞,并且在代詞的前部;利用人物的性別、單復(fù)數(shù)、距離相關(guān)屬性構(gòu)建判斷規(guī)則,對(duì)出現(xiàn)在代詞前的人物進(jìn)行過濾;
性別一致性S1:通過明顯的人物關(guān)聯(lián)性別特征詞來進(jìn)行人名的性別識(shí)別;如果代詞與該人物的性別是一致的為1,有一項(xiàng)性別無法判斷的為0.5,兩項(xiàng)的性別不一致為0;
單復(fù)數(shù)一致性S2:單復(fù)數(shù)主要分為單數(shù)、復(fù)數(shù)和無單復(fù)數(shù)三類,對(duì)于那些無法判斷單復(fù)數(shù)屬性的待消解項(xiàng)就賦值為無單復(fù)數(shù);比較代詞與候選先行詞的單復(fù)數(shù),兩者單復(fù)數(shù)一致的話,為1;若有一方無單復(fù)數(shù)屬性則為0.5,不一致則為0;
距離屬性S3:該屬性值可能的值是0,1,2…為代詞與先遣人物間隔句子個(gè)數(shù);考查代詞與先遣人物的句子距離,取值為它們所屬句子編號(hào)之差的絕對(duì)值;
判斷規(guī)則如下:
a.若S3>2,該人物不為當(dāng)前代詞候選人物;
b.若S1或S2屬性詞均為0,該人物不為代詞的候選人物,排除;
D:指代關(guān)系計(jì)算:計(jì)算代詞與候選人物的語義特征相關(guān)度,結(jié)合語義特征相關(guān)度及兩者間的距離,確定代詞的指代人物;其操作步驟如下:
D1:計(jì)算代詞與每一個(gè)候選人物的語義特征相關(guān)度;
D2:根據(jù)相關(guān)度閾值及兩者間的距離屬性,確定代詞的指代人物;
指代關(guān)系計(jì)算具體如下:
(1)計(jì)算代詞與候選人物的語義特征相關(guān)度
如果計(jì)算得到的相關(guān)度大于閾值,則表示代詞與候選先行詞的語義聯(lián)系很緊密;而語義聯(lián)系最高者即為該代詞的最優(yōu)指代結(jié)果;
利用知網(wǎng)作為語義特征相關(guān)度計(jì)算的工具,對(duì)于兩個(gè)人物R1和R2,如果R1有n個(gè)關(guān)聯(lián)詞:W11,W12,……,W1n,R2有m個(gè)關(guān)聯(lián)詞:W21,W22,……,W2m,R1和R2的相似度是各個(gè)概念的相似度之最大值:
(1)
計(jì)算人物關(guān)聯(lián)詞的相似度,取關(guān)聯(lián)詞相似度最大值為人物的語義特征相關(guān)度;
(2)指代關(guān)系確定規(guī)則
對(duì)于有多個(gè)候選先行詞的代詞,其候選先行詞選擇及過濾規(guī)則如下:
a)如果候選集中候選人物或代詞沒有關(guān)聯(lián)詞,這兩者的語義特征相關(guān)度默認(rèn)為相關(guān)度閾值;
b)若候選集中只有一個(gè)候選人物,則該候選先行詞即為消解結(jié)果,不再進(jìn)行語義判斷;
c)候選集中候選人物的關(guān)聯(lián)詞分別與代詞關(guān)聯(lián)詞計(jì)算相關(guān)度,取相關(guān)度大于閾值的候選人物中與代詞相關(guān)性最大的為代詞的指代消解結(jié)果;
d)如果有兩個(gè)候選人物與代詞的相關(guān)度相同,則取距離代詞最近的候選人物;如果候選人物與代詞的相關(guān)度均小于閾值,取距離代詞最近的候選人物為指代結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇金鴿網(wǎng)絡(luò)科技有限公司,未經(jīng)江蘇金鴿網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310431571.6/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語義表征和語義計(jì)算的信號(hào)語義識(shí)別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





