[發(fā)明專利]一種面向新聞標(biāo)題的人物關(guān)系抽取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201510965136.0 | 申請(qǐng)日: | 2015-12-21 |
| 公開(kāi)(公告)號(hào): | CN105608070B | 公開(kāi)(公告)日: | 2019-01-25 |
| 發(fā)明(設(shè)計(jì))人: | 柳廳文;亞靜;張浩亮;時(shí)金橋;趙佳鵬;閆旸;李全剛;張洋 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院信息工程研究所 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 北京君尚知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100093 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 新聞標(biāo)題 人物 關(guān)系 抽取 方法 | ||
1.一種面向新聞標(biāo)題的人物關(guān)系抽取方法,其特征在于,包括如下步驟:
1)尋找出新聞標(biāo)題中的關(guān)系指示詞,用以區(qū)分不同類別的人物關(guān)系;
2)根據(jù)人物與關(guān)系指示詞在新聞標(biāo)題中的位置特征,建立描述句子的句式模板;利用訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)每個(gè)模板的正/負(fù)例個(gè)數(shù),根據(jù)正負(fù)模板的比例判定新聞標(biāo)題中人物間關(guān)系的正確性;所述建立描述句子的句式模板,是根據(jù)句子中的表達(dá)人物關(guān)系的<主語(yǔ)S、謂語(yǔ)P、賓語(yǔ)O>三元組,得到描述句子的句式模版樹(shù);該句式模板樹(shù)的第一層僅考慮人物X與關(guān)系指示詞Y的位置關(guān)系,分為三類:YXX,XYX,XXY;第二層考慮除去X以外的人M對(duì)于關(guān)系判定的影響,對(duì)于第一層的各模板產(chǎn)生若干子模板;第三層考慮除去M、X、Y的字串@對(duì)于第二層模板的影響,進(jìn)一步產(chǎn)生若干子模板;然后用給定句子在句式模板樹(shù)上進(jìn)行匹配,選擇匹配到的模板中正/負(fù)比例最懸殊的模板,若選定模板的正例個(gè)數(shù)大于負(fù)例個(gè)數(shù),則關(guān)系正確,否則關(guān)系錯(cuò)誤;
3)從新聞標(biāo)題與人物屬性知識(shí)庫(kù)中提取特征,通過(guò)特征分類的方法并結(jié)合步驟2)得到的句式模板的正/負(fù)例個(gè)數(shù),判定給定的人物關(guān)系是否正確。
2.如權(quán)利要求1所述的方法,其特征在于,步驟1)在尋找關(guān)系指示詞之前進(jìn)行數(shù)據(jù)清洗,通過(guò)制定啟發(fā)式規(guī)則直接判定不符合條件的新聞標(biāo)題。
3.如權(quán)利要求2所述的方法,其特征在于,所述啟發(fā)式規(guī)則包括:
①如果新聞標(biāo)題中不存在給定關(guān)系的關(guān)系指示詞,則人物關(guān)系錯(cuò)誤;
②如果給定人物的名字+相鄰字為人名,則人物關(guān)系錯(cuò)誤;
③如果給定人物或者給定關(guān)系出現(xiàn)在書名號(hào)中,則人物關(guān)系錯(cuò)誤;
④如果“給定人物+各種親戚朋友”出現(xiàn)在句子中,則人物關(guān)系錯(cuò)誤。
4.如權(quán)利要求1所述的方法,其特征在于,步驟1)利用最小覆蓋的方法尋找出新聞標(biāo)題中的關(guān)系指示詞,其方法是:對(duì)于給定的某一種關(guān)系類型的數(shù)據(jù),記訓(xùn)練集為P={p1,p2,...,pn},其中pi為第i條文本標(biāo)題,i=1,2,…n;對(duì)P進(jìn)行分詞處理后獲取一個(gè)詞典數(shù)據(jù)W={w1,w2,...,wm},其中wi為詞典中第i個(gè)單詞,i=1,2,…m;關(guān)系類型的關(guān)系指示詞提取轉(zhuǎn)化為在詞典中尋找一個(gè)子集并滿足:S能夠覆蓋P,即P的每條語(yǔ)料pi中至少有一個(gè)單詞在S中出現(xiàn);將求解訓(xùn)練集P的最小覆蓋單詞集S作為關(guān)系指示詞。
5.如權(quán)利要求1所述的方法,其特征在于,步驟3)提取句子中人物的知識(shí)庫(kù)特征、關(guān)系指示詞特征、詞間距特征,作為候選特征,再利用信息增益選擇特征,最后利用決策樹(shù)判定人物關(guān)系是否正確。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院信息工程研究所,未經(jīng)中國(guó)科學(xué)院信息工程研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510965136.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 呈現(xiàn)人物關(guān)系的方法及裝置
- 一種人臉識(shí)別安防考勤系統(tǒng)
- 一種用于人物關(guān)系抽取的方法和裝置
- 基于移動(dòng)終端的人物識(shí)別提醒系統(tǒng)及方法
- 智能游戲人物識(shí)別裝置、系統(tǒng)及方法
- 一種多視頻的目標(biāo)搜索方法、裝置及設(shè)備
- 基于社交網(wǎng)絡(luò)大數(shù)據(jù)的人物畫像模型構(gòu)建方法
- 一種人數(shù)分析統(tǒng)計(jì)方法及系統(tǒng)
- 查找目標(biāo)人物的方法、裝置、終端和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 進(jìn)行人物聚類的方法、裝置、服務(wù)器和存儲(chǔ)介質(zhì)
- 關(guān)系視圖
- 位置關(guān)系檢測(cè)裝置以及位置關(guān)系檢測(cè)系統(tǒng)
- 關(guān)系建模
- 關(guān)系分析方法、關(guān)系分析程序、以及關(guān)系分析裝置
- 實(shí)體關(guān)系分類裝置和實(shí)體關(guān)系分類方法
- 用戶關(guān)系抽取方法和用戶關(guān)系抽取系統(tǒng)
- 融合依存關(guān)系與篇章修辭關(guān)系的事件時(shí)序關(guān)系識(shí)別方法
- 開(kāi)關(guān)系統(tǒng)
- 視頻視覺(jué)關(guān)系檢測(cè)的關(guān)系片段連接方法
- 開(kāi)關(guān)系統(tǒng)





