[發(fā)明專利]一種面向新聞標(biāo)題的人物關(guān)系抽取方法有效
| 申請?zhí)枺?/td> | 201510965136.0 | 申請日: | 2015-12-21 |
| 公開(公告)號: | CN105608070B | 公開(公告)日: | 2019-01-25 |
| 發(fā)明(設(shè)計)人: | 柳廳文;亞靜;張浩亮;時金橋;趙佳鵬;閆旸;李全剛;張洋 | 申請(專利權(quán))人: | 中國科學(xué)院信息工程研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京君尚知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 新聞標(biāo)題 人物 關(guān)系 抽取 方法 | ||
本發(fā)明涉及一種面向新聞標(biāo)題的人物關(guān)系抽取方法,其步驟包括:1)尋找出新聞標(biāo)題中的關(guān)系指示詞,用以區(qū)分不同類別的人物關(guān)系;2)根據(jù)人物與關(guān)系指示詞在新聞標(biāo)題中的位置特征,建立描述句子的句式模板;利用訓(xùn)練數(shù)據(jù)統(tǒng)計每個模板的正/負(fù)例個數(shù),根據(jù)正負(fù)模板的比例判定新聞標(biāo)題中人物間關(guān)系的正確性;3)從新聞標(biāo)題與人物屬性知識庫中提取特征,通過特征分類的方法并結(jié)合步驟2)得到的句式模板的正/負(fù)例個數(shù),判定給定的人物關(guān)系是否正確。本發(fā)明在保證準(zhǔn)確率的同時,降低了特征維度,提高了判定效率,可用于挖掘新聞標(biāo)題中的人物關(guān)系,進(jìn)而發(fā)現(xiàn)社會中的焦點人物、熱點事件等,便于及時掌握社會動態(tài),監(jiān)控輿情。
技術(shù)領(lǐng)域
本發(fā)明屬于信息技術(shù)領(lǐng)域,具體涉及一種面向新聞標(biāo)題的人物關(guān)系抽取方法。
背景技術(shù)
人物關(guān)系抽取是實體關(guān)系抽取的重要分支。實體關(guān)系是指實體之間存在的語義聯(lián)系。Automatic Content Extraction(ACE)會議將實體關(guān)系抽取定義為:根據(jù)預(yù)先給定的實體關(guān)系類型,判定實體之間是否存在語義關(guān)系或是否屬于給定的關(guān)系類型。人物關(guān)系抽取將實體關(guān)系抽取中的實體限定為人物,關(guān)系類型限定為人物之間的關(guān)系進(jìn)行抽取,目前人物關(guān)系抽取的主要方法包括:模式匹配、語義分析、特征分類等。
模式匹配的方法主要是根據(jù)對訓(xùn)練數(shù)據(jù)中實例的觀察分析,制定出相應(yīng)的模版及其所屬類別的集合,再利用測試數(shù)據(jù)中的實例與集合中的模板匹配,如果匹配成功,則可根據(jù)模板所屬類別判定實例所屬類別。語義分析的方法是指根據(jù)句子的句法結(jié)構(gòu)和句中每個實詞的詞義推導(dǎo)出能夠反映這個句子意義(即句義)的某種形式化表示。特征分類的方法是指根據(jù)文檔中詞語的特征,有時也包含一些模板特征、語義分析特征等,利用特征分類器,將人物關(guān)系抽取轉(zhuǎn)化成二分類問題,即判定給定的人物關(guān)系是否成立。
模式匹配的主要問題在于模板大多數(shù)為人工制定,除消耗大量的人力資源外,當(dāng)數(shù)據(jù)規(guī)模較大時,很難制定出較為全面而精準(zhǔn)的模板集合。此外,當(dāng)領(lǐng)域變更時,原有的模板將不一定仍然適用,往往需要重新制定模板,領(lǐng)域遷移性較差。
語義分析的方法依賴于分詞、詞性標(biāo)注、依存關(guān)系等分析的準(zhǔn)確性,而現(xiàn)有的工具并不能準(zhǔn)確的處理上述問題。同時,新聞標(biāo)題的句子結(jié)構(gòu)較為精簡,句式結(jié)構(gòu)有時并不滿足一般的句法規(guī)則,這也影響了語義分析的準(zhǔn)確性。
特征分類方法的問題一是在于根據(jù)整個語料抽取的特征維度往往很高,導(dǎo)致利用分類器進(jìn)行訓(xùn)練和測試時效率過低;二是當(dāng)分類效果不好時,很難發(fā)現(xiàn)影響分類效果的具體實例,能做的僅是調(diào)整分類器的參數(shù)或修改特征的選擇;三是當(dāng)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的特征分布差距較大時,分類效果很差,很難構(gòu)建相對完整的訓(xùn)練數(shù)據(jù)集。
發(fā)明內(nèi)容
本發(fā)明的目的在于能根據(jù)給定的新聞標(biāo)題和人物屬性知識庫,自動判定給定的人物及人物間的關(guān)系是否正確。
本發(fā)明采用的技術(shù)方案如下:
一種面向新聞標(biāo)題的人物關(guān)系抽取方法,包括如下步驟:
1)尋找出新聞標(biāo)題中的關(guān)系指示詞,用以區(qū)分不同類別的人物關(guān)系;
2)根據(jù)人物與關(guān)系指示詞在新聞標(biāo)題中的位置特征,建立描述句子的句式模板;利用訓(xùn)練數(shù)據(jù)統(tǒng)計每個模板的正/負(fù)例個數(shù),根據(jù)正負(fù)模板的比例判定新聞標(biāo)題中人物間關(guān)系的正確性;
3)從新聞標(biāo)題與人物屬性知識庫中提取特征,通過特征分類的方法并結(jié)合步驟2)得到的句式模板的正/負(fù)例個數(shù),判定給定的人物關(guān)系是否正確。
進(jìn)一步地,在尋找關(guān)系指示詞之前進(jìn)行數(shù)據(jù)清洗,通過制定啟發(fā)式規(guī)則直接判定不符合條件的新聞標(biāo)題。
進(jìn)一步地,利用最小覆蓋的方法尋找出新聞標(biāo)題中的關(guān)系指示詞。
進(jìn)一步地,根據(jù)句子中的表達(dá)人物關(guān)系的<主語S、謂語P、賓語O>三元組,得到描述句子的層次句式模板。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院信息工程研究所,未經(jīng)中國科學(xué)院信息工程研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510965136.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種針對GIS數(shù)據(jù)的建模方法
- 下一篇:字符替換方法及裝置





