[發(fā)明專(zhuān)利]面向新聞?lì)I(lǐng)域的主體機(jī)構(gòu)識(shí)別方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202211519557.7 | 申請(qǐng)日: | 2022-11-30 |
| 公開(kāi)(公告)號(hào): | CN116151387A | 公開(kāi)(公告)日: | 2023-05-23 |
| 發(fā)明(設(shè)計(jì))人: | 張友豪;史海雄;馮衛(wèi)強(qiáng);劉守洲;吳筱巧 | 申請(qǐng)(專(zhuān)利權(quán))人: | 上海大智慧財(cái)匯數(shù)據(jù)科技有限公司 |
| 主分類(lèi)號(hào): | G06N20/00 | 分類(lèi)號(hào): | G06N20/00;G06F18/2411;G06F18/25 |
| 代理公司: | 上海鍛創(chuàng)知識(shí)產(chǎn)權(quán)代理有限公司 31448 | 代理人: | 范文琦 |
| 地址: | 200120 上海市浦東新區(qū)自由貿(mào)易試*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 新聞 領(lǐng)域 主體 機(jī)構(gòu) 識(shí)別 方法 系統(tǒng) | ||
本發(fā)明提供一種面向新聞?lì)I(lǐng)域的主體機(jī)構(gòu)識(shí)別方法及系統(tǒng),涉及文本匹配及新聞機(jī)構(gòu)分類(lèi)技術(shù)領(lǐng)域,包括:輸入步驟:輸入新聞標(biāo)題、新聞?wù)摹⑿侣勚械臋C(jī)構(gòu)名稱(chēng)和關(guān)鍵詞,并對(duì)輸入數(shù)據(jù)進(jìn)行格式化處理;機(jī)構(gòu)實(shí)體定位步驟:進(jìn)行機(jī)構(gòu)定位,對(duì)于全部所述機(jī)構(gòu)名稱(chēng)在新聞標(biāo)題或新聞?wù)闹羞M(jìn)行關(guān)聯(lián);特征提取步驟:根據(jù)機(jī)構(gòu)定位結(jié)果提取特征,并根據(jù)提取的特征構(gòu)建特征矩陣;模型學(xué)習(xí)步驟:輸入所述特征矩陣,構(gòu)建模型及訓(xùn)練模型,利用機(jī)器學(xué)習(xí)方法進(jìn)行分類(lèi)或排序;輸出步驟:根據(jù)分類(lèi)和排序結(jié)果,輸出新聞主體機(jī)構(gòu)判別結(jié)果。本發(fā)明能夠?qū)崿F(xiàn)對(duì)分類(lèi)邊界模糊的數(shù)據(jù)的精確判別。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,涉及文本匹配及新聞機(jī)構(gòu)分類(lèi),具體地,涉及一種面向新聞?lì)I(lǐng)域的主體機(jī)構(gòu)識(shí)別方法及系統(tǒng)。
背景技術(shù)
新聞是互聯(lián)網(wǎng)環(huán)境下不可或缺的一種信息獲取方式,而對(duì)新聞文本中的機(jī)構(gòu)提取并進(jìn)行主體機(jī)構(gòu)判斷是輿情監(jiān)控領(lǐng)域和金融領(lǐng)域的重要任務(wù)之一,新聞事件的主體機(jī)構(gòu)在金融領(lǐng)域是投資分析,資產(chǎn)管理的重要決策參考;機(jī)構(gòu)作為命名實(shí)體的一種,也是知識(shí)圖譜的重要組成部分,實(shí)體抽取是進(jìn)行圖譜推理、事件分析的必要過(guò)程。
新聞文本主體機(jī)構(gòu)識(shí)別的挑戰(zhàn)體現(xiàn)在文本的復(fù)雜和任務(wù)的復(fù)雜。文本的復(fù)雜體現(xiàn)在待抽取的文本可能是句子、段落或者篇章,不定長(zhǎng)度的文本使得限制文本長(zhǎng)度的模型無(wú)法使用;任務(wù)的復(fù)雜體現(xiàn)在主體機(jī)構(gòu)抽取任務(wù)包括:實(shí)體抽取,實(shí)體消歧和主體機(jī)構(gòu)判別。對(duì)于存在多個(gè)機(jī)構(gòu)的文本,主要機(jī)構(gòu),次要機(jī)構(gòu)分類(lèi)邊界較為模糊,往往很難通過(guò)統(tǒng)一的規(guī)律進(jìn)行區(qū)分,需要結(jié)合事件及上下文語(yǔ)義進(jìn)行判別。
現(xiàn)有技術(shù)中存在以下缺陷:1)無(wú)法很好地適應(yīng)文本復(fù)雜性,因?yàn)樾侣勎谋九稛o(wú)規(guī)定格式及寫(xiě)作風(fēng)格,不同類(lèi)型寫(xiě)作形式不同,不定長(zhǎng)度的文本使得現(xiàn)有技術(shù)中限制文本長(zhǎng)度的模型無(wú)法使用;2)對(duì)于新聞中披露的多種機(jī)構(gòu),其分類(lèi)邊界較為模糊,現(xiàn)有技術(shù)無(wú)法通過(guò)統(tǒng)一的規(guī)律進(jìn)行區(qū)分,亟需一種可以結(jié)合事件及上下文語(yǔ)義進(jìn)行判別的方法。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供一種面向新聞?lì)I(lǐng)域的主體機(jī)構(gòu)識(shí)別方法及系統(tǒng)。
根據(jù)本發(fā)明提供的一種面向新聞?lì)I(lǐng)域的主體機(jī)構(gòu)識(shí)別方法及系統(tǒng),所述方案如下:
第一方面,提供了一種面向新聞?lì)I(lǐng)域的主體機(jī)構(gòu)識(shí)別方法,所述方法包括:
輸入步驟:輸入新聞標(biāo)題、新聞?wù)摹⑿侣勚械臋C(jī)構(gòu)名稱(chēng)和關(guān)鍵詞,并對(duì)輸入數(shù)據(jù)進(jìn)行格式化處理;
機(jī)構(gòu)實(shí)體定位步驟:進(jìn)行機(jī)構(gòu)定位,對(duì)于全部所述機(jī)構(gòu)名稱(chēng)在新聞標(biāo)題或新聞?wù)闹羞M(jìn)行關(guān)聯(lián);
特征提取步驟:根據(jù)機(jī)構(gòu)定位結(jié)果提取特征,并根據(jù)提取的特征構(gòu)建特征矩陣;
模型學(xué)習(xí)步驟:輸入所述特征矩陣,構(gòu)建模型及訓(xùn)練模型,利用機(jī)器學(xué)習(xí)方法進(jìn)行分類(lèi)或排序;
輸出步驟:根據(jù)分類(lèi)和排序結(jié)果,輸出新聞主體機(jī)構(gòu)判別結(jié)果。
優(yōu)選地,所述輸入步驟包括:
步驟S1.1:剔除所述新聞標(biāo)題中的亂碼,對(duì)標(biāo)點(diǎn)符號(hào)做統(tǒng)一轉(zhuǎn)換;
步驟S1.2:剔除所述新聞?wù)闹芯W(wǎng)頁(yè)鏈接及亂碼,對(duì)標(biāo)點(diǎn)符號(hào)做統(tǒng)一轉(zhuǎn)換。
優(yōu)選地,所述機(jī)構(gòu)實(shí)體定位步驟包括:
步驟S2.1:通過(guò)CRF機(jī)器學(xué)習(xí)將所述機(jī)構(gòu)名稱(chēng)、新聞標(biāo)題或新聞?wù)牡娜Q(chēng)轉(zhuǎn)化為簡(jiǎn)稱(chēng);
步驟S2.2:根據(jù)步驟S2.1處理后的所有待匹配的機(jī)構(gòu)名稱(chēng),構(gòu)造有限狀態(tài)機(jī);
步驟S2.3:根據(jù)所述有限狀態(tài)機(jī),在新聞標(biāo)題和正文中進(jìn)行AC算法匹配;
步驟S2.4:根據(jù)步驟S2.3的匹配結(jié)果,剔除重復(fù)機(jī)構(gòu)實(shí)體,消除機(jī)構(gòu)實(shí)體歧義。
優(yōu)選地,所述步驟S2.2具體包括:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于上海大智慧財(cái)匯數(shù)據(jù)科技有限公司,未經(jīng)上海大智慧財(cái)匯數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211519557.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)





