[發(fā)明專利]一種基于問(wèn)答模式的金融事件主體抽取方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010321839.0 | 申請(qǐng)日: | 2020-04-22 |
| 公開(kāi)(公告)號(hào): | CN111522906B | 公開(kāi)(公告)日: | 2023-03-28 |
| 發(fā)明(設(shè)計(jì))人: | 劉玓;彭灣灣;鄒馨儀;羅瑜;汪騰睿 | 申請(qǐng)(專利權(quán))人: | 電子科技大學(xué) |
| 主分類號(hào): | G06F16/31 | 分類號(hào): | G06F16/31;G06F16/332;G06F16/35;G06F16/36 |
| 代理公司: | 北京正華智誠(chéng)專利代理事務(wù)所(普通合伙) 11870 | 代理人: | 韋海英 |
| 地址: | 611731 四川省成*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 問(wèn)答 模式 金融 事件 主體 抽取 方法 | ||
1.一種基于問(wèn)答模式的金融事件主體抽取方法,其特征在于,包括以下步驟:
S1、對(duì)財(cái)經(jīng)新聞文本以其逗號(hào)分隔出的短句為單位,形成短句文本序列,并對(duì)短句文本序列中的每個(gè)短句先進(jìn)行分詞處理再進(jìn)行去停用詞處理,得到詞序列;
S2、根據(jù)各短句的詞序列,得到事件類型序列;
S3、判斷事件類型序列是否為空集,若是,則跳轉(zhuǎn)至步驟S4,若否,則跳轉(zhuǎn)至步驟S5;
S4、將特殊問(wèn)題加入每一個(gè)輸入的短句文本序列中,構(gòu)成多個(gè)問(wèn)題答案序列,進(jìn)入步驟S7;
S5、對(duì)事件類型序列中的每個(gè)事件類型生成自然語(yǔ)言問(wèn)題,得到自然語(yǔ)言問(wèn)題序列;
S6、將自然語(yǔ)言問(wèn)題序列中的每一個(gè)自然語(yǔ)言問(wèn)題依次加入每一個(gè)輸入的短句文本序列中,構(gòu)成多個(gè)問(wèn)題答案序列;
S7、將多個(gè)問(wèn)題答案序列輸入雙向Transformer架構(gòu)模型,得到事件主體序列;
所述步驟S2包括以下分步驟:
S21、對(duì)詞序列中的詞語(yǔ)做詞頻統(tǒng)計(jì),得到一階詞頻;
S22、對(duì)序列中的詞語(yǔ)進(jìn)行二階組合,并計(jì)算得到的二階組合詞的二階詞頻;
S23、計(jì)算二階組合詞的左信息熵和右信息熵;
S24、根據(jù)一階詞頻和二階詞頻計(jì)算互信息值;
S25、將左信息熵、右信息熵和互信息值之和作為二階組合詞的總信息值;
S26、將所有二階組合詞的總信息值進(jìn)行比較,得到總信息值最高的二階組合詞;
S27、將總信息值最高的二階組合詞作為當(dāng)前短句對(duì)應(yīng)的事件類型;
S28、將各短句對(duì)應(yīng)的事件類型組成事件類型序列。
2.根據(jù)權(quán)利要求1所述的基于問(wèn)答模式的金融事件主體抽取方法,其特征在于,所述步驟S1中的分詞處理包括:先驗(yàn)知識(shí)的特征約束和序列標(biāo)注。
3.根據(jù)權(quán)利要求2所述的基于問(wèn)答模式的金融事件主體抽取方法,其特征在于,所述序列標(biāo)注的方法為:通過(guò)先驗(yàn)知識(shí)的特征約束,使用條件隨機(jī)場(chǎng)算法,以“BIS”標(biāo)簽對(duì)各短句中每個(gè)漢字進(jìn)行標(biāo)注。
4.根據(jù)權(quán)利要求1所述的基于問(wèn)答模式的金融事件主體抽取方法,其特征在于,所述步驟S23中的左信息熵的計(jì)算公式為:
所述步驟S23中的右信息熵的計(jì)算公式為:
所述步驟S24中的互信息值的計(jì)算公式為:
其中,HL(yi-1,yi)為二階組合詞的(yi-1,yi)的左信息熵,HR(yi-1,yi)為二階組合詞(yi-1,yi)的右信息熵,MI(yi-1,yi)為二階組合詞的(yi-1,yi)的互信息值,(yi-1,yi)為第i-1詞語(yǔ)和第i詞語(yǔ)構(gòu)成的二階組合詞,W為二階組合詞組成的集合,A為二階組合詞(yi-1,yi)左邊詞語(yǔ)的集合,B為二階組合詞(yi-1,yi)右邊詞語(yǔ)的集合,a為集合A中的詞語(yǔ),b為集合B中的詞語(yǔ),P((a,yi-1,yi)|yi-1)為集合A中出現(xiàn)a的概率,P((yi-1,yi,b)|yi)為集合B中出現(xiàn)b的概率,P(yi-1,yi)為二階詞頻,P(yi-1)為yi-1的一階詞頻,P(yi)為yi的一階詞頻,1≤i≤n,n為詞序列的長(zhǎng)度。
5.根據(jù)權(quán)利要求1所述的基于問(wèn)答模式的金融事件主體抽取方法,其特征在于,所述步驟S7包括以下分步驟:
S71、構(gòu)建雙向Transformer架構(gòu)模型,并對(duì)其進(jìn)行訓(xùn)練直至收斂;
S72、將多個(gè)問(wèn)題答案序列輸入雙向Transformer架構(gòu)模型,通過(guò)雙向Transformer架構(gòu)模型的編碼器提取語(yǔ)義特征,得到輸入文本的語(yǔ)義向量;
S73、根據(jù)輸入文本的語(yǔ)義向量,通過(guò)雙向Transformer架構(gòu)模型的編碼器生成輸出文本語(yǔ)義向量;
S74、將輸出文本語(yǔ)義向量通過(guò)全連接網(wǎng)絡(luò)的映射得到事件主體。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學(xué),未經(jīng)電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010321839.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于生成動(dòng)態(tài)幫助文檔的方法和系統(tǒng)
- 建立問(wèn)答文本評(píng)價(jià)模型與評(píng)價(jià)問(wèn)答文本的方法、裝置
- 基于學(xué)生問(wèn)答方式的在線教育系統(tǒng)
- 一種問(wèn)答輸入的智能提示方法、裝置和終端設(shè)備
- 一種通用的智能問(wèn)答自動(dòng)化運(yùn)維系統(tǒng)及方法
- 自動(dòng)問(wèn)答方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種基于知識(shí)圖譜的智能問(wèn)答引擎及其實(shí)現(xiàn)方法
- 基于人工智能技術(shù)的類腦問(wèn)答系統(tǒng)
- 一種基于語(yǔ)義分析技術(shù)的專業(yè)制度檔案問(wèn)答機(jī)器人系統(tǒng)
- 一種視覺(jué)問(wèn)答方法、系統(tǒng)及服務(wù)器
- 一種金融服務(wù)系統(tǒng)、金融服務(wù)平臺(tái)及其方法
- 一種移動(dòng)終端搭載金融支付終端的方法及金融支付系統(tǒng)
- 一種基于微信小程序及金融開(kāi)放平臺(tái)的金融能力輸出模式
- 金融產(chǎn)品推薦方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于三維坐標(biāo)定位的金融憑證智能存放系統(tǒng)及其裝置
- 基于云計(jì)算和區(qū)塊鏈的金融信息管理系統(tǒng)
- 基于數(shù)據(jù)倉(cāng)庫(kù)的金融數(shù)據(jù)自動(dòng)化測(cè)試與監(jiān)控系統(tǒng)
- 基于金融應(yīng)用的風(fēng)險(xiǎn)監(jiān)測(cè)方法及系統(tǒng)
- 金融數(shù)據(jù)處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 金融憑證智能存放裝置





