[發(fā)明專利]一種基于多文檔的復(fù)雜問題自動(dòng)化求解方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010165743.X | 申請(qǐng)日: | 2020-03-11 |
| 公開(公告)號(hào): | CN111460092B | 公開(公告)日: | 2022-11-29 |
| 發(fā)明(設(shè)計(jì))人: | 徐建;吳蔚;李曉冬;王鑫鵬;徐琳;阮國慶;王羽 | 申請(qǐng)(專利權(quán))人: | 中國電子科技集團(tuán)公司第二十八研究所 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/332;G06F40/211;G06F16/35;G06F40/289 |
| 代理公司: | 江蘇圣典律師事務(wù)所 32237 | 代理人: | 于瀚文;胡建華 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 文檔 復(fù)雜 問題 自動(dòng)化 求解 方法 | ||
1.一種基于多文檔的復(fù)雜問題自動(dòng)化求解方法,其特征在于,包括如下步驟:
步驟1,對(duì)文章分段,針對(duì)單個(gè)段落進(jìn)行單文檔閱讀理解,每個(gè)段落都預(yù)測(cè)出一個(gè)答案;
步驟2,利用神經(jīng)網(wǎng)絡(luò)模型對(duì)答案所在句子排序,并根據(jù)問題預(yù)測(cè)答案?jìng)€(gè)數(shù),選擇出topK個(gè)答案;
步驟3,求解出最終的答案;
步驟1包括:
步驟1-1,對(duì)文檔劃分段落:對(duì)文檔斷句然后遍歷每個(gè)句子,判斷加入當(dāng)前句子后段落長度是否超過給定閾值,如果超過將開始一個(gè)新的段落,否則將當(dāng)前句子加入當(dāng)前段落;
步驟1-2,對(duì)步驟1-1劃分后的段落進(jìn)行數(shù)據(jù)預(yù)處理,包括全半角轉(zhuǎn)換和繁簡體轉(zhuǎn)換;
步驟1-3,將步驟1-2處理后的段落輸入閱讀理解模型,所述閱讀理解模型為bert預(yù)訓(xùn)練模型,然后將經(jīng)過bert編碼后的向量輸出通過兩個(gè)指針網(wǎng)絡(luò),經(jīng)過閱讀理解模型每個(gè)段落預(yù)測(cè)出一個(gè)答案;
步驟1-3中,將步驟1-2處理后的段落輸入閱讀理解模型,并引入一個(gè)輔助任務(wù)來預(yù)測(cè)文章中每一個(gè)詞是否能成為答案,所述輔助任務(wù)為:對(duì)每一個(gè)字做二分類,如果該字在答案中,給該字打上標(biāo)簽為1,表示這個(gè)字是在答案中,否則打上標(biāo)簽為0,表示該字不在答案中;
步驟2包括:
步驟2-1,句對(duì)排序:利用bert預(yù)訓(xùn)練模型,將問題和答案所在的上下文,作為文本對(duì)輸入bert模型,經(jīng)過bert編碼以后提取[CLS]的向量表示,然后經(jīng)過一個(gè)全連接網(wǎng)絡(luò),得到網(wǎng)絡(luò)輸出,句對(duì)排序的過程中的損失函數(shù)采用交叉熵函數(shù);預(yù)測(cè)的時(shí)候針對(duì)給定的問題和兩個(gè)以上的答案,根據(jù)網(wǎng)絡(luò)輸出結(jié)果,選擇出topK個(gè)概率最高的答案;
步驟2-2,預(yù)測(cè)答案?jìng)€(gè)數(shù):利用bert預(yù)訓(xùn)練模型判斷問題的答案?jìng)€(gè)數(shù),并根據(jù)答案?jìng)€(gè)數(shù)在步驟2-1的網(wǎng)絡(luò)輸出中選擇給定的答案集合;
步驟2-1中,在句對(duì)排序過程中,引入外部特征,即引入問題和答案上下文的BM25相似度特征、問題和答案的單詞重疊特征和逆文檔頻率IDF得分,將BM25相似度特征、問題和答案的單詞重疊特征和逆文檔頻率IDF得分拼接到bert模型之后,經(jīng)過輸出為1的全連接網(wǎng)絡(luò)得到融入外部特征的網(wǎng)絡(luò)輸出2,第一網(wǎng)絡(luò)輸出和第二網(wǎng)絡(luò)輸出分別經(jīng)過兩個(gè)交叉熵?fù)p失函數(shù)得到兩個(gè)損失,來衡量問題和答案上下文的關(guān)聯(lián)性,其中交叉熵函數(shù)Loss公式如下:
其中是模型預(yù)測(cè)樣本是正例的概率,y是樣本標(biāo)簽,如果樣本屬于正例,取值為1,否則取值為0;
其中BM25相似度特征的計(jì)算方法如下:對(duì)問題和答案所在上下文分詞,記問題Q中第i個(gè)單詞為qi,i取值為1~n,n為問題Q中單詞總數(shù);記答案所在上下文為D,首先計(jì)算qi和D的相關(guān)性得分,然后將qi相對(duì)于D的相關(guān)性得分進(jìn)行加權(quán)求和,從而得到Q與D的相關(guān)性得分如下所示:
其中IDF(qi)定義為查詢中單詞qi的逆文檔頻率,具體公式如下,
其中N為語料庫的全部文檔數(shù),n(qi)為包含了qi的文檔數(shù);k1和b為調(diào)節(jié)因子;fi為qi在d中的出現(xiàn)頻率;dl為文檔d的長度,avgdl為所有文檔的平均長度;
所述單詞重疊特征包括1-gram和2-gram特征,1-gram是統(tǒng)計(jì)一個(gè)單詞組成的子串,2-gram是統(tǒng)計(jì)連續(xù)兩個(gè)單詞組成的子串,計(jì)算方法如下:
對(duì)于問題和答案所在上下文通過jieba分詞,將問題和答案的單詞的交集個(gè)數(shù)除以問題中單詞的個(gè)數(shù),得到的結(jié)果作為一元重疊特征;計(jì)算問題和答案的單詞的交集中單詞的逆文檔頻率IDF得分總和,將總和除以問題中單詞的IDF總合,得到的結(jié)果作為一元IDF特征;
分別統(tǒng)計(jì)問題和答案所在上下文的二元單詞串,二元單詞串是以單詞為單位的2-gram,將問題的二元單詞串集合和答案所在上下文的二元單詞串集合的交集個(gè)數(shù)除以問題的2-gram個(gè)數(shù),得到的結(jié)果作為二者的二元重疊特征;計(jì)算交集中2-gram的IDF得分總和,將總和除以問題中2-gram的IDF總和,得到的結(jié)果作為二元IDF特征;
步驟3包括:
步驟3-1,復(fù)雜問題拆解:針對(duì)復(fù)雜問題根據(jù)原始文章求出最長公共子串,組成簡單問題,所述最長公共子串的定義是長度為m的字符串S以及長度為n的字符串T,求最長的子串x同時(shí)是S以及T的連續(xù)子串;
步驟3-2,預(yù)測(cè)橋接實(shí)體:針對(duì)步驟3-1得到的簡單問題,采用步驟1-3中所述的閱讀理解模型得到簡單問題的答案;
步驟3-3,根據(jù)步驟3-2得到的簡單問題答案替換掉原始問題中的最長公共子串,組成替換后的問題,然后重復(fù)步驟1-3中的閱讀理解模型,得到替換后的問題的答案。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國電子科技集團(tuán)公司第二十八研究所,未經(jīng)中國電子科技集團(tuán)公司第二十八研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010165743.X/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備





