[發(fā)明專利]問(wèn)答知識(shí)庫(kù)的生成方法、神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法以及設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 201710295530.7 | 申請(qǐng)日: | 2017-04-28 |
| 公開(kāi)(公告)號(hào): | CN107220296B | 公開(kāi)(公告)日: | 2020-01-17 |
| 發(fā)明(設(shè)計(jì))人: | 王洪俊;施水才 | 申請(qǐng)(專利權(quán))人: | 北京拓爾思信息技術(shù)股份有限公司 |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36;G06N5/02;G06N3/08 |
| 代理公司: | 11461 北京天健君律專利代理事務(wù)所(普通合伙) | 代理人: | 羅延紅;黃海艷 |
| 地址: | 100088 北京市海淀區(qū)知*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 知識(shí)庫(kù) 神經(jīng)網(wǎng)絡(luò) 人工工作量 文檔數(shù)據(jù) 映射處理 有效地 | ||
1.一種問(wèn)答知識(shí)庫(kù)的生成方法,其特征在于,所述方法包括:
對(duì)文檔數(shù)據(jù)進(jìn)行拆分處理,得到多個(gè)知識(shí)片段;
將拆分后得到的每個(gè)知識(shí)片段作為答案輸入到神經(jīng)網(wǎng)絡(luò),通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)所述每個(gè)知識(shí)片段進(jìn)行映射處理,得到與所述每個(gè)知識(shí)片段對(duì)應(yīng)的問(wèn)題;其中,所述神經(jīng)網(wǎng)絡(luò)包括編碼器與解碼器,所述編碼器把輸入的知識(shí)片段轉(zhuǎn)換為中間語(yǔ)義表示,所述解碼器把中間語(yǔ)義表示轉(zhuǎn)換為輸出的問(wèn)題;
根據(jù)所述每個(gè)知識(shí)片段和所述每個(gè)知識(shí)片段對(duì)應(yīng)的問(wèn)題,生成所述問(wèn)答知識(shí)庫(kù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)每個(gè)知識(shí)片段進(jìn)行映射處理后,所述方法還包括:
對(duì)通過(guò)所述神經(jīng)網(wǎng)絡(luò)映射處理得到的問(wèn)題進(jìn)行過(guò)濾。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)通過(guò)所述神經(jīng)網(wǎng)絡(luò)映射處理得到的問(wèn)題進(jìn)行過(guò)濾,包括:
基于所述問(wèn)題的字?jǐn)?shù),過(guò)濾掉字?jǐn)?shù)小于或等于第一預(yù)設(shè)閾值的問(wèn)題以及字?jǐn)?shù)大于第二預(yù)設(shè)閾值的問(wèn)題;
對(duì)所述問(wèn)題進(jìn)行敏感詞檢查,過(guò)濾掉包含敏感詞的問(wèn)題;
計(jì)算所述問(wèn)題與所述問(wèn)題對(duì)應(yīng)的知識(shí)片段之間的語(yǔ)義相似度,過(guò)濾掉所述語(yǔ)義相似度小于第三預(yù)設(shè)閾值的問(wèn)題。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述計(jì)算所述問(wèn)題與所述問(wèn)題對(duì)應(yīng)的知識(shí)片段之間的語(yǔ)義相似度,包括:
對(duì)所述問(wèn)題和所述問(wèn)題對(duì)應(yīng)的知識(shí)片段分別進(jìn)行分詞處理;
根據(jù)分詞處理后的問(wèn)題和知識(shí)片段生成與所述問(wèn)題對(duì)應(yīng)的第一向量和與所述知識(shí)片段對(duì)應(yīng)的第二向量;
計(jì)算所述第一向量和所述第二向量之間的夾角的余弦值,從而得到所述問(wèn)題與所述問(wèn)題對(duì)應(yīng)的知識(shí)片段之間的語(yǔ)義相似度。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述計(jì)算所述問(wèn)題與所述問(wèn)題對(duì)應(yīng)的知識(shí)片段之間的語(yǔ)義相似度,包括:
對(duì)所述問(wèn)題和所述問(wèn)題對(duì)應(yīng)的知識(shí)片段分別進(jìn)行分詞處理;
根據(jù)分詞處理后的問(wèn)題和知識(shí)片段生成與所述問(wèn)題對(duì)應(yīng)的第一向量和與所述知識(shí)片段對(duì)應(yīng)的第二向量;
使用基于詞嵌入模型的詞語(yǔ)向量對(duì)所述第一向量和所述第二向量分別進(jìn)行擴(kuò)展,得到與所述第一向量對(duì)應(yīng)的第一矩陣向量和與所述第二向量對(duì)應(yīng)的第二矩陣向量;
計(jì)算所述第一矩陣向量和所述第二矩陣向量之間的搬土距離,從而得到所述問(wèn)題與所述問(wèn)題對(duì)應(yīng)的知識(shí)片段之間的語(yǔ)義相似度。
6.根據(jù)權(quán)利要求1~5中任意一項(xiàng)權(quán)利要求所述的方法,其特征在于,所述每個(gè)知識(shí)片段包括以下中的至少一者:
文檔、段落以及句子。
7.一種神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法,其特征在于,所述神經(jīng)網(wǎng)絡(luò)包括第一神經(jīng)網(wǎng)絡(luò)和與所述第一神經(jīng)網(wǎng)絡(luò)連接的第二神經(jīng)網(wǎng)絡(luò),訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)用于輸入每個(gè)知識(shí)片段對(duì)應(yīng)的答案和輸出每個(gè)知識(shí)片段對(duì)應(yīng)的問(wèn)題;所述方法包括:
通過(guò)待訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)對(duì)問(wèn)答訓(xùn)練集中的每個(gè)答案進(jìn)行處理,得到與所述每個(gè)答案對(duì)應(yīng)的第一中間語(yǔ)義向量;
通過(guò)待訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò)對(duì)所述問(wèn)答訓(xùn)練集中的每個(gè)問(wèn)題進(jìn)行處理,得到與所述每個(gè)問(wèn)題對(duì)應(yīng)的第二中間語(yǔ)義向量;
根據(jù)所述每個(gè)答案的第一中間語(yǔ)義向量與所述每個(gè)答案對(duì)應(yīng)的問(wèn)題的第二中間語(yǔ)義向量確定所述第一中間語(yǔ)義向量與所述第二中間語(yǔ)義向量之間的差異;
根據(jù)所述差異調(diào)整所述第一神經(jīng)網(wǎng)絡(luò)和所述第二神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),從而訓(xùn)練得到所述神經(jīng)網(wǎng)絡(luò)。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述通過(guò)待訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)對(duì)問(wèn)答訓(xùn)練集中的每個(gè)答案進(jìn)行處理之前,所述方法還包括:
使用網(wǎng)絡(luò)爬蟲(chóng)從網(wǎng)站上下載關(guān)于常見(jiàn)問(wèn)題集的頁(yè)面;
對(duì)所述頁(yè)面進(jìn)行處理,得到多個(gè)問(wèn)題和與所述多個(gè)問(wèn)題分別對(duì)應(yīng)的答案,從而得到所述問(wèn)答訓(xùn)練集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京拓爾思信息技術(shù)股份有限公司,未經(jīng)北京拓爾思信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710295530.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種專利文本自動(dòng)分析的系統(tǒng)及方法
- 基于知識(shí)的故障恢復(fù)支持系統(tǒng)
- 一種鐵磁諧振故障知識(shí)庫(kù)構(gòu)建方法
- 融合知識(shí)庫(kù)處理方法和裝置,以及知識(shí)庫(kù)管理系統(tǒng)
- 一種基于病理生理路徑的臨床知識(shí)庫(kù)系統(tǒng)
- 一種面向網(wǎng)絡(luò)安全的知識(shí)庫(kù)構(gòu)建方法
- 基于多知識(shí)庫(kù)推理的數(shù)據(jù)匹配決策方法及系統(tǒng)
- 一種語(yǔ)義知識(shí)庫(kù)構(gòu)建方法
- 基于人工智能的知識(shí)庫(kù)生成方法和智能機(jī)器人應(yīng)答方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲(chǔ)介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





