[發(fā)明專利]機(jī)器閱讀理解中文的方法、裝置和計(jì)算機(jī)設(shè)備在審
| 申請?zhí)枺?/td> | 201910597621.5 | 申請日: | 2019-07-04 |
| 公開(公告)號: | CN110442691A | 公開(公告)日: | 2019-11-12 |
| 發(fā)明(設(shè)計(jì))人: | 蘇智輝;錢柏丞 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33 |
| 代理公司: | 深圳市明日今典知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44343 | 代理人: | 王杰輝 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 中文文本 計(jì)算機(jī)設(shè)備 閱讀 中文 文本 答案 分詞處理 問題文本 向量化 準(zhǔn)確率 分詞 預(yù)設(shè) 申請 | ||
本申請揭示了本申請實(shí)施例的機(jī)器閱讀理解中文的方法、裝置和計(jì)算機(jī)設(shè)備,利用BERT對第一問題中文文本和所述第一中文文本進(jìn)行向量化訓(xùn)練,然后利用預(yù)設(shè)的第一中文機(jī)器閱讀理解模型中進(jìn)行計(jì)算,得到對應(yīng)所述問題文本的第一答案文本,因?yàn)闊o需對第一問題中文文本和所述第一中文文本進(jìn)行分詞處理所以不存在分詞不當(dāng)?shù)那闆r發(fā)生,因此最終得到的第一答案文本的準(zhǔn)確率更高。
技術(shù)領(lǐng)域
本申請涉及到機(jī)器閱讀領(lǐng)域,特別是涉及到一種機(jī)器閱讀理解中文的方法、裝置和計(jì)算機(jī)設(shè)備。
背景技術(shù)
中文文本的機(jī)器閱讀理解相對于英文的機(jī)器閱讀理解而言,理解準(zhǔn)確率等不高,比如,英文單詞與單詞之間具有空格,該空格即為一個(gè)天然的分詞符,在機(jī)器機(jī)器閱讀理解的過程中分詞準(zhǔn)確,所以輸出的答案的準(zhǔn)確率相對較高。而中文則不同,分詞處理比較復(fù)雜,不同的分詞處理,會得到不同的答案,比如,對“我要去上學(xué)”進(jìn)行分詞處理,可以分為“我要,去,上,學(xué)”,也可以分為“我要,去,上學(xué)”,又或者分為“我,要去上,學(xué)”等等,那么上述不同的分詞,其對應(yīng)的語義等會發(fā)生變化,從而得到不同的理解。所以,目前需要一種提高機(jī)器閱讀理解中文正確率的機(jī)器閱讀理解中文的方法。
發(fā)明內(nèi)容
本申請的主要目的為提供一種機(jī)器閱讀理解中文的方法、裝置和計(jì)算機(jī)設(shè)備,旨在解決現(xiàn)有技術(shù)中機(jī)器閱讀理解中文準(zhǔn)確率低的問題。
為了實(shí)現(xiàn)上述發(fā)明目的,本申請?zhí)岢鲆环N機(jī)器閱讀理解中文的方法,包括:
獲取第一問題中文文本,以及待理解的第一中文文本;
分別將所述第一問題中文文本和所述第一中文文本輸入到預(yù)設(shè)的語言模型中進(jìn)行向量化,得到所述第一問題中文文本的問題向量,以及所述第一中文文本的待理解向量,其中,所述語言模型為BERT;
將所述問題向量和所述待理解向量輸入到預(yù)設(shè)的第一中文機(jī)器閱讀理解模型中進(jìn)行計(jì)算,得到對應(yīng)所述第一問題中文文本的第一答案文本。
進(jìn)一步地,所述分別將所述第一問題中文文本和所述第一中文文本輸入到預(yù)設(shè)的語言模型中進(jìn)行向量化,得到所述第一問題中文文本的問題向量,以及所述第一中文文本的待理解向量的步驟,包括:
分別對所述第一問題中文文本,以及所述第一中文文本中的每一個(gè)字符向量化,得到字符向量;以及給每一個(gè)字符標(biāo)記位置向量,得到字符位置向量;
將每一個(gè)字符對應(yīng)的字符向量和字符位置向量合并,得到對應(yīng)對所述第一問題中文文本的問題向量,以及對應(yīng)所述第一中文文本的待理解向量。
進(jìn)一步地,所述將所述問題向量和所述待理解向量輸入到預(yù)設(shè)的第一中文機(jī)器閱讀理解模型中進(jìn)行計(jì)算,得到對應(yīng)所述問題文本的第一答案文本的步驟之后,包括:
判斷所述第一答案文本中是否存在非中文詞語,若有,則將非中文詞語轉(zhuǎn)換成對應(yīng)的中文,并替換到所述第一答案文本中,得到純中文的第一答案文本;
將所述純中文的第一答案文本中的每一個(gè)漢字進(jìn)行向量化,得到對應(yīng)所述純中文的第一答案文本中文字的第一順序的多個(gè)第一向量,多個(gè)第一向量形成第一向量串;
將多個(gè)所述第一向量按照所述第一順序,每指定數(shù)量的所述第一向量形成一組,得到多個(gè)第一向量組;
到預(yù)設(shè)的模板向量數(shù)據(jù)庫中,各所述第一向量組查找與其相似度最高,且相似度達(dá)到預(yù)設(shè)的第一閾值的第二向量組;
若查找到所述第二向量組,則將所述第二向量組替換所述第一向量串中對應(yīng)的第一向量組,得到第二向量串;
將所述第二向量串轉(zhuǎn)換成中文,得到第二答案文本。
進(jìn)一步地,所述將所述問題向量和所述待理解向量輸入到預(yù)設(shè)的第一中文機(jī)器閱讀理解模型中進(jìn)行計(jì)算,得到對應(yīng)所述問題文本的第一答案文本的步驟之后,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910597621.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在分布式數(shù)據(jù)庫系統(tǒng)中管理查詢
- 設(shè)備間互動虛擬角色系統(tǒng)
- 計(jì)算機(jī)虛擬角色拿取系統(tǒng)
- 用于向計(jì)算機(jī)設(shè)備供電的燃料電池
- 虛擬角色同步更新式傳輸系統(tǒng)
- 虛擬角色自行傳輸?shù)挠?jì)算機(jī)交互系統(tǒng)
- 虛擬角色傳輸系統(tǒng)
- 計(jì)算機(jī)設(shè)備的啟動方法、裝置及計(jì)算機(jī)設(shè)備
- 一種基于區(qū)塊鏈技術(shù)的計(jì)算機(jī)設(shè)備防盜系統(tǒng)及方法
- 一種用于計(jì)算機(jī)設(shè)備管理的終端





