[發(fā)明專利]文本問題的數(shù)學(xué)化處理方法、裝置、設(shè)備和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201710687829.7 | 申請日: | 2017-08-11 |
| 公開(公告)號: | CN107590192B | 公開(公告)日: | 2023-05-05 |
| 發(fā)明(設(shè)計)人: | 劉曉江;王?;史樹明 | 申請(專利權(quán))人: | 深圳市騰訊計算機系統(tǒng)有限公司 |
| 主分類號: | G06F16/30 | 分類號: | G06F16/30;G06F16/36 |
| 代理公司: | 華進(jìn)聯(lián)合專利商標(biāo)代理有限公司 44224 | 代理人: | 何平;鄧云鵬 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 問題 數(shù)學(xué) 處理 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
1.一種文本問題的數(shù)學(xué)化處理方法,所述方法包括:
獲取問題文本序列;
確定所述問題文本序列中的數(shù)字和相應(yīng)的上下文內(nèi)容;
將確定出的數(shù)字和相應(yīng)的上下文內(nèi)容輸入關(guān)鍵數(shù)字識別模型,識別出所述問題文本序列中的關(guān)鍵數(shù)字;所述關(guān)鍵數(shù)字識別模型,是用于識別問題文本序列中的關(guān)鍵數(shù)字的模型;所述關(guān)鍵數(shù)字,是指與解題相關(guān)的數(shù)字;
映射所述問題文本序列中的關(guān)鍵數(shù)字為表達(dá)式詞匯;
將包括所述表達(dá)式詞匯的問題文本序列中的各詞轉(zhuǎn)換為詞向量,得到詞向量序列;所述詞向量,是指用于將語言中的詞表示成數(shù)學(xué)形式的向量;
按照詞向量序列中各詞向量的先后順序,循環(huán)地將前次編碼后的值和當(dāng)前詞向量作為當(dāng)次編碼的輸入值;
將最后一次編碼后的值作為包括所述表達(dá)式詞匯的問題文本序列的語義向量;所述語義向量,是指表征包括所述表達(dá)式詞匯的問題文本序列的語義的向量;
識別所述問題文本序列中的關(guān)鍵數(shù)字;
獲取初始的表達(dá)式詞匯集;
從初始的表達(dá)式詞匯集中的與數(shù)字具有映射關(guān)系的表達(dá)式詞匯中,去除與所述關(guān)鍵數(shù)字沒有映射關(guān)系的表達(dá)式詞匯;
對所述語義向量進(jìn)行循環(huán)解碼,確定所述表達(dá)式詞匯集中各表達(dá)式詞匯在每次解碼時的輸出概率;
選取在每次解碼時輸出概率最大的表達(dá)式詞匯進(jìn)行輸出;
按照輸出的先后順序,將各輸出的表達(dá)式詞匯組合生成包括映射后的所述表達(dá)式詞匯的表達(dá)式;
將所述表達(dá)式中的所述表達(dá)式詞匯替換為所映射的數(shù)字。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述語義向量進(jìn)行循環(huán)解碼,確定所述表達(dá)式詞匯集中各表達(dá)式詞匯在每次解碼時的輸出概率包括:
對所述語義向量和前次輸出的解碼向量進(jìn)行解碼,得到當(dāng)次輸出的解碼向量和相應(yīng)權(quán)重矩陣;
根據(jù)當(dāng)次輸出的解碼向量和相應(yīng)權(quán)重矩陣,確定當(dāng)次解碼時表達(dá)式詞匯集中各表達(dá)式詞匯的輸出概率。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)當(dāng)次輸出的解碼向量和相應(yīng)權(quán)重矩陣,確定當(dāng)次解碼時表達(dá)式詞匯集中各表達(dá)式詞匯的輸出概率包括:
根據(jù)前次輸出的表達(dá)式詞匯和預(yù)設(shè)的表達(dá)式詞匯約束條件,生成當(dāng)次與所述表達(dá)式詞匯集中各表達(dá)式詞匯對應(yīng)的二進(jìn)制向量;
確定當(dāng)次輸出的解碼向量和相應(yīng)權(quán)重矩陣的乘積;
根據(jù)所述乘積和所述二進(jìn)制向量,確定所述表達(dá)式詞匯集中各表達(dá)式詞匯在當(dāng)次的輸出概率。
4.根據(jù)權(quán)利要求1至3中任一項所述的方法,其特征在于,所述方法還包括:
獲取包括所述表達(dá)式詞匯的問題文本序列與預(yù)存問題文本序列間的相似度;
確定所述預(yù)存問題文本序列與包括所述表達(dá)式詞匯的問題文本序列間的最高相似度;
當(dāng)所述最高相似度小于預(yù)設(shè)閾值時,再執(zhí)行將包括所述表達(dá)式詞匯的問題文本序列編碼為語義向量的步驟。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法還包括:
當(dāng)所述最高相似度大于或等于所述預(yù)設(shè)閾值時,則
獲取最高相似度的預(yù)存問題文本序列所對應(yīng)的表達(dá)式;
將包括所述表達(dá)式詞匯的問題文本序列中的數(shù)字代入獲取的所述表達(dá)式中輸出問題答案。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述獲取包括所述表達(dá)式詞匯的問題文本序列與預(yù)存問題文本序列間的相似度包括:
獲取包括所述表達(dá)式詞匯的問題文本序列的第一詞組權(quán)重向量和預(yù)存問題文本序列的第二詞組權(quán)重向量;
取第一詞組權(quán)重向量與第二詞組權(quán)重向量的交集的模;
取第一詞組權(quán)重向量與第二詞組權(quán)重向量的并集的模;
根據(jù)所述交集的模和所述并集的模的比值,得到包括所述表達(dá)式詞匯的問題文本序列與預(yù)存問題文本序列間的相似度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市騰訊計算機系統(tǒng)有限公司,未經(jīng)深圳市騰訊計算機系統(tǒng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710687829.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種可用于鋼圈精整圓的裝置
- 下一篇:一種板材彎折器
- 數(shù)學(xué)式輸入裝置以及數(shù)學(xué)式修正方法
- 一種數(shù)學(xué)學(xué)習(xí)調(diào)查方法及裝置
- 基于實體組合的數(shù)學(xué)自然語言處理實現(xiàn)方法、系統(tǒng)
- 一種多用途學(xué)生用數(shù)學(xué)尺裝置
- 數(shù)學(xué)翻譯器、數(shù)學(xué)翻譯設(shè)備及平臺
- 一種數(shù)學(xué)學(xué)習(xí)輔助方法、系統(tǒng)及其裝置
- 基于虛擬現(xiàn)實的數(shù)學(xué)教學(xué)系統(tǒng)
- 一種數(shù)學(xué)符號輸入的裝置、方法、設(shè)備及存儲介質(zhì)
- 一種獲得數(shù)學(xué)對象標(biāo)注模型、數(shù)學(xué)對象標(biāo)注的方法和裝置
- 學(xué)具(幼兒數(shù)學(xué)智力學(xué)具)





