[發(fā)明專利]一種文本數(shù)據(jù)處理方法及裝置有效
| 申請?zhí)枺?/td> | 201210534859.1 | 申請日: | 2012-12-12 |
| 公開(公告)號: | CN103870440B | 公開(公告)日: | 2016-11-30 |
| 發(fā)明(設(shè)計)人: | 凌俊民;劉曉峰;梁耿;李廣杰;韋媚 | 申請(專利權(quán))人: | 中國移動通信集團(tuán)廣西有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/30 |
| 代理公司: | 北京同達(dá)信恒知識產(chǎn)權(quán)代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 530000 廣*** | 國省代碼: | 廣西;45 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 數(shù)據(jù)處理 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種文本數(shù)據(jù)處理方法及裝置。
背景技術(shù)
隨著網(wǎng)絡(luò)通信技術(shù)的發(fā)展,通過網(wǎng)絡(luò)獲取問題的答案成為解決問題的一種有效手段。但是針對同一問題,網(wǎng)絡(luò)上存在的回答可能有很多,但是哪一個答案相對來說更準(zhǔn)確,即如何衡量答案與問題之間的相關(guān)性成為研究熱點之一。
目前,主要都是通過問題與答案之間的文本相似度計算來進(jìn)行衡量的,但是通常情況下,問題都比較簡短,所包含的單詞少,從而導(dǎo)致與其對應(yīng)的答案之間存在語義鴻溝問題,因此,利用傳統(tǒng)的文本相似度的衡量方法,使得衡量結(jié)果存在較大的誤差。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種文本數(shù)據(jù)處理方法,用以提高答案文本與問題文本之間相關(guān)性衡量結(jié)果的準(zhǔn)確性。
本發(fā)明實施例提供一種文本數(shù)據(jù)處理方法,應(yīng)用于交互問答系統(tǒng)中,所述交互問答系統(tǒng)中存儲有至少一個問題文本,每一問題文本對應(yīng)有至少一個答案文本,包括:
接收用戶針對任一問題文本提交的的新答案文本;
將所述新答案文本分詞,得到所述新答案文本包含的所有詞語;
根據(jù)所述新答案文本包含的所有詞語以及第一預(yù)設(shè)算法確定所述新答案文本對應(yīng)的響應(yīng)變量參數(shù),其中,所述第一預(yù)設(shè)算法根據(jù)所述交互問答系統(tǒng)中已存儲的所述問題文本與該問題文本對應(yīng)的至少一個答案文本確定,所述響應(yīng)變量參數(shù)表示所述新答案文本與所述問題文本之間的匹配程度。
本發(fā)明實施例提供一種文本數(shù)據(jù)處理裝置,應(yīng)用于交互問答系統(tǒng)中,所述交互問答系統(tǒng)中存儲有至少一個問題文本,每一問題文本對應(yīng)有至少一個答案文本,包括:
接收單元,用于接收用戶針對任一問題文本提交的的新答案文本;
分詞單元,用于將所述新答案文本分詞,得到所述新答案文本包含的所有詞語;
確定單元,用于根據(jù)所述新答案文本包含的所有詞語以及第一預(yù)設(shè)算法確定所述新答案文本對應(yīng)的響應(yīng)變量參數(shù),其中,所述第一預(yù)設(shè)算法根據(jù)所述交互問答系統(tǒng)中已存儲的所述問題文本與該問題文本對應(yīng)的至少一個答案文本確定,所述響應(yīng)變量參數(shù)表示所述新答案文本與所述問題文本之間的匹配程度。
本發(fā)明實施例提供的文本數(shù)據(jù)處理方法,將接收到的待衡量的新答案文本分詞,得到新答案文本包含的所有詞語,根據(jù)該新答案文本包含的所有詞語,按照預(yù)設(shè)算法確定新答案文本對應(yīng)的響應(yīng)變量參數(shù),該響應(yīng)變量參數(shù)反應(yīng)了新答案文本與問題文本之間的匹配程度,若確定出的響應(yīng)變量參數(shù)越大,則答案文本與問題文本之間越匹配,反之,答案文本與問題文本之間越不匹配。
本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
圖1為現(xiàn)有技術(shù)中,LDA模型下,文檔生成過程示意圖;
圖2為本發(fā)明實施例中,sLDA模型下,文檔生成過程示意圖;
圖3為本發(fā)明實施例中,文本數(shù)據(jù)處理方法的實施流程示意圖;
圖4為本發(fā)明實施例中,文本數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。
具體實施方式
為了提高答案文本與問題文本衡量結(jié)果的準(zhǔn)確性,本發(fā)明實施例提供了一種文本數(shù)據(jù)處理方法及裝置。
以下結(jié)合說明書附圖對本發(fā)明的優(yōu)選實施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明,并且在不沖突的情況下,本發(fā)明中的實施例及實施例中的特征可以相互組合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國移動通信集團(tuán)廣西有限公司,未經(jīng)中國移動通信集團(tuán)廣西有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210534859.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





