[發(fā)明專(zhuān)利]一種借助統(tǒng)計(jì)機(jī)器翻譯的答案檢索方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201310180146.4 | 申請(qǐng)日: | 2013-05-15 |
| 公開(kāi)(公告)號(hào): | CN103235833B | 公開(kāi)(公告)日: | 2017-02-08 |
| 發(fā)明(設(shè)計(jì))人: | 周光有;趙軍 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)科學(xué)院自動(dòng)化研究所 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30;G06F17/28 |
| 代理公司: | 中科專(zhuān)利商標(biāo)代理有限責(zé)任公司11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 借助 統(tǒng)計(jì) 機(jī)器翻譯 答案 檢索 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,是一種借助統(tǒng)計(jì)機(jī)器翻譯的答案檢索方法及裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,基于用戶(hù)生成(User-Generated?Content,UGC)的互聯(lián)網(wǎng)服務(wù)越來(lái)越流行。社區(qū)問(wèn)答正是在這一背景下出現(xiàn)的一種新的以“提問(wèn)-回答”為主的信息交流和知識(shí)分享系統(tǒng),例如Yahoo!Answers、百度知道等。區(qū)別于自動(dòng)問(wèn)答系統(tǒng),在社區(qū)問(wèn)答上,用戶(hù)可以提出任何類(lèi)型的問(wèn)題,也可以回答其它用戶(hù)任何類(lèi)型的問(wèn)題。答案檢索是社區(qū)問(wèn)答分析的基礎(chǔ),占有很重要的位置。答案檢索的任務(wù)是指從大規(guī)模的候選答案庫(kù)中檢索出與查詢(xún)問(wèn)題在語(yǔ)義上相似或相近的答案,用戶(hù)回答該查詢(xún)問(wèn)題。因此,答案檢索具有重要的理論意義和實(shí)用價(jià)值。
目前答案檢索面臨的主要挑戰(zhàn)是查詢(xún)問(wèn)題與候選答案之間的詞匯不匹配以及詞匯歧義問(wèn)題。詞匯不匹配通常會(huì)引發(fā)答案檢索模型檢索出許多與用戶(hù)查詢(xún)意圖不匹配的答案,主要原因是社區(qū)問(wèn)答中查詢(xún)問(wèn)題和答案都是由用戶(hù)給出的,而用戶(hù)的查詢(xún)意圖高度多樣化。例如,依據(jù)不同的用戶(hù),詞語(yǔ)“interest”既可以指“curiosity”也可以指“a?charge?for?borrowing?money”。“詞語(yǔ)歧義”是查詢(xún)問(wèn)題與候選答案之間的常見(jiàn)現(xiàn)象,具體表現(xiàn)在,很多詞語(yǔ)在查詢(xún)問(wèn)題和候選答案中出現(xiàn)的次數(shù)并不多,甚至都沒(méi)有在查詢(xún)問(wèn)題或候選答案中出現(xiàn)過(guò),無(wú)法用傳統(tǒng)的基于詞條匹配的方法。
解決上述“詞匯歧義”和“詞匯鴻溝”問(wèn)題的一個(gè)方法就是借助統(tǒng)計(jì)機(jī)器翻譯,將原始語(yǔ)言中的歧義詞以及字面上表示不一樣的詞匯用它們對(duì)應(yīng)的翻譯來(lái)表示。而借助統(tǒng)計(jì)機(jī)器翻譯的方法前提是首先要建立一個(gè)合理的目標(biāo)函數(shù),將原始語(yǔ)言及其對(duì)應(yīng)的翻譯集成在一個(gè)框架中,其次是如何盡量減少統(tǒng)計(jì)機(jī)器翻譯帶來(lái)的噪聲,最后是如何設(shè)計(jì)一種快速的求解方法來(lái)解決上述目標(biāo)函數(shù)。而直接將得到的翻譯詞匯添加到原始語(yǔ)言中,答案檢索的準(zhǔn)確率會(huì)大打折扣,主要原因是將翻譯詞匯直接添加到原始語(yǔ)言中會(huì)大大增加計(jì)算的復(fù)雜度,同時(shí)機(jī)器翻譯的錯(cuò)誤也會(huì)帶來(lái)很多噪音。
答案檢索的任務(wù)是指對(duì)用戶(hù)輸入的查詢(xún)問(wèn)題,從答案文檔集合中檢索出能夠回答該查詢(xún)的答案。答案檢索面臨的主要困難是用戶(hù)查詢(xún)問(wèn)題與候選答案在表達(dá)相同或相似的意思時(shí)使用不同的用詞形式,容易導(dǎo)致詞匯不匹配和詞匯歧義的問(wèn)題。傳統(tǒng)的方法主要依靠挖掘單語(yǔ)之間的詞語(yǔ)關(guān)聯(lián),忽視了多語(yǔ)言信息之間的語(yǔ)義關(guān)聯(lián)。
發(fā)明內(nèi)容
為解決上述問(wèn)題,本發(fā)明首先需要設(shè)計(jì)一個(gè)合理的目標(biāo)函數(shù),將原始語(yǔ)言及其對(duì)應(yīng)的翻譯有效地集成到一個(gè)框架中,同時(shí)在該框架下約束機(jī)器翻譯的噪聲對(duì)答案檢索的影響。然后根據(jù)建立的目標(biāo)函數(shù)及其約束,設(shè)計(jì)了一種快速的求解方法。通過(guò)對(duì)目標(biāo)函數(shù)的求解,得到原始語(yǔ)言及其對(duì)應(yīng)翻譯的隱含表示,最后在隱含空間上計(jì)算用戶(hù)查詢(xún)和候選答案之間的相似度。根據(jù)上述思路,本發(fā)明主要針對(duì)答案檢索存在的兩大難點(diǎn)問(wèn)題入手,成功地將統(tǒng)計(jì)機(jī)器翻譯引入到答案檢索的過(guò)程中,通過(guò)實(shí)驗(yàn)證明,該方法有效地提高了答案檢索的準(zhǔn)確率。
本發(fā)明的基本思想是充分借助統(tǒng)計(jì)機(jī)器翻譯,將原始語(yǔ)言中的歧義詞和字面上表示不一樣的詞匯用它們對(duì)應(yīng)的翻譯來(lái)表示,從而提高答案檢索的性能。
本發(fā)明公開(kāi)了
一種借助統(tǒng)計(jì)機(jī)器翻譯的答案檢索方法,包括如下步驟:
步驟1、借助統(tǒng)計(jì)機(jī)器翻譯工具將原始語(yǔ)言表示的所有候選答案翻譯成其它多種語(yǔ)言;
步驟2、將包括所述原始語(yǔ)言在內(nèi)的每種語(yǔ)言表示的候選答案集成到一個(gè)基于非負(fù)矩陣分解的框架;
步驟3、利用最小二乘法快速梯度下降算法對(duì)所述基于非負(fù)矩陣分解的框架進(jìn)行求解,得到所有候選答案的所述每種語(yǔ)言表示的低維表達(dá);
步驟4、借助統(tǒng)計(jì)機(jī)器翻譯工具將原始語(yǔ)言表示的查詢(xún)問(wèn)題翻譯成其它多種語(yǔ)言翻譯;
步驟5、利用步驟3中得到的所有候選答案的所述每種語(yǔ)言表示的低維表達(dá),將查詢(xún)問(wèn)題及其它多種語(yǔ)言翻譯轉(zhuǎn)化到低維空間上;
步驟6、根據(jù)所述查詢(xún)問(wèn)題及其它多種語(yǔ)言翻譯、以及該查詢(xún)問(wèn)題及其它多種語(yǔ)言翻譯對(duì)應(yīng)的候選答案的低維表達(dá),計(jì)算所述查詢(xún)問(wèn)題及其它多種語(yǔ)言翻譯與它們對(duì)應(yīng)的候選答案之間的相似度,并根據(jù)相似度得到最終檢索結(jié)果。
本發(fā)明還公開(kāi)了一種借助統(tǒng)計(jì)機(jī)器翻譯的答案檢索裝置,其包括:
候選答案翻譯模塊,用于將候選答案翻譯成其它語(yǔ)言;
矩陣分解模塊,將包括所述原始語(yǔ)言在內(nèi)的每種語(yǔ)言表示的候選答案集成到一個(gè)基于非負(fù)矩陣分解的框架;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)科學(xué)院自動(dòng)化研究所,未經(jīng)中國(guó)科學(xué)院自動(dòng)化研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310180146.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 統(tǒng)計(jì)系統(tǒng)、統(tǒng)計(jì)裝置和統(tǒng)計(jì)方法
- 人數(shù)統(tǒng)計(jì)方法和人數(shù)統(tǒng)計(jì)系統(tǒng)
- 統(tǒng)計(jì)物體數(shù)量的統(tǒng)計(jì)系統(tǒng)
- 網(wǎng)絡(luò)處理器的統(tǒng)計(jì)計(jì)數(shù)方法
- 統(tǒng)計(jì)信息上報(bào)方法及裝置
- 稿件統(tǒng)計(jì)方法和稿件統(tǒng)計(jì)系統(tǒng)
- 數(shù)據(jù)統(tǒng)計(jì)方法及裝置
- 獲取數(shù)據(jù)的統(tǒng)計(jì)狀態(tài)的方法及裝置
- 信息統(tǒng)計(jì)方法和信息統(tǒng)計(jì)裝置
- 電量統(tǒng)計(jì)系統(tǒng)及電量統(tǒng)計(jì)方法
- 一種用于提高機(jī)器翻譯質(zhì)量的裝置和方法
- 機(jī)器翻譯方法和裝置
- 一種ERP術(shù)語(yǔ)機(jī)器翻譯方法
- 機(jī)器翻譯引擎推薦方法及裝置
- 神經(jīng)機(jī)器翻譯模型的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 基于機(jī)器翻譯引擎的翻譯方法及裝置
- 一種基于篇章的機(jī)器翻譯引擎測(cè)評(píng)優(yōu)選方法及系統(tǒng)
- 機(jī)器翻譯引擎服務(wù)恢復(fù)方法及裝置
- 一種基于預(yù)訓(xùn)練的稀缺資源神經(jīng)機(jī)器翻譯訓(xùn)練方法
- 基于混合策略的移動(dòng)設(shè)備機(jī)器翻譯系統(tǒng)
- 用于智能問(wèn)答系統(tǒng)的答案排序方法及裝置
- 一種基于串謀檢測(cè)的眾包結(jié)果匯聚方法及裝置
- 一種面向問(wèn)答領(lǐng)域動(dòng)態(tài)計(jì)算問(wèn)句與答案相似性的方法
- 一種基于數(shù)據(jù)處理的眾包任務(wù)答案確定方法及相關(guān)設(shè)備
- 一種手寫(xiě)答案識(shí)別批改方法及裝置
- 一種答案批改方法及裝置
- 一種面向閱讀理解問(wèn)答的多角度答案驗(yàn)證方法
- 一種訓(xùn)練文本關(guān)鍵內(nèi)容提取模型的方法和系統(tǒng)
- 填空題標(biāo)準(zhǔn)答案確定方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 互動(dòng)游戲書(shū)





