[發(fā)明專利]基于量子測量與自注意力機(jī)制的問答任務(wù)匹配模型及方法在審
| 申請?zhí)枺?/td> | 202110638002.3 | 申請日: | 2021-06-08 |
| 公開(公告)號: | CN113434646A | 公開(公告)日: | 2021-09-24 |
| 發(fā)明(設(shè)計(jì))人: | 宋世凱;宮秀軍;侯越先 | 申請(專利權(quán))人: | 天津大學(xué) |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/284;G06F40/30;G06N3/04;G06N3/08;G06N10/00 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 劉子文 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 量子 測量 注意力 機(jī)制 問答 任務(wù) 匹配 模型 方法 | ||
本發(fā)明公開一種基于量子測量與自注意力機(jī)制的問答任務(wù)匹配模型,使用one?hot向量表示不同的語義單元,單詞由一組相互正交的語義單元組成,并引入self?attention建模不同單詞間的語義權(quán)重,句子由密度矩陣建模,表示一個(gè)包含若干單詞的混合系統(tǒng),通過測量矩陣將兩個(gè)混合系統(tǒng)投影到同一個(gè)平面,以判斷兩個(gè)句子的相似程度。與基準(zhǔn)模型相比,模型在問答任務(wù)中驗(yàn)證了其有效性。相比原始量子語言模型,本文的模型每一部分都有著良好的物理含義和數(shù)學(xué)約束,并通過實(shí)驗(yàn)分析表明其更具可解釋性。提高了問答匹配的效果。
技術(shù)領(lǐng)域
本發(fā)明涉及屬于量子計(jì)算和深度學(xué)習(xí)領(lǐng)域,特別是涉及一種基于量子測量的問答任務(wù)匹配模型及方法。
背景技術(shù)
從2010年開始到現(xiàn)在的十年間,飛速發(fā)展的人工智能領(lǐng)域就一直走在計(jì)算機(jī)科學(xué)技術(shù)的最前沿,向量空間模型在人工智能領(lǐng)域的決定性地位也在這一時(shí)期逐漸開始確立了。與此同時(shí),量子理論的發(fā)展對計(jì)算機(jī)科學(xué)的影響也變得越來越多,有關(guān)量子理論的重大進(jìn)展的消息經(jīng)常出現(xiàn)在日常新聞中。這兩個(gè)領(lǐng)域背后的數(shù)學(xué)基礎(chǔ)的共同點(diǎn)比人們想象的要多很多,對量子理論公理化的核心數(shù)學(xué)基礎(chǔ)就是向量空間,而這種采用向量空間對量子理論公理化的做法,是用向量空間的線性幾何推導(dǎo)量子邏輯和量子概率的關(guān)鍵動機(jī)。微小物理粒子之間的量子作用是用張量積建模的,而張量積也被用來表示神經(jīng)網(wǎng)絡(luò)中對象和操作。受其啟發(fā),一部分科研工作者開始探索用量子理論的數(shù)學(xué)框架來建模人工智能領(lǐng)域的問題,嘗試解決人工智能領(lǐng)域中的不可解釋的問題,其中在自然語言處理領(lǐng)域已有不少有趣的模型成果展現(xiàn)。
線性向量空間在信息檢索中使用最早可以追溯到20世紀(jì)60年代[1],而對量子理論進(jìn)行形式化建模則在量子理論發(fā)展的早期就被認(rèn)識到了,之后這個(gè)兩個(gè)領(lǐng)域均有著蓬勃的發(fā)展但互不相交。直到Van Rijsbergen[2]意識到量子力學(xué)的希爾伯特空間公理化和信息檢索的向量空間模型有很多共通甚至是相同之處,這種創(chuàng)造性的思想為后續(xù)理解和利用量子理論發(fā)展信息檢索鋪平了道路。第一個(gè)真正應(yīng)用量子理論的數(shù)學(xué)框架建模信息檢索模型的是Sordoni、Nie和Bengio[3],他們研究了如何利用量子信息對標(biāo)準(zhǔn)的unigram和bag-of-words語言模型進(jìn)行擴(kuò)展,以適應(yīng)自然語言中因一詞多義或一義多表而產(chǎn)生的上下文依賴關(guān)系,并提高信息檢索模型的性能。單詞的上下文相關(guān)性是信息檢索中一個(gè)長期存在的問題,在實(shí)際任務(wù)中構(gòu)建文檔的概率或者幾何表示時(shí),經(jīng)常會出現(xiàn)無法處理詞組組合性質(zhì)的問題。一個(gè)顯而易見的解決辦法是把詞組作為一個(gè)處理單元來對待,就如同處理單個(gè)單詞一樣,但這樣每個(gè)詞組里單詞所攜帶的信息就會有損失或者被完全淹沒。此外,這種方式也無法清楚地定義以何種權(quán)重組合詞組。為了解決這些問題,Sordoni和他的同事們開發(fā)了量子語言模型(QLM),提供了一種既可以對語言的上下文相關(guān)性進(jìn)行建模,又不會切斷詞組表達(dá)概率和單詞表達(dá)概率的建模方式。通常在信息檢索中對語言建模可以通過將詞匯表中的每一項(xiàng)投影到一個(gè)基向量來表示,例如使用one-hot編碼,然后就可以定義投影算子,以獲取特定上下文中每個(gè)詞組或者句子的投影概率。在量子語言模型中,詞組的表達(dá)式可以表示為其每一部分對應(yīng)的基向量的加權(quán)疊加:
|xy=α0|x+α1|y
其中|x和|y是單個(gè)單詞向量,|xy是詞組的向量表達(dá)式,α0和α1分別為單詞的疊加權(quán)重,且單個(gè)單詞的疊加權(quán)重保持歸一化,即
|α0|2+|α1|2=1
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110638002.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





