[發(fā)明專利]基于語義表示模型來生成詞向量的方法、裝置和電子設(shè)備在審
| 申請?zhí)枺?/td> | 201611128785.6 | 申請日: | 2016-12-09 |
| 公開(公告)號: | CN108228554A | 公開(公告)日: | 2018-06-29 |
| 發(fā)明(設(shè)計)人: | 張姝;孫俊 | 申請(專利權(quán))人: | 富士通株式會社 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62 |
| 代理公司: | 北京三友知識產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 陶海萍;王曦 |
| 地址: | 日本神奈*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 詞向量 目標(biāo)語言 語義表示 電子設(shè)備 損失函數(shù) 源語言 詞語 語言表示 語義 構(gòu)建 申請 隱含 匹配 共享 語言 監(jiān)督 | ||
本申請的實(shí)施例提供一種基于語義表示模型來生成詞向量的方法、裝置和電子設(shè)備,該方法通過對源語言和目標(biāo)語言的隱含狀態(tài)值進(jìn)行均值匹配來構(gòu)建語義表示模型的損失函數(shù),并且,在基于損失函數(shù)而調(diào)整語義表示模型的過程中,能夠在雙語共享的K維詞向量空間中,分別得到源語言的詞向量和目標(biāo)語言的詞向量,從而使得語義接近的源語言的詞語與目標(biāo)語言的詞語所對應(yīng)的詞向量也彼此接近。根據(jù)本申請實(shí)施例,無需借助于跨語言監(jiān)督,就能夠?qū)崿F(xiàn)源語言和目標(biāo)語言的跨語言表示。
技術(shù)領(lǐng)域
本申請涉及信息技術(shù)領(lǐng)域,尤其涉及一種基于語義表示模型來生成詞向量的方法、裝置和電子設(shè)備。
背景技術(shù)
自然語言理解的問題要轉(zhuǎn)化為機(jī)器學(xué)習(xí)的問題,首先需要將自然語言的符號數(shù)學(xué)化,即,將詞表示為數(shù)字。
最直觀的詞表示方法是One-hot Representation,這種方法把每個詞表示為一個很長的向量,這個向量的維度是詞表大小,其中絕大多數(shù)元素為0,只有一個維度的值為1,這個值為1的維度就代表了當(dāng)前的詞。
例如,“話筒”的向量為[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ...],“麥克”向量為[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 ...]。
One-hot Representation的詞表示方法存在一個重要的問題,那就是“詞匯鴻溝”現(xiàn)象,即,任意兩個詞的向量都是孤立的。所以,光從詞的向量中看不出這些詞是否有關(guān)系。
在自然語言處理領(lǐng)域,通常使用的詞向量并不是用One-hot Representation表示的高維度的詞向量,而是低維實(shí)數(shù)向量,例如,[0.792,-0.177,-0.107,0.109,-0.542,...]。這種低維實(shí)數(shù)向量的維度通常是50或100。基于特定的語義表示模型,一個詞可以被表示為n維空間中的一個低維實(shí)數(shù)向量,并且,對于同一個詞,采用不同的語義表示模型,會得到不同的低維實(shí)數(shù)向量。
用低維實(shí)數(shù)向量作為詞向量來表示詞的情況下,語義相近的詞所對應(yīng)的向量在空間中也會比較接近,例如,“電腦”和“計算機(jī)”的詞向量比較接近。此外,語義表示還有很多有趣的性質(zhì),比如表示“國王”的詞向量減去表示“男人”的詞向量,再加上表示“女人”的詞向量,計算結(jié)果得到的向量與表示“女王”的詞向量非常接近。
常用的用于獲得低維實(shí)數(shù)向量的語義表示模型,例如可以是連續(xù)詞袋(ContinuousBag-of-Words Model,CBOW)模型,或SKIP模型等。
下面,對連續(xù)詞袋(CBOW)模型進(jìn)行簡單說明:
圖1是CBOW模型的一個示意圖,如圖1所示,CBOW模型100至少包括輸入層101,隱含層103,輸出層105,第一權(quán)重矩陣W和第二權(quán)重矩陣M。
在CBOW模型中,語料集D是一系列詞語對(pairs)所構(gòu)成的集合,該集合中有N個詞語對,第i個詞語對可以被表示為(xi,yi),其中,N是自然數(shù),i為整數(shù),且0≤i<N。在第i個詞語對中,yi是中心詞,xi是由該中心詞的Ci個上下文詞語所構(gòu)成的集合,即其中,j為自然數(shù),且j≤Ci。yi,xi∈(1,2,…,V),其中,V是語料集D所處的詞典中詞語的數(shù)量,即詞典的規(guī)模。
例如,該第i個詞語對為(the,cats,sit,on,the,mat),其中,sit是中心詞yi,該中心詞yi的Ci個上下文詞語所構(gòu)成的集合xi=(the,cats,on,the,mat)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于富士通株式會社,未經(jīng)富士通株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611128785.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種信息處理的方法
- 下一篇:基于欄目主題的文章處理方法和裝置





