[發(fā)明專利]一種基于頻次分布校正的低維詞表征學(xué)習(xí)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810897220.7 | 申請(qǐng)日: | 2018-08-08 |
| 公開(公告)號(hào): | CN109271622B | 公開(公告)日: | 2021-05-14 |
| 發(fā)明(設(shè)計(jì))人: | 曹學(xué)飛;李濟(jì)洪;王瑞波;王鈺;石雋峰;谷波;牛倩 | 申請(qǐng)(專利權(quán))人: | 山西大學(xué) |
| 主分類號(hào): | G06F40/284 | 分類號(hào): | G06F40/284 |
| 代理公司: | 太原晉科知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 14110 | 代理人: | 任林芳 |
| 地址: | 030006 山*** | 國省代碼: | 山西;14 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 頻次 分布 校正 詞表 學(xué)習(xí)方法 | ||
本發(fā)明公開了一種基于頻次分布校正的低維詞表征學(xué)習(xí)方法,對(duì)給定的語料,統(tǒng)計(jì)出設(shè)定窗口內(nèi)詞對(duì)的共現(xiàn)頻次,通過對(duì)共現(xiàn)頻次的對(duì)數(shù)值進(jìn)行適當(dāng)?shù)膬绱巫儞Q,根據(jù)語料自適應(yīng)地優(yōu)選冪次變換中的冪指數(shù)參數(shù)值,先將詞對(duì)共現(xiàn)頻次的分布校正為Zipf分布,再通過GloVe模型學(xué)習(xí)得到低維的詞表征向量,實(shí)驗(yàn)證明得到的詞表征有更高的精度,同時(shí)訓(xùn)練速度也更快。通過本發(fā)明,可以生成精度更高的低維詞表征。
技術(shù)領(lǐng)域
本發(fā)明涉及低維詞表征學(xué)習(xí)領(lǐng)域,尤其涉及一種基于頻次分布校正的低維詞表征學(xué)習(xí)方法。
背景技術(shù)
自然語言中,詞是承載語義的基本單元,如何表征詞的意義? Harris在1954年提出的分布假說(distributional hypothesis)為這一設(shè)想提供了理論基礎(chǔ):上下文相似的詞,其語義也相似。Firth在1957 年對(duì)分布假說進(jìn)行了進(jìn)一步的闡述:a word ischaracterized by the company it keeps(一個(gè)詞的含義可以由它周圍的詞來刻畫)。
隨著大規(guī)模語料在自然語言中的廣泛使用,基于上述分布假說,演化出了詞的分布式表示方法(distributional representation)。該方法需要構(gòu)建一個(gè)詞對(duì)共現(xiàn)矩陣,從矩陣直接獲取詞的分布式表示,詞對(duì)共現(xiàn)矩陣的每一行或每一列對(duì)應(yīng)一個(gè)詞,矩陣中的每個(gè)元素對(duì)應(yīng)相應(yīng)詞對(duì)在語料中的共現(xiàn)頻次,在這種方法下,矩陣中的一行,就成為了對(duì)應(yīng)詞的分布式表示。然而這種表示方法有個(gè)很大的缺陷:每個(gè)詞的分布式表示是一個(gè)非常稀疏且高維的向量,這導(dǎo)致基于此高維向量的語義計(jì)算常常失效。
近年來,低維詞表征(distributed representation)學(xué)習(xí)開始得到人們的廣泛關(guān)注。隨著深度學(xué)習(xí)的興起,研究人員提出了許多方法和模型去學(xué)習(xí)詞的低維表征,如CBOW、Skip-gram以及GloVe等。該類方法是將高維稀疏的詞的分布式表示映射為低維實(shí)值向量,從而使得語義計(jì)算變得可行。對(duì)低維詞表征的精度,一般采用word analogy 任務(wù)和wordsimilarity任務(wù)來評(píng)測(cè)。word analogy任務(wù)的性能指標(biāo)是準(zhǔn)確率,準(zhǔn)確率越高,低維詞表征的精度越高;word similarity任務(wù)的性能指標(biāo)是斯皮爾曼相關(guān)系數(shù),相關(guān)系數(shù)越大,低維詞表征的精度更高。但是現(xiàn)有的實(shí)現(xiàn)低維詞表征學(xué)習(xí)的方法,其低維詞表征的精度還有待提高。
發(fā)明內(nèi)容
本發(fā)明的目的在于為提高低維詞表征的精度而提供一種基于頻次分布校正的低維詞表征學(xué)習(xí)方法。
本發(fā)明的目的可以通過采用如下的技術(shù)措施來實(shí)現(xiàn),設(shè)計(jì)一種基于頻次分布校正的低維詞表征學(xué)習(xí)方法,包括:根據(jù)給定的語料C,生成詞表V;其中,詞表V是語料C中出現(xiàn)的不同詞的全部集合;
設(shè)定窗口值L,統(tǒng)計(jì)由詞表V中的所有詞對(duì)wi,wj在語料中的共現(xiàn)頻次Xij,并計(jì)算每一詞對(duì)wi,wj的共現(xiàn)頻次Xij的降序值rij;
計(jì)算冪指數(shù)參數(shù)β,計(jì)算公式如公式1;
rij表示詞對(duì)wi,wj的共現(xiàn)頻次Xij的降序值,即將所有Xij按照從大到小的次序排列,計(jì)算出相應(yīng)的序值,|X|表示非零的共現(xiàn)頻次的個(gè)數(shù);
使用(logXij)β代替GloVe模型中的logXij,學(xué)習(xí)得到每個(gè)低維詞表征向量vi,以及|V|*d大小的詞表征矩陣。
其中,使用(logXij)β代替GloVe模型中的logXij,得到的目標(biāo)函數(shù)如公式(2)所示;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山西大學(xué),未經(jīng)山西大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810897220.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





