[發明專利]一種基于頻次分布校正的低維詞表征學習方法有效
| 申請號: | 201810897220.7 | 申請日: | 2018-08-08 |
| 公開(公告)號: | CN109271622B | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 曹學飛;李濟洪;王瑞波;王鈺;石雋峰;谷波;牛倩 | 申請(專利權)人: | 山西大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284 |
| 代理公司: | 太原晉科知識產權代理事務所(特殊普通合伙) 14110 | 代理人: | 任林芳 |
| 地址: | 030006 山*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 頻次 分布 校正 詞表 學習方法 | ||
1.一種基于頻次分布校正的低維詞表征學習方法,其特征在于,包括:
根據給定的語料C,生成詞表V;其中,詞表V是語料C中出現的不同詞的全部集合;
設定窗口值L,統計由詞表V中的所有詞對wi,wj在語料中的共現頻次Xij,并計算每一詞對wi,wj的共現頻次Xij的降序值;
計算冪指數參數β,計算公式如公式(1);
rij表示詞對wi,wj的共現頻次Xij的降序值,即將所有Xij按照從大到小的次序排列,計算出相應的序值,|X|表示非零的共現頻次的個數;
使用(logXij)β代替GloVe模型中的logXij,得到目標函數如公式(2)所示;
其中vi和分別表示詞對wi,wj中wi和wj的低維詞表征,bi和為vi和對應的偏置項,f(Xij)為加權函數,根據詞對的共現頻次對目標函數中的每一求和項進行加權;
學習得到每個低維詞表征向量vi,以及|V|*d大小的詞表征矩陣,其中,|V|表示詞表的大小,d表示詞表中的詞對應的低維詞表征在詞表征矩陣中的實值向量的維度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山西大學,未經山西大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810897220.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語義消歧處理方法、裝置及其設備
- 下一篇:文本情感去噪方法及系統





