[發(fā)明專利]中文詞向量處理方法及其系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201910074889.0 | 申請(qǐng)日: | 2019-01-25 |
| 公開(公告)號(hào): | CN109902292B | 公開(公告)日: | 2023-05-09 |
| 發(fā)明(設(shè)計(jì))人: | 孟亞磊;劉繼明;劉松;陳浮;金蘭 | 申請(qǐng)(專利權(quán))人: | 網(wǎng)經(jīng)科技(蘇州)有限公司 |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06F40/30 |
| 代理公司: | 江蘇圣典律師事務(wù)所 32237 | 代理人: | 王玉國(guó) |
| 地址: | 215021 江蘇省蘇州市工*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文詞 向量 處理 方法 及其 系統(tǒng) | ||
1.中文詞向量處理方法,其特征在于:包括以下步驟:
1)對(duì)訓(xùn)練語(yǔ)料分詞,得到待訓(xùn)練向量的詞列表;
2)對(duì)每個(gè)待訓(xùn)練詞語(yǔ),確定其對(duì)應(yīng)的n元字根及其代號(hào)表示形式,n元字根是詞包含的連續(xù)n個(gè)字根;
3)按照設(shè)定的維度參數(shù),對(duì)各詞以及各n元字根的語(yǔ)義向量進(jìn)行初始化;
4)根據(jù)分詞后的語(yǔ)料、當(dāng)前各詞向量及n元字根向量,對(duì)詞向量和字根向量進(jìn)行訓(xùn)練,完成指定輪次訓(xùn)練后結(jié)束;
其中,訓(xùn)練過程是計(jì)算每個(gè)詞的當(dāng)前向量與其目標(biāo)向量的誤差,即以損失函數(shù)計(jì)算每個(gè)詞的當(dāng)前向量與其目標(biāo)向量的誤差,通過反向傳播的方式,對(duì)詞向量及n元字根向量進(jìn)行更新;
在訓(xùn)練過程每輪迭代中,對(duì)語(yǔ)料詞列表每個(gè)詞w,找到詞w對(duì)應(yīng)全部n元字根的向量,按照公式(1)計(jì)算詞w與上下文詞con的語(yǔ)義距離:
公式中Dis(w,con)表示當(dāng)前詞w與上下文詞con的相似度得分;R(w)表示w所對(duì)應(yīng)的n元字根集合,ele表示R(w)中的元素;表示ele與con對(duì)應(yīng)向量的點(diǎn)積運(yùn)算;
從訓(xùn)練語(yǔ)料中抽取p個(gè)非上下文詞作為負(fù)樣例詞,并且計(jì)算誤差得分Loss(w,con):
第一步,對(duì)于上下文詞con與每個(gè)負(fù)樣例詞con’,按照公式(2),計(jì)算出con與w的中間得分Score(w,con);
Score(w,con)=logσ(Dis(w,con))???????公式(2)
其中l(wèi)og是以2為底的對(duì)數(shù)函數(shù),σ表示神經(jīng)網(wǎng)絡(luò)激活的sigmod函數(shù),σ(x)=1/(1+e-x),其中e表示自然對(duì)數(shù)的底,約為2.71828;
第二步,按照公式(3)計(jì)算最終誤差得分:
其中,con’是抽取到的負(fù)樣例詞,Score(w,con’)表示當(dāng)前詞w與負(fù)樣例詞con’的中間得分;
得到Loss(w,con)之后,計(jì)算誤差的變化梯度,更新n元字根和上下文詞con的向量。
2.根據(jù)權(quán)利要求1所述的中文詞向量處理方法,其特征在于:步驟1),以分詞方法或工具對(duì)語(yǔ)料進(jìn)行分詞,所述分詞方法為基于詞典的最大匹配方法、全切分路徑選擇方法、基于字序列標(biāo)注的方法或基于轉(zhuǎn)移的分詞方法,所述分詞工具為開源工具或閉源分詞工具。
3.根據(jù)權(quán)利要求1所述的中文詞向量處理方法,其特征在于:步驟1),將語(yǔ)料中的一系列句子從漢字序列切分為詞序列,經(jīng)統(tǒng)計(jì)得到語(yǔ)料中出現(xiàn)過的詞構(gòu)成的詞表,對(duì)訓(xùn)練語(yǔ)料分詞后得到的詞列表進(jìn)行過濾,按照停用詞表去除不含實(shí)際意義的虛詞、標(biāo)點(diǎn),或者設(shè)置一個(gè)閾值th去除出現(xiàn)頻次低的罕見詞。
4.根據(jù)權(quán)利要求1所述的中文詞向量處理方法,其特征在于:步驟2),以n元字根作為詞的表示方式,字根是由若干筆畫交叉連接而形成的相對(duì)不變的結(jié)構(gòu),字根具有特定的語(yǔ)義信息,既是字形構(gòu)成的基本單元,也可作為表達(dá)語(yǔ)義的基本元素。
5.根據(jù)權(quán)利要求1所述的中文詞向量處理方法,其特征在于:步驟3),詞向量的維度根據(jù)語(yǔ)料規(guī)模、詞匯量、表義需求、空間開銷確定,對(duì)各詞以及各n元字根的語(yǔ)義向量采用隨機(jī)初始化或按指定概率分布的方式分配初始值。
6.根據(jù)權(quán)利要求1所述的中文詞向量處理方法,其特征在于:目標(biāo)向量通過基于上下文的方式確定,或通過指定同義詞、近義詞的方式確定。
7.中文詞向量處理系統(tǒng),其特征在于:包含:
語(yǔ)料預(yù)處理單元,對(duì)訓(xùn)練語(yǔ)料分詞、統(tǒng)計(jì)語(yǔ)料中出現(xiàn)過的詞匯表、按目的對(duì)詞表進(jìn)行過濾,得到待訓(xùn)練向量的各詞;
字根編碼單元,確定各中文字詞的字根序列表示形式,以及字根與字符編碼映射關(guān)系,并按照選定參數(shù)n,得到待訓(xùn)練的各n元字根;
向量初始化單元,按照選定的向量維度d及初始化策略,對(duì)要訓(xùn)練的各詞、各n元字根的向量進(jìn)行初始值分配;對(duì)于已經(jīng)過訓(xùn)練得到向量的部分詞、n元字根,沿用訓(xùn)練結(jié)果作為初始值;
向量訓(xùn)練單元,按照選定的迭代次數(shù)、上下文窗口大小、負(fù)樣例數(shù)量參數(shù),執(zhí)行詞向量、n元字根向量的訓(xùn)練過程;
訓(xùn)練過程是計(jì)算每個(gè)詞的當(dāng)前向量與其目標(biāo)向量的誤差,即以損失函數(shù)計(jì)算每個(gè)詞的當(dāng)前向量與其目標(biāo)向量的誤差,通過反向傳播的方式,對(duì)詞向量及n元字根向量進(jìn)行更新;
在訓(xùn)練過程每輪迭代中,對(duì)語(yǔ)料詞列表每個(gè)詞w,找到詞w對(duì)應(yīng)全部n元字根的向量,按照公式(1)計(jì)算詞w與上下文詞con的語(yǔ)義距離:
公式中Dis(w,con)表示當(dāng)前詞w與上下文詞con的相似度得分;R(w)表示w所對(duì)應(yīng)的n元字根集合,ele表示R(w)中的元素;表示ele與con對(duì)應(yīng)向量的點(diǎn)積運(yùn)算;
從訓(xùn)練語(yǔ)料中抽取p個(gè)非上下文詞作為負(fù)樣例詞,并且計(jì)算誤差得分Loss(w,con):
第一步,對(duì)于上下文詞con與每個(gè)負(fù)樣例詞con’,按照公式(2),計(jì)算出con與w的中間得分Score(w,con);
Score(w,con)=logσ(Dis(w,con))???????公式(2)
其中l(wèi)og是以2為底的對(duì)數(shù)函數(shù),σ表示神經(jīng)網(wǎng)絡(luò)激活的sigmod函數(shù),σ(x)=1/(1+e-x),其中e表示自然對(duì)數(shù)的底,約為2.71828;
第二步,按照公式(3)計(jì)算最終誤差得分:
其中,con’是抽取到的負(fù)樣例詞,Score(w,con’)表示當(dāng)前詞w與負(fù)樣例詞con’的中間得分;
得到Loss(w,con)之后,計(jì)算誤差的變化梯度,更新n元字根和上下文詞con的向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于網(wǎng)經(jīng)科技(蘇州)有限公司,未經(jīng)網(wǎng)經(jīng)科技(蘇州)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910074889.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 中文本體庫(kù)自動(dòng)建構(gòu)系統(tǒng)及方法以及儲(chǔ)存媒體
- 中文漢字輸入方法和中文漢字輸入設(shè)備
- 將泰文翻譯為羅馬拼音的方法及其裝置
- 一種標(biāo)簽自動(dòng)提取方法和系統(tǒng)
- 外文詞匯顯示系統(tǒng)及其方法
- 基于中文詞向量模型的文本識(shí)別方法、裝置及存儲(chǔ)介質(zhì)
- 一種機(jī)器翻譯質(zhì)量評(píng)估方法和系統(tǒng)
- 文本檢測(cè)方法及裝置
- 中英文混合語(yǔ)音識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 能一一對(duì)應(yīng)地顯示原文詞匯和譯文詞匯的翻譯裝置及其方法
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





