[發(fā)明專利]中文詞向量處理方法及其系統(tǒng)有效

申請(qǐng)?zhí)枺?/td>	201910074889.0	申請(qǐng)日：	2019-01-25
公開（公告）號(hào)：	CN109902292B	公開（公告）日：	2023-05-09
發(fā)明（設(shè)計(jì)）人：	孟亞磊;劉繼明;劉松;陳浮;金蘭	申請(qǐng)（專利權(quán)）人：	網(wǎng)經(jīng)科技（蘇州）有限公司
主分類號(hào)：	G06F40/289	分類號(hào)：	G06F40/289;G06F40/30
代理公司：	江蘇圣典律師事務(wù)所 32237	代理人：	王玉國(guó)
地址：	215021 江蘇省蘇州市工***	國(guó)省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說(shuō)明書：	查看更多
摘要：
搜索關(guān)鍵詞：	文詞向量處理方法及其系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.中文詞向量處理方法，其特征在于：包括以下步驟：

1)對(duì)訓(xùn)練語(yǔ)料分詞，得到待訓(xùn)練向量的詞列表；

2)對(duì)每個(gè)待訓(xùn)練詞語(yǔ)，確定其對(duì)應(yīng)的n元字根及其代號(hào)表示形式，n元字根是詞包含的連續(xù)n個(gè)字根；

3)按照設(shè)定的維度參數(shù)，對(duì)各詞以及各n元字根的語(yǔ)義向量進(jìn)行初始化；

4)根據(jù)分詞后的語(yǔ)料、當(dāng)前各詞向量及n元字根向量，對(duì)詞向量和字根向量進(jìn)行訓(xùn)練，完成指定輪次訓(xùn)練后結(jié)束；

其中,訓(xùn)練過程是計(jì)算每個(gè)詞的當(dāng)前向量與其目標(biāo)向量的誤差，即以損失函數(shù)計(jì)算每個(gè)詞的當(dāng)前向量與其目標(biāo)向量的誤差,通過反向傳播的方式，對(duì)詞向量及n元字根向量進(jìn)行更新；

在訓(xùn)練過程每輪迭代中，對(duì)語(yǔ)料詞列表每個(gè)詞w，找到詞w對(duì)應(yīng)全部n元字根的向量，按照公式(1)計(jì)算詞w與上下文詞con的語(yǔ)義距離：

公式中Dis(w,con)表示當(dāng)前詞w與上下文詞con的相似度得分；R(w)表示w所對(duì)應(yīng)的n元字根集合，ele表示R(w)中的元素；表示ele與con對(duì)應(yīng)向量的點(diǎn)積運(yùn)算；

從訓(xùn)練語(yǔ)料中抽取p個(gè)非上下文詞作為負(fù)樣例詞，并且計(jì)算誤差得分Loss(w,con)：

第一步，對(duì)于上下文詞con與每個(gè)負(fù)樣例詞con’，按照公式(2)，計(jì)算出con與w的中間得分Score(w,con)；

Score(w,con)＝logσ(Dis(w,con))???????公式(2)

其中l(wèi)og是以2為底的對(duì)數(shù)函數(shù)，σ表示神經(jīng)網(wǎng)絡(luò)激活的sigmod函數(shù)，σ(x)＝1/(1+e^-x),其中e表示自然對(duì)數(shù)的底，約為2.71828；

第二步，按照公式(3)計(jì)算最終誤差得分：

其中，con’是抽取到的負(fù)樣例詞，Score(w,con’)表示當(dāng)前詞w與負(fù)樣例詞con’的中間得分；

得到Loss(w,con)之后，計(jì)算誤差的變化梯度，更新n元字根和上下文詞con的向量。

2.根據(jù)權(quán)利要求1所述的中文詞向量處理方法，其特征在于：步驟1)，以分詞方法或工具對(duì)語(yǔ)料進(jìn)行分詞，所述分詞方法為基于詞典的最大匹配方法、全切分路徑選擇方法、基于字序列標(biāo)注的方法或基于轉(zhuǎn)移的分詞方法，所述分詞工具為開源工具或閉源分詞工具。

3.根據(jù)權(quán)利要求1所述的中文詞向量處理方法，其特征在于：步驟1)，將語(yǔ)料中的一系列句子從漢字序列切分為詞序列，經(jīng)統(tǒng)計(jì)得到語(yǔ)料中出現(xiàn)過的詞構(gòu)成的詞表，對(duì)訓(xùn)練語(yǔ)料分詞后得到的詞列表進(jìn)行過濾，按照停用詞表去除不含實(shí)際意義的虛詞、標(biāo)點(diǎn)，或者設(shè)置一個(gè)閾值th去除出現(xiàn)頻次低的罕見詞。

4.根據(jù)權(quán)利要求1所述的中文詞向量處理方法，其特征在于：步驟2)，以n元字根作為詞的表示方式，字根是由若干筆畫交叉連接而形成的相對(duì)不變的結(jié)構(gòu)，字根具有特定的語(yǔ)義信息，既是字形構(gòu)成的基本單元，也可作為表達(dá)語(yǔ)義的基本元素。

5.根據(jù)權(quán)利要求1所述的中文詞向量處理方法，其特征在于：步驟3)，詞向量的維度根據(jù)語(yǔ)料規(guī)模、詞匯量、表義需求、空間開銷確定，對(duì)各詞以及各n元字根的語(yǔ)義向量采用隨機(jī)初始化或按指定概率分布的方式分配初始值。

6.根據(jù)權(quán)利要求1所述的中文詞向量處理方法，其特征在于：目標(biāo)向量通過基于上下文的方式確定，或通過指定同義詞、近義詞的方式確定。

7.中文詞向量處理系統(tǒng)，其特征在于：包含：

語(yǔ)料預(yù)處理單元，對(duì)訓(xùn)練語(yǔ)料分詞、統(tǒng)計(jì)語(yǔ)料中出現(xiàn)過的詞匯表、按目的對(duì)詞表進(jìn)行過濾，得到待訓(xùn)練向量的各詞；

字根編碼單元，確定各中文字詞的字根序列表示形式，以及字根與字符編碼映射關(guān)系，并按照選定參數(shù)n，得到待訓(xùn)練的各n元字根；

向量初始化單元，按照選定的向量維度d及初始化策略，對(duì)要訓(xùn)練的各詞、各n元字根的向量進(jìn)行初始值分配；對(duì)于已經(jīng)過訓(xùn)練得到向量的部分詞、n元字根，沿用訓(xùn)練結(jié)果作為初始值；

向量訓(xùn)練單元，按照選定的迭代次數(shù)、上下文窗口大小、負(fù)樣例數(shù)量參數(shù)，執(zhí)行詞向量、n元字根向量的訓(xùn)練過程；

訓(xùn)練過程是計(jì)算每個(gè)詞的當(dāng)前向量與其目標(biāo)向量的誤差，即以損失函數(shù)計(jì)算每個(gè)詞的當(dāng)前向量與其目標(biāo)向量的誤差,通過反向傳播的方式，對(duì)詞向量及n元字根向量進(jìn)行更新；

從訓(xùn)練語(yǔ)料中抽取p個(gè)非上下文詞作為負(fù)樣例詞，并且計(jì)算誤差得分Loss(w,con)：

第一步，對(duì)于上下文詞con與每個(gè)負(fù)樣例詞con’，按照公式(2)，計(jì)算出con與w的中間得分Score(w,con)；

Score(w,con)＝logσ(Dis(w,con))???????公式(2)

第二步，按照公式(3)計(jì)算最終誤差得分：

其中，con’是抽取到的負(fù)樣例詞，Score(w,con’)表示當(dāng)前詞w與負(fù)樣例詞con’的中間得分；

得到Loss(w,con)之后，計(jì)算誤差的變化梯度，更新n元字根和上下文詞con的向量。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于網(wǎng)經(jīng)科技（蘇州）有限公司，未經(jīng)網(wǎng)經(jīng)科技（蘇州）有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910074889.0/1.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】