[發(fā)明專利]多粒度詞向量的評估方法、裝置、電子設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202310581346.4 | 申請日: | 2023-05-23 |
| 公開(公告)號: | CN116341537A | 公開(公告)日: | 2023-06-27 |
| 發(fā)明(設(shè)計)人: | 華嬌嬌;唐華云;李榮;王延昭;黃鑫玉;孫爽;商麗麗 | 申請(專利權(quán))人: | 中債金科信息技術(shù)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/216;G06F40/247;G06F16/35;G06N3/0442;G06N3/08 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 張曉霞 |
| 地址: | 101118 北京市通州區(qū)宋莊鎮(zhèn)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 粒度 向量 評估 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
1.一種多粒度詞向量的評估方法,其特征在于,包括:
獲取目標領(lǐng)域的多個預處理后的目標文本,并將多個所述目標文本劃分為訓練集和測試集;
構(gòu)建多個詞向量訓練模型,所述多個詞向量訓練模型包括基于字、詞和字組件的聯(lián)合詞向量訓練模型和基于字和/或詞的詞向量訓練模型;所述字組件為字的組成部分;
針對每個所述詞向量訓練模型,利用所述詞向量訓練模型對所述訓練集進行詞向量訓練,得到詞向量訓練集,并將所述詞向量訓練集輸入初始文本分類模型中進行訓練,得到訓練好的文本分類模型;
利用所述詞向量訓練模型對所述測試集進行詞向量訓練,得到詞向量測試集,并將所述詞向量測試集輸入所述訓練好的文本分類模型中進行測試,得到所述訓練好的文本分類模型的多個模型性能指標,所述多個模型性能指標用于基于多角度對所述詞向量測試集的性能進行評估。
2.根據(jù)權(quán)利要求1所述的多粒度詞向量的評估方法,其特征在于,針對所述基于字、詞和字組件的聯(lián)合詞向量訓練模型,所述利用所述詞向量訓練模型對所述訓練集進行詞向量訓練,得到詞向量訓練集,包括:
分別統(tǒng)計所述訓練集中各字、詞和字組件的出現(xiàn)頻率;
基于所述訓練集中各字、詞和字組件的出現(xiàn)頻率的順序,分別構(gòu)建字表、詞表和字組件表;
將所述字表中的每個字、所述詞表中的每個詞和所述字組件表中的每個字組件分別初始化為預設(shè)維數(shù)的初始化向量;
依次將所述訓練集中的每個所述目標文本中的各字、詞和字組件分別映射為所述預設(shè)維數(shù)的初始化向量,并輸入所述基于字、詞和字組件的聯(lián)合詞向量訓練模型中進行詞向量訓練,直至模型收斂,得到所述詞向量訓練集。
3.根據(jù)權(quán)利要求1所述的多粒度詞向量的評估方法,其特征在于,針對基于字和詞的詞向量訓練模型,所述利用所述詞向量訓練模型對所述訓練集進行詞向量訓練,得到詞向量訓練集,包括:
分別統(tǒng)計所述訓練集中各字和詞的出現(xiàn)頻率;
基于所述訓練集中各字和詞的出現(xiàn)頻率的順序,分別構(gòu)建字表和詞表;
將所述字表中的每個字和所述詞表中的每個詞分別初始化為預設(shè)維數(shù)的初始化向量;
依次將所述訓練集中的每個所述目標文本中的各字和詞分別映射為所述預設(shè)維數(shù)的初始化向量,并輸入所述基于字和詞的詞向量訓練模型中進行詞向量訓練,直至模型收斂,得到所述詞向量訓練集。
4.根據(jù)權(quán)利要求1所述的多粒度詞向量的評估方法,其特征在于,針對基于詞的詞向量訓練模型,所述利用所述詞向量訓練模型對所述訓練集進行詞向量訓練,得到詞向量訓練集,包括:
統(tǒng)計所述訓練集中各詞的出現(xiàn)頻率;
基于所述訓練集中各詞的出現(xiàn)頻率的順序,構(gòu)建詞表;
將所述詞表中的每個詞初始化為預設(shè)維數(shù)的初始化向量;
依次將所述訓練集中的每個所述目標文本中的各詞分別映射為所述預設(shè)維數(shù)的初始化向量,并輸入所述基于詞的詞向量訓練模型中進行詞向量訓練,直至模型收斂,得到所述詞向量訓練集。
5.根據(jù)權(quán)利要求1至4任一項所述的多粒度詞向量的評估方法,其特征在于,所述初始文本分類模型為單層長短期記憶人工神經(jīng)網(wǎng)絡(luò),所述單層長短期記憶人工神經(jīng)網(wǎng)絡(luò)包括記憶細胞、遺忘門、更新門和輸出門;
所述將所述詞向量訓練集輸入初始文本分類模型中進行訓練,得到訓練好的文本分類模型,包括:
將所述詞向量訓練集輸入所述單層長短期記憶人工神經(jīng)網(wǎng)絡(luò)中進行迭代訓練,在訓練的過程中利用所述遺忘門、所述更新門和所述輸出門控制所述記憶細胞的狀態(tài),得到訓練好的所述文本分類模型。
6.根據(jù)權(quán)利要求1至4任一項所述的多粒度詞向量的評估方法,其特征在于,所述獲取目標領(lǐng)域的多個預處理后的目標文本,包括:
獲取目標領(lǐng)域的多個原始文本;
確定所述目標領(lǐng)域的停用詞表和專用詞表;
利用正則表達式將所述多個原始文本中的非漢字部分進行去除處理;
基于所述停用詞表和所述專用詞表,對去除處理后的所述多個原始文本進行分詞處理;
對分詞處理后的所述多個原始文本添加標簽,得到多個所述目標文本,所述標簽為所述原始文本對應的欄目名稱。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中債金科信息技術(shù)有限公司,未經(jīng)中債金科信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310581346.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





