[發(fā)明專利]一種基于多義詞和同義詞的聚類矯正方法在審
| 申請(qǐng)?zhí)枺?/td> | 202310248724.7 | 申請(qǐng)日: | 2023-03-15 |
| 公開(kāi)(公告)號(hào): | CN116384378A | 公開(kāi)(公告)日: | 2023-07-04 |
| 發(fā)明(設(shè)計(jì))人: | 鄭志松;林鋒;吳運(yùn)昌;丁仙峰 | 申請(qǐng)(專利權(quán))人: | 江蘇數(shù)兌科技有限公司 |
| 主分類號(hào): | G06F40/247 | 分類號(hào): | G06F40/247;G06F40/289;G06F40/216;G06F18/23;G06F40/211;G06F40/30;G06F18/22 |
| 代理公司: | 南京知識(shí)律師事務(wù)所 32207 | 代理人: | 李湘群 |
| 地址: | 210001 江蘇省南京市秦淮區(qū)永智路*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多義詞 同義詞 矯正 方法 | ||
1.一種基于多義詞和同義詞的聚類矯正方法,其特征在于,包括以下步驟:
S101、構(gòu)建文本語(yǔ)料庫(kù)并統(tǒng)計(jì)文本的詞頻信息;
S102、在文本的上下文中找出含有多義詞或同義詞的句子;
S103、對(duì)于多義詞,使用詞袋模型提取原始句子的特征向量;
S104、對(duì)于多義詞,在詞袋模型中,保留多義詞的上下文作為特征向量;
S105、對(duì)于多義詞,提取含有多義詞的句子后,計(jì)算余弦相似度;
S106、對(duì)于多義詞,進(jìn)行多義矯正,計(jì)算詞向量的余弦相似度;
S107、對(duì)于同義詞,使用word2vec模型訓(xùn)練文本的上下文重建文本語(yǔ)料庫(kù);
S108、對(duì)于同義詞,首先創(chuàng)建一個(gè)詞典并通過(guò)One-hot代表法對(duì)每個(gè)單詞順序進(jìn)行排序,給每個(gè)單詞分配一個(gè)序號(hào),將單詞表示成一個(gè)長(zhǎng)向量;
S109、對(duì)于同義詞,將單詞轉(zhuǎn)換成一組數(shù)字向量輸入到機(jī)器學(xué)習(xí)模型當(dāng)中作為語(yǔ)料庫(kù);
S110、對(duì)于同義詞,進(jìn)行同義矯正,通過(guò)掃描語(yǔ)料庫(kù),將數(shù)字存儲(chǔ)在哈希表中;
S111、對(duì)于同義詞矯正,根據(jù)詞頻出現(xiàn)情況創(chuàng)建霍夫曼樹(shù),將每個(gè)單詞添加到霍夫曼樹(shù)中作為葉節(jié)點(diǎn),其中詞頻是對(duì)應(yīng)的權(quán)重,非葉節(jié)點(diǎn)代表某一類的詞;
S112、對(duì)于同義詞矯正,初始化詞向量,對(duì)霍夫曼樹(shù)的詞向量和非葉節(jié)點(diǎn)向量進(jìn)行初始化;
S113、進(jìn)行迭代優(yōu)化,按短句遍歷語(yǔ)料庫(kù),計(jì)算梯度,用梯度下降法更新詞向量值,并在非葉節(jié)點(diǎn)處提取向量。
2.根據(jù)權(quán)利要求1所述的基于多義詞和同義詞的聚類矯正方法,其特征在于,步驟S101中,統(tǒng)計(jì)文本的詞頻信息是通過(guò)術(shù)語(yǔ)頻率和反向文檔詞頻來(lái)計(jì)算文本語(yǔ)料庫(kù)中句子出現(xiàn)的頻率,即詞頻信息。
3.根據(jù)權(quán)利要求1所述的基于多義詞和同義詞的聚類矯正方法,其特征在于:所述步驟S102是通過(guò)余弦相似度計(jì)算詞向量和句子向量的相似度在文本的上下文中找出含有多義詞或同義詞的句子,表達(dá)式為:
其中,similarity代表兩個(gè)文本向量的相似度,cos(θ)代表兩個(gè)向量的點(diǎn)積和,A與B分別代表兩個(gè)屬性向量。
4.根據(jù)權(quán)利要求1所述的基于多義詞和同義詞的聚類矯正方法,其特征在于,所述步驟S106包括:每個(gè)句子均會(huì)被一個(gè)模塊提取出來(lái),并存儲(chǔ)為一個(gè)術(shù)語(yǔ)向量,術(shù)語(yǔ)向量中的術(shù)語(yǔ)以其詞根形式存在,并過(guò)濾掉停止詞。
5.根據(jù)權(quán)利要求1所述的基于多義詞和同義詞的聚類矯正方法,其特征在于,所述步驟S108包括:通過(guò)訓(xùn)練將每個(gè)詞映射成一個(gè)K維的實(shí)數(shù)向量,K為參數(shù),然后計(jì)算余弦相似度和歐氏距離來(lái)確定語(yǔ)義相似度,創(chuàng)建一個(gè)詞典并通過(guò)One-hot代表法對(duì)每個(gè)單詞順序進(jìn)行排序,給每個(gè)單詞分配一個(gè)序號(hào),將單詞表示成一個(gè)長(zhǎng)向量。
6.根據(jù)權(quán)利要求1所述的基于多義詞和同義詞的聚類矯正方法,其特征在于,所述步驟S111包括:圍繞上下文詞c中預(yù)測(cè)目標(biāo)詞t,目標(biāo)是在訓(xùn)練集上最大化P(t|c),在時(shí)間T上,以最小化當(dāng)前目標(biāo)詞t和上下文詞c的向量之間的距離增加P(t|c),并循環(huán)此過(guò)程。
7.根據(jù)權(quán)利要求1所述的基于多義詞和同義詞的聚類矯正方法,其特征在于:步驟S113中,進(jìn)行迭代優(yōu)化,按短句遍歷語(yǔ)料庫(kù),計(jì)算梯度,使用帶負(fù)采樣的Skip-gram模型對(duì)同義詞糾正提取信息,用梯度下降法更新詞向量值,并在非葉節(jié)點(diǎn)處提取向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇數(shù)兌科技有限公司,未經(jīng)江蘇數(shù)兌科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310248724.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于上下文的譯文自動(dòng)調(diào)序方法
- 一種確定多義詞詞義的方法
- 基于CRP聚類的詞語(yǔ)多原型向量表示及詞義消歧方法
- 一種多義詞發(fā)現(xiàn)的方法及裝置
- 一種多義詞語(yǔ)義的確定方法和系統(tǒng)
- 一種結(jié)合知識(shí)圖譜的語(yǔ)義消歧方法和裝置、智能學(xué)習(xí)設(shè)備
- 一種對(duì)句子中多義詞進(jìn)行消岐的方法及系統(tǒng)
- 一種基于神經(jīng)網(wǎng)絡(luò)的多義詞識(shí)別方法
- 多義詞的翻譯方法、裝置、電子設(shè)備及介質(zhì)
- 一種多義詞向量的處理方法、系統(tǒng)、裝置及介質(zhì)
- 用于匹配實(shí)體的系統(tǒng)和方法及其中使用的同義詞群組織器
- 同義詞模板的挖掘方法和裝置以及同義詞挖掘方法和裝置
- 一種同義詞語(yǔ)義映射關(guān)系確定方法及裝置
- 文本挖掘系統(tǒng)、文本挖掘方法和程序
- 用于生成同義詞的方法和裝置
- 同義詞的挖掘方法及裝置、計(jì)算機(jī)可讀介質(zhì)、電子設(shè)備
- 搜索信息的同義詞擴(kuò)展方法及裝置
- 同義詞生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于醫(yī)學(xué)同義詞在線編輯檢索系統(tǒng)
- 信息處理方法、裝置、設(shè)備、系統(tǒng)及可讀存儲(chǔ)介質(zhì)





