[發(fā)明專利]詞義消歧方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202111249932.6 | 申請(qǐng)日: | 2021-10-26 |
| 公開(公告)號(hào): | CN113704416B | 公開(公告)日: | 2022-03-04 |
| 發(fā)明(設(shè)計(jì))人: | 張劍;楊大明;黃石磊;蔣志燕 | 申請(qǐng)(專利權(quán))人: | 深圳市北科瑞聲科技股份有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/35;G06F16/36;G06F40/166;G06F40/274 |
| 代理公司: | 深圳智匯遠(yuǎn)見知識(shí)產(chǎn)權(quán)代理有限公司 44481 | 代理人: | 劉潔 |
| 地址: | 518036 廣東省深圳市福田區(qū)梅林街道*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 詞義 方法 裝置 電子設(shè)備 計(jì)算機(jī) 可讀 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)涉及一種詞義消歧方法,所述方法包括:獲取待處理文本,確定待處理文本中的待消歧詞,以及待消歧詞的上文和所述待消歧詞的下文,從預(yù)設(shè)的語(yǔ)義知識(shí)庫(kù)中搜索待消歧詞對(duì)應(yīng)的多個(gè)定義解釋,對(duì)多個(gè)定義解釋進(jìn)行向量化,得到定義矩陣,基于定義矩陣構(gòu)建對(duì)應(yīng)的分類器,將上文、下文和待消歧詞輸入至分類器,得到待消歧詞的預(yù)測(cè)候選詞,利用預(yù)測(cè)候選詞對(duì)待消歧詞進(jìn)行替換,得到消除歧義后的標(biāo)準(zhǔn)文本。此外,本申請(qǐng)還涉及一種詞義消歧裝置、設(shè)備及存儲(chǔ)介質(zhì)。本申請(qǐng)可解決詞義消歧的準(zhǔn)確度不夠高的問(wèn)題。
技術(shù)領(lǐng)域
本申請(qǐng)涉及文本處理領(lǐng)域,尤其涉及一種詞義消歧方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
在語(yǔ)言詞匯中存在著一定數(shù)量的歧義詞,雖然歧義詞的出現(xiàn)為自然語(yǔ)言的應(yīng)用帶來(lái)了便利,但是也為自然語(yǔ)言的理解和翻譯帶來(lái)了一定的困難。隨著人工智能的興起,詞義消歧在諸多高新領(lǐng)域中的應(yīng)用越來(lái)越多,已經(jīng)成為了一個(gè)自然語(yǔ)言處理中需要解決的重要難題。
現(xiàn)有的詞義消歧方法通常是結(jié)合機(jī)器學(xué)習(xí)來(lái)進(jìn)行詞義消歧,這種方法需要大量的人工標(biāo)注訓(xùn)練語(yǔ)料,代價(jià)昂貴。同時(shí)利用人工標(biāo)注訓(xùn)練語(yǔ)料并不能全面且準(zhǔn)確地標(biāo)注出不常見且具有多重含義的詞語(yǔ),因此導(dǎo)致詞義消歧的準(zhǔn)確度不夠高。
發(fā)明內(nèi)容
本申請(qǐng)?zhí)峁┝艘环N詞義消歧方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),以解決詞義消歧的準(zhǔn)確度不夠高的問(wèn)題。
第一方面,本申請(qǐng)?zhí)峁┝艘环N詞義消歧方法,所述方法包括:
獲取待處理文本,確定所述待處理文本中的待消歧詞,以及所述待消歧詞的上文和所述待消歧詞的下文;
從預(yù)設(shè)的語(yǔ)義知識(shí)庫(kù)中搜索所述待消歧詞對(duì)應(yīng)的多個(gè)定義解釋,對(duì)多個(gè)所述定義解釋進(jìn)行向量化,得到定義矩陣;
基于所述定義矩陣構(gòu)建對(duì)應(yīng)的分類器,將所述上文、所述下文和所述待消歧詞輸入至所述分類器,得到所述待消歧詞的預(yù)測(cè)候選詞;利用所述預(yù)測(cè)候選詞對(duì)所述待消歧詞進(jìn)行替換,得到消除歧義后的標(biāo)準(zhǔn)文本。
詳細(xì)地,所述將所述上文、所述下文和所述待消歧詞輸入至所述分類器,得到所述待消歧詞的預(yù)測(cè)候選詞,包括:
對(duì)所述上文、所述下文和所述待消歧詞分別進(jìn)行向量化處理,得到上文向量、歧義詞向量和下文向量;
對(duì)所述上文向量、所述歧義詞向量和所述下文向量進(jìn)行向量平均,得到語(yǔ)義向量;
將所述語(yǔ)義向量輸入至所述分類器,得到所述待消歧詞的預(yù)測(cè)候選詞。
詳細(xì)地,所述對(duì)所述上文、所述下文和所述待消歧詞分別進(jìn)行向量化處理,得到上文向量、歧義詞向量和下文向量,包括:
分別對(duì)所述上文、所述下文和所述待消歧詞進(jìn)行掩碼處理,得到掩碼數(shù)據(jù)集;
將所述掩碼數(shù)據(jù)集轉(zhuǎn)換為向量數(shù)據(jù)集,并對(duì)所述向量數(shù)據(jù)集執(zhí)行矩陣轉(zhuǎn)換處理,得到目標(biāo)向量相關(guān)矩陣;
將所述目標(biāo)向量相關(guān)矩陣輸入至預(yù)訓(xùn)練模型的最終隱藏輸出層中,得到上文向量、歧義詞向量和下文向量。
詳細(xì)地,所述分別對(duì)所述上文、所述下文和所述待消歧詞進(jìn)行掩碼處理,得到掩碼數(shù)據(jù)集,包括:
利用預(yù)獲取的掩碼概率從所述上文、所述下文和所述待消歧詞中篩選出多個(gè)關(guān)鍵詞,對(duì)所述多個(gè)關(guān)鍵詞進(jìn)行掩碼處理,得到所述關(guān)鍵詞對(duì)應(yīng)的掩碼詞;
利用所述掩碼詞替換所述關(guān)鍵詞,得到掩碼數(shù)據(jù)集。
詳細(xì)地,所述對(duì)所述向量數(shù)據(jù)集執(zhí)行矩陣轉(zhuǎn)換處理,得到目標(biāo)向量相關(guān)矩陣,包括:
對(duì)所述向量數(shù)據(jù)集進(jìn)行位置編碼處理,得到位置向量集;
將所述位置向量集轉(zhuǎn)換為位置向量矩陣,并根據(jù)所述位置向量矩陣的維度生成分類矩陣;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市北科瑞聲科技股份有限公司,未經(jīng)深圳市北科瑞聲科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111249932.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 使用語(yǔ)義歧義消除與擴(kuò)展的因特網(wǎng)搜索
- 處理查詢的系統(tǒng)和方法
- 一種基于短語(yǔ)結(jié)構(gòu)句法樹的英文詞義消歧方法
- 一種詞義標(biāo)注方法和裝置
- 一種基于詞向量的英漢詞義映射方法和裝置
- 詞義相似度確定方法及裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種中文詞義表示學(xué)習(xí)方法及裝置
- 字詞詞義處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種文字語(yǔ)義轉(zhuǎn)場(chǎng)景動(dòng)畫的方法、設(shè)備及存儲(chǔ)介質(zhì)
- 漢字變換學(xué)習(xí)裝置
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





