[發(fā)明專利]文本處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)在審
| 申請?zhí)枺?/td> | 202210033962.1 | 申請日: | 2022-01-12 |
| 公開(公告)號(hào): | CN116467405A | 公開(公告)日: | 2023-07-21 |
| 發(fā)明(設(shè)計(jì))人: | 曾雙;劉康龍;荊寧;梁海金 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/35;G06F40/284 |
| 代理公司: | 北京派特恩知識(shí)產(chǎn)權(quán)代理有限公司 11270 | 代理人: | 彭奇;吳素花 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 處理 方法 裝置 設(shè)備 計(jì)算機(jī) 可讀 存儲(chǔ) 介質(zhì) | ||
本申請實(shí)施例提供一種文本處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),至少應(yīng)用于人工智能技術(shù)領(lǐng)域,其中,方法包括:針對(duì)于待處理文本中的每一第一類型詞,對(duì)第一類型詞和待處理文本進(jìn)行編碼處理,得到對(duì)應(yīng)于第一類型詞和待處理文本的文本詞向量;對(duì)文本詞向量進(jìn)行上下位關(guān)系解碼處理,得到待處理文本中的每一分詞與第一類型詞具有上下位關(guān)系的置信度;根據(jù)置信度從至少兩個(gè)分詞中確定出與每一第一類型詞對(duì)應(yīng)的第二類型詞;將第一類型詞與第二類型詞進(jìn)行關(guān)聯(lián),得到對(duì)應(yīng)于待處理文本的至少一個(gè)上下位詞對(duì)。通過本申請,能夠準(zhǔn)確的識(shí)別出待處理文本中的多對(duì)上下位詞對(duì),并且能夠提高上下位詞對(duì)的識(shí)別效率。
技術(shù)領(lǐng)域
本申請實(shí)施例涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,涉及但不限于一種文本處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)上的信息量和數(shù)據(jù)量激增,從而提高了信息搜索的難度,而隨著人工智能技術(shù)的發(fā)展,對(duì)信息搜索的搜索準(zhǔn)確度要求越來越高。在進(jìn)行信息搜索時(shí),大部分場景下是在輸入上位概念詞時(shí)檢索與該上位概念詞對(duì)應(yīng)的下位實(shí)體詞的信息,或者是在輸入下位實(shí)體詞時(shí)檢索與該下位實(shí)體詞對(duì)應(yīng)的上位概念詞的信息,因此,需要預(yù)先得到上位概念詞與下位實(shí)體詞之間的對(duì)應(yīng)關(guān)系,也就是需要預(yù)先確定出上下位詞對(duì)。
相關(guān)技術(shù)中,在確定上下位詞對(duì)時(shí),通常采用以下方式實(shí)現(xiàn):基于預(yù)定規(guī)則的方式、通過模板匹配的方式、采用序列標(biāo)注的方式或者基于上下位關(guān)系分類的方式。
但是,相關(guān)技術(shù)中的方法均不能對(duì)僅輸入純文本的情況進(jìn)行準(zhǔn)確的上下位詞對(duì)識(shí)別,且每次只能識(shí)別文本中的一對(duì)上下位詞對(duì),因此,相關(guān)技術(shù)中的方法對(duì)上下位詞對(duì)的識(shí)別準(zhǔn)確率和識(shí)別效率均較低。
發(fā)明內(nèi)容
本申請實(shí)施例提供一種文本處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),至少應(yīng)用于人工智能技術(shù)領(lǐng)域,能夠準(zhǔn)確的識(shí)別出待處理文本中的多對(duì)上下位詞對(duì),并且能夠提高上下位詞對(duì)的識(shí)別效率。
本申請實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的:
本申請實(shí)施例提供一種文本處理方法,所述方法包括:
對(duì)待處理文本進(jìn)行第一類型詞識(shí)別,得到至少一個(gè)第一類型詞;
針對(duì)于每一所述第一類型詞,對(duì)所述第一類型詞和所述待處理文本進(jìn)行編碼處理,得到對(duì)應(yīng)于所述第一類型詞和所述待處理文本的文本詞向量;其中,所述待處理文本包括至少兩個(gè)分詞;
對(duì)所述文本詞向量進(jìn)行上下位關(guān)系解碼處理,得到所述至少兩個(gè)分詞中的每一分詞與所述第一類型詞具有上下位關(guān)系的置信度;
根據(jù)所述置信度,從所述至少兩個(gè)分詞中確定出與每一所述第一類型詞對(duì)應(yīng)的第二類型詞;
將所述第一類型詞與所述第二類型詞進(jìn)行關(guān)聯(lián),得到對(duì)應(yīng)于所述待處理文本的至少一個(gè)上下位詞對(duì)。
本申請實(shí)施例提供一種文本處理裝置,所述裝置包括:
識(shí)別模塊,用于對(duì)待處理文本進(jìn)行第一類型詞識(shí)別,得到至少一個(gè)第一類型詞;
編碼處理模塊,用于針對(duì)于每一所述第一類型詞,對(duì)所述第一類型詞和所述待處理文本進(jìn)行編碼處理,得到對(duì)應(yīng)于所述第一類型詞和所述待處理文本的文本詞向量;其中,所述待處理文本包括至少兩個(gè)分詞;
解碼處理模塊,用于對(duì)所述文本詞向量進(jìn)行上下位關(guān)系解碼處理,得到所述至少兩個(gè)分詞中的每一分詞與所述第一類型詞具有上下位關(guān)系的置信度;
確定模塊,用于根據(jù)所述置信度,從所述至少兩個(gè)分詞中確定出與每一所述第一類型詞對(duì)應(yīng)的第二類型詞;
關(guān)聯(lián)模塊,用于將所述第一類型詞與所述第二類型詞進(jìn)行關(guān)聯(lián),得到對(duì)應(yīng)于所述待處理文本的至少一個(gè)上下位詞對(duì)。
本申請實(shí)施例提供一種文本處理設(shè)備,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210033962.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





