[發(fā)明專利]無監(jiān)督可解釋分詞的方法、裝置和電子設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 202110887556.7 | 申請(qǐng)日: | 2021-08-03 |
| 公開(公告)號(hào): | CN113591475B | 公開(公告)日: | 2023-07-21 |
| 發(fā)明(設(shè)計(jì))人: | 陸中秋;王椗;劉金艷 | 申請(qǐng)(專利權(quán))人: | 美的集團(tuán)(上海)有限公司;美的集團(tuán)股份有限公司 |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06F40/216;G06F16/33;G06F16/35 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 安衛(wèi)靜 |
| 地址: | 201700 上海市青浦區(qū)*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 監(jiān)督 可解釋 分詞 方法 裝置 電子設(shè)備 | ||
1.一種無監(jiān)督可解釋分詞的方法,其特征在于,包括:
獲取基于預(yù)訓(xùn)練語言模型的掩碼語言模型分類器,并獲取待分詞文本的字級(jí)別掩碼序列,其中,所述掩碼語言模型分類器為采用專業(yè)領(lǐng)域文本訓(xùn)練得到的,所述預(yù)訓(xùn)練語言模型包括掩碼語言模型系列中的語言訓(xùn)練模型;訓(xùn)練所述掩碼語言模型分類器時(shí),將預(yù)設(shè)專業(yè)領(lǐng)域的未標(biāo)記原始文本隨機(jī)遮蓋至少一個(gè)字輸入所述掩碼語言模型分類器,以訓(xùn)練所述掩碼語言模型分類器,使其分類得到上述隨機(jī)遮蓋的至少一個(gè)字;
將所述字級(jí)別掩碼序列輸入至所述掩碼語言模型分類器,輸出得到與所述字級(jí)別掩碼序列對(duì)應(yīng)的掩碼字符概率,并將與所述字級(jí)別掩碼序列對(duì)應(yīng)的局部擾動(dòng)掩碼序列輸入至所述掩碼語言模型分類器,輸出得到與所述局部擾動(dòng)掩碼序列對(duì)應(yīng)的掩碼字符概率,其中,所述掩碼字符概率表示掩碼位置為所述掩碼語言模型分類器的所有詞表中每一個(gè)字詞的概率;
采用所述字級(jí)別掩碼序列、與所述字級(jí)別掩碼序列對(duì)應(yīng)的掩碼字符概率、所述局部擾動(dòng)掩碼序列、與所述局部擾動(dòng)掩碼序列對(duì)應(yīng)的掩碼字符概率對(duì)局部可解釋模型進(jìn)行訓(xùn)練,得到所述局部可解釋模型的可解釋性權(quán)重,并將所述可解釋性權(quán)重作為掩碼字符的上下文因果相關(guān)度向量,進(jìn)而得到所述待分詞文本的字符之間的有向因果相關(guān)度矩陣;
根據(jù)所述有向因果相關(guān)度矩陣對(duì)所述待分詞文本進(jìn)行分詞,得到所述待分詞文本的分詞結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述有向因果相關(guān)度矩陣對(duì)所述待分詞文本進(jìn)行分詞,包括:
將所述有向因果相關(guān)度矩陣轉(zhuǎn)換為無向因果相關(guān)度矩陣;
根據(jù)所述無向因果相關(guān)度矩陣對(duì)所述待分詞文本進(jìn)行分詞,得到所述待分詞文本的分詞結(jié)果。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,將所述有向因果相關(guān)度矩陣轉(zhuǎn)換為無向因果相關(guān)度矩陣,包括:
取所述有向因果相關(guān)度矩陣中對(duì)稱位置元素的較大值,并將所述對(duì)稱位置元素設(shè)置為所述較大值,得到所述無向因果相關(guān)度矩陣。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述無向因果相關(guān)度矩陣對(duì)所述待分詞文本進(jìn)行分詞,包括:
循環(huán)遍歷所述無向因果相關(guān)度矩陣中的所有行的字符,執(zhí)行以下操作:
若所述無向因果相關(guān)度矩陣中,當(dāng)前行中的最大因果相關(guān)度對(duì)應(yīng)的兩個(gè)字符相鄰,則將所述兩個(gè)字符進(jìn)行合并;若所述無向因果相關(guān)度矩陣中,當(dāng)前行中的最大因果相關(guān)度對(duì)應(yīng)的兩個(gè)字符不相鄰,則不合并,并保留所述當(dāng)前行所對(duì)應(yīng)的字符,其中,所述相鄰是指相對(duì)于待分詞文本中的字符相鄰;
基于合并的字符對(duì)所述無向因果相關(guān)度矩陣進(jìn)行更新,得到更新后的無向因果相關(guān)度矩陣;
將所述更新后的無向因果相關(guān)度矩陣作為所述無向因果相關(guān)度矩陣,返回執(zhí)行若所述無向因果相關(guān)度矩陣中,當(dāng)前行中的最大因果相關(guān)度對(duì)應(yīng)的兩個(gè)字符相鄰,則將所述兩個(gè)字符進(jìn)行合并;若所述無向因果相關(guān)度矩陣中,當(dāng)前行中的最大因果相關(guān)度對(duì)應(yīng)的兩個(gè)字符不相鄰,則不合并,并保留所述當(dāng)前行所對(duì)應(yīng)的字符的步驟,直至合并得到所述待分詞文本為止;
將每次得到的合并的字符和保留的當(dāng)前行所對(duì)應(yīng)的字符作為所述待分詞文本的分詞結(jié)果。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,基于合并的字符對(duì)所述無向因果相關(guān)度矩陣進(jìn)行更新,包括:
根據(jù)所述合并的字符對(duì)應(yīng)的所述無向因果相關(guān)度矩陣中的行和列,對(duì)所述無向因果相關(guān)度矩陣進(jìn)行更新,得到所述更新后的無向因果相關(guān)度矩陣。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)所述合并的字符對(duì)應(yīng)的所述無向因果相關(guān)度矩陣中的行和列,對(duì)所述無向因果相關(guān)度矩陣進(jìn)行更新,包括:
將所述合并的字符對(duì)應(yīng)的所述無向因果相關(guān)度矩陣中的兩行的元素對(duì)應(yīng)取平均值,并將所述合并的字符對(duì)應(yīng)的所述無向因果相關(guān)度矩陣中的兩列的元素對(duì)應(yīng)取平均值,得到所述更新后的無向因果相關(guān)度矩陣。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)訓(xùn)練語言模型包括以下任一種:Bert、Robert、XlNet、Roberta、Albert;所述局部可解釋模型包括以下任一種:線性回歸模型、決策樹模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于美的集團(tuán)(上海)有限公司;美的集團(tuán)股份有限公司,未經(jīng)美的集團(tuán)(上海)有限公司;美的集團(tuán)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110887556.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 在即時(shí)通信中提供即時(shí)監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對(duì)象尋址方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法
- 編譯時(shí)可解釋代碼檢錯(cuò)
- 針對(duì)損害可能而分析可解釋代碼
- 信息處理設(shè)備、程序產(chǎn)品和記錄介質(zhì)
- 可解釋性競(jìng)爭(zhēng)對(duì)手建模方法
- 大氣污染的可解釋預(yù)測(cè)方法
- 基于圖神經(jīng)網(wǎng)絡(luò)的錯(cuò)因分析方法
- 一種可解釋區(qū)域引導(dǎo)的對(duì)抗樣本檢測(cè)方法
- 一種機(jī)器學(xué)習(xí)可解釋方法、裝置及存儲(chǔ)介質(zhì)
- 一種實(shí)現(xiàn)人工智能可解釋的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種風(fēng)速預(yù)測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





