[發(fā)明專利]無監(jiān)督可解釋分詞的方法、裝置和電子設(shè)備有效
| 申請?zhí)枺?/td> | 202110887556.7 | 申請日: | 2021-08-03 |
| 公開(公告)號: | CN113591475B | 公開(公告)日: | 2023-07-21 |
| 發(fā)明(設(shè)計)人: | 陸中秋;王椗;劉金艷 | 申請(專利權(quán))人: | 美的集團(tuán)(上海)有限公司;美的集團(tuán)股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F16/33;G06F16/35 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 安衛(wèi)靜 |
| 地址: | 201700 上海市青浦區(qū)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 監(jiān)督 可解釋 分詞 方法 裝置 電子設(shè)備 | ||
本發(fā)明提供了一種無監(jiān)督可解釋分詞的方法、裝置和電子設(shè)備,該方法利用掩碼語言模型分類器可以很好地利用大量的未標(biāo)記數(shù)據(jù),無需進(jìn)行數(shù)據(jù)的標(biāo)記,降低了標(biāo)注成本,由于掩碼語言模型分類器為采用專業(yè)領(lǐng)域文本訓(xùn)練得到的,所以領(lǐng)域適應(yīng)性強,此外,通過字級別掩碼序列、局部擾動掩碼序列、掩碼語言模型分類器輸出的掩碼字符概率對局部可解釋模型進(jìn)行訓(xùn)練,使得局部可解釋模型也具備了與掩碼語言模型分類器相同的效果,同時,得到了局部可解釋模型的可解釋性權(quán)重,即得到了掩碼字符的上下文因果相關(guān)度向量,進(jìn)而得到待分詞文本的字符之間的有向因果相關(guān)度矩陣,根據(jù)該有向因果相關(guān)度矩陣對待分詞文本進(jìn)行分詞時,可以解決一詞多義的技術(shù)問題。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理的技術(shù)領(lǐng)域,尤其是涉及一種無監(jiān)督可解釋分詞的方法、裝置和電子設(shè)備。
背景技術(shù)
分詞是自然語言處理的基礎(chǔ)任務(wù),將句子、段落分解成為字詞,方便后續(xù)的處理和分析。文本是非結(jié)構(gòu)化數(shù)據(jù),需要先將這些數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),進(jìn)而結(jié)構(gòu)化數(shù)據(jù)就可以轉(zhuǎn)換為數(shù)學(xué)問題,其中,分詞就是轉(zhuǎn)換的第一步。
詞是表達(dá)完整含義的最小單位。字的粒度太小,無法表達(dá)完整的含義,比如“鼠”可以是“老鼠”,也可以是“鼠標(biāo)”。而句子的粒度太大,承載了太多的信息,很難復(fù)用。同時,各種語言的分詞方式不同,英文有天然的空格作為分隔符,而中文沒有,所以如何切分成為一個難點,加之中文中一詞多義的情況很多,很容易出現(xiàn)歧義。
一個好的分詞模型需要大量的標(biāo)記數(shù)據(jù),而標(biāo)記數(shù)據(jù)需要大量的標(biāo)記成本,有限的標(biāo)記數(shù)據(jù)成為制約分詞發(fā)展的一個瓶頸。而現(xiàn)實中,我們擁有大量的未標(biāo)記數(shù)據(jù),如何利用未標(biāo)記數(shù)據(jù)進(jìn)行分詞也成為分詞技術(shù)發(fā)展的一個方向。
現(xiàn)有的分詞方式分為三大類,一類是基于詞典的分詞方式,該種分詞方式適應(yīng)性不強,不同領(lǐng)域分詞效果差距大,并且詞典也難以獲取;另一類是基于統(tǒng)計的分詞方式,該種分詞方式適應(yīng)能力強,但是成本較高,速度慢,無法解決一詞多義的問題;還有一類是基于深度學(xué)習(xí)的分詞方式,該種分詞方式需要大量的標(biāo)記樣本,而標(biāo)記樣本數(shù)量限制了該種分詞方式的發(fā)展。目前,常見的分詞器都是使用機器學(xué)習(xí)算法和詞典相結(jié)合的方式,一方面為了提高分詞準(zhǔn)確率,另一方面為了改善領(lǐng)域適應(yīng)性,但是,該種分詞器的標(biāo)注成本高,領(lǐng)域適應(yīng)性依然不強,同時,無法解決一詞多義的問題。
綜上,現(xiàn)有的分詞方法存在標(biāo)注成本高、領(lǐng)域適應(yīng)性差,且無法解決一詞多義的技術(shù)問題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種無監(jiān)督可解釋分詞的方法、裝置和電子設(shè)備,以緩解現(xiàn)有的分詞方法標(biāo)注成本高、領(lǐng)域適應(yīng)性差,且無法解決一詞多義的技術(shù)問題。
第一方面,本發(fā)明實施例提供了一種無監(jiān)督可解釋分詞的方法,包括:
獲取基于預(yù)訓(xùn)練語言模型的掩碼語言模型分類器,并獲取待分詞文本的字級別掩碼序列,其中,所述掩碼語言模型分類器為采用專業(yè)領(lǐng)域文本訓(xùn)練得到的;
將所述字級別掩碼序列輸入至所述掩碼語言模型分類器,輸出得到與所述字級別掩碼序列對應(yīng)的掩碼字符概率,并將與所述字級別掩碼序列對應(yīng)的局部擾動掩碼序列輸入至所述掩碼語言模型分類器,輸出得到與所述局部擾動掩碼序列對應(yīng)的掩碼字符概率,其中,所述掩碼字符概率表示掩碼位置為所述掩碼語言模型分類器的所有詞表中每一個字詞的概率;
采用所述字級別掩碼序列、與所述字級別掩碼序列對應(yīng)的掩碼字符概率、所述局部擾動掩碼序列、與所述局部擾動掩碼序列對應(yīng)的掩碼字符概率對局部可解釋模型進(jìn)行訓(xùn)練,得到所述局部可解釋模型的可解釋性權(quán)重,并將所述可解釋性權(quán)重作為掩碼字符的上下文因果相關(guān)度向量,進(jìn)而得到所述待分詞文本的字符之間的有向因果相關(guān)度矩陣;
根據(jù)所述有向因果相關(guān)度矩陣對所述待分詞文本進(jìn)行分詞,得到所述待分詞文本的分詞結(jié)果。
進(jìn)一步的,根據(jù)所述有向因果相關(guān)度矩陣對所述待分詞文本進(jìn)行分詞,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于美的集團(tuán)(上海)有限公司;美的集團(tuán)股份有限公司,未經(jīng)美的集團(tuán)(上海)有限公司;美的集團(tuán)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110887556.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在即時通信中提供即時監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機器人表情調(diào)用方法和家用機器人
- 計算機視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計算機視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





