[發(fā)明專利]一種文本結(jié)構(gòu)化標(biāo)注方法、系統(tǒng)、設(shè)備和介質(zhì)在審
申請(qǐng)?zhí)枺?/td> | 202110365061.8 | 申請(qǐng)日: | 2021-04-06 |
公開(kāi)(公告)號(hào): | CN113051401A | 公開(kāi)(公告)日: | 2021-06-29 |
發(fā)明(設(shè)計(jì))人: | 姚娟娟;柴洪峰;樊代明 | 申請(qǐng)(專利權(quán))人: | 明品云(北京)數(shù)據(jù)科技有限公司 |
主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/289 |
代理公司: | 上海漢之律師事務(wù)所 31378 | 代理人: | 馮華 |
地址: | 102400 北京市*** | 國(guó)省代碼: | 北京;11 |
權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
摘要: | |||
搜索關(guān)鍵詞: | 一種 文本 結(jié)構(gòu) 標(biāo)注 方法 系統(tǒng) 設(shè)備 介質(zhì) | ||
本發(fā)明提出一種文本結(jié)構(gòu)化標(biāo)注方法、系統(tǒng)、設(shè)備和介質(zhì),包括:獲取待標(biāo)注文本,并通過(guò)交互平臺(tái)從所述待標(biāo)注文本中獲取第一文本數(shù)據(jù);通過(guò)對(duì)所述第一文本數(shù)據(jù)進(jìn)行分詞處理,確定標(biāo)注范圍;對(duì)所述標(biāo)注范圍內(nèi)的詞進(jìn)行分類標(biāo)注,并將標(biāo)注信息通過(guò)所述交互平臺(tái)輸出至具有對(duì)應(yīng)權(quán)限的核驗(yàn)對(duì)象,經(jīng)過(guò)至少兩次核查后,將確認(rèn)的標(biāo)注信息用于更新標(biāo)注詞庫(kù);本發(fā)明可為專業(yè)的自然語(yǔ)言文本處理領(lǐng)域提供準(zhǔn)確可靠的標(biāo)注語(yǔ)料,節(jié)約專業(yè)人員的時(shí)間成本,提高處理效率。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,尤其涉及一種文本結(jié)構(gòu)化標(biāo)注方法、系統(tǒng)、設(shè)備和介質(zhì)。
背景技術(shù)
針對(duì)一些對(duì)專業(yè)知識(shí)要求較高的自然語(yǔ)言處理領(lǐng)域,如醫(yī)學(xué)領(lǐng)域,現(xiàn)存有大量真實(shí)病例語(yǔ)料,具體包含醫(yī)生觀察病人所見(jiàn)的癥狀、體征、指標(biāo)、現(xiàn)場(chǎng)體格檢查和過(guò)往檢查結(jié)果、以及個(gè)人史、家族史及治療史的詳細(xì)描述等。這些非結(jié)構(gòu)化語(yǔ)言無(wú)法直接應(yīng)用于模型計(jì)算以及其他功能中,需要對(duì)文本進(jìn)行初步處理。針對(duì)自然語(yǔ)料預(yù)處理的過(guò)程一般都會(huì)包括清洗、分詞、去停用詞和詞性標(biāo)注這幾個(gè)部分。
但是一般流程難以滿足專業(yè)背景的自然語(yǔ)料處理,容易漏掉大量專業(yè)信息,尤其包含大量實(shí)際描述信息的情況更加復(fù)雜。此類語(yǔ)料涉及不同學(xué)科,專業(yè)詞匯數(shù)量大,數(shù)據(jù)多混合中英文數(shù)字,而且計(jì)算機(jī)往往難以理解因各文檔制作方的輸入習(xí)慣不同導(dǎo)致的語(yǔ)言歧義。所以需要對(duì)語(yǔ)料清洗系統(tǒng)根據(jù)專業(yè)領(lǐng)域語(yǔ)料進(jìn)行專門(mén)優(yōu)化,并結(jié)合具有專業(yè)背景的人員確認(rèn)才能保證得到準(zhǔn)確的結(jié)構(gòu)化數(shù)據(jù)。
發(fā)明內(nèi)容
鑒于以上現(xiàn)有技術(shù)存在的問(wèn)題,本發(fā)明提出一種文本結(jié)構(gòu)化標(biāo)注方法、系統(tǒng)、設(shè)備和介質(zhì),主要解決針對(duì)專業(yè)性要求較高的文本數(shù)據(jù)標(biāo)注準(zhǔn)確性不高且效率低的問(wèn)題。
為了實(shí)現(xiàn)上述目的及其他目的,本發(fā)明采用的技術(shù)方案如下。
一種文本結(jié)構(gòu)化標(biāo)注方法,包括:
獲取待標(biāo)注文本,并通過(guò)交互平臺(tái)從所述待標(biāo)注文本中獲取第一文本數(shù)據(jù);
通過(guò)對(duì)所述第一文本數(shù)據(jù)進(jìn)行分詞處理,確定標(biāo)注范圍;
對(duì)所述標(biāo)注范圍內(nèi)的詞進(jìn)行分類標(biāo)注,并將標(biāo)注信息通過(guò)所述交互平臺(tái)輸出至具有對(duì)應(yīng)權(quán)限的核驗(yàn)對(duì)象,經(jīng)過(guò)至少兩次核查后,將確認(rèn)的標(biāo)注信息用于更新標(biāo)注詞庫(kù)。
可選地,獲取所述待標(biāo)注文本包括:
對(duì)已有文本數(shù)據(jù)進(jìn)行排序,并根據(jù)文本數(shù)據(jù)來(lái)源設(shè)置抽取比例,其中,排序方式包括:按文本字?jǐn)?shù)排序和/或按包含數(shù)據(jù)類別數(shù)排序;
根據(jù)所述抽取比例從經(jīng)過(guò)排序的文本數(shù)據(jù)中獲取所述待標(biāo)注文本。
可選地,通過(guò)對(duì)所述第一文本數(shù)據(jù)進(jìn)行分詞處理,確定標(biāo)注范圍,包括:
設(shè)置特定領(lǐng)域的標(biāo)準(zhǔn)詞庫(kù),通過(guò)所述標(biāo)準(zhǔn)詞庫(kù)中標(biāo)準(zhǔn)詞對(duì)經(jīng)過(guò)分詞算法得到的分詞結(jié)果進(jìn)行校驗(yàn),獲取所述第一文本數(shù)據(jù)對(duì)應(yīng)的詞集合,其中所述標(biāo)準(zhǔn)詞庫(kù)包括:對(duì)應(yīng)領(lǐng)域的背景詞庫(kù)、同義詞庫(kù)、近義詞庫(kù);
將所述詞集合中與標(biāo)準(zhǔn)詞匹配的詞作為待標(biāo)注詞。
可選地,對(duì)標(biāo)注范圍內(nèi)的詞進(jìn)行分類標(biāo)注,包括:
獲取所述與所述待標(biāo)注詞匹配的一個(gè)或多個(gè)標(biāo)準(zhǔn)詞類別,通過(guò)所述交互平臺(tái)對(duì)應(yīng)的交互界面顯示所述待標(biāo)注詞以及對(duì)應(yīng)類別信息。
可選地,通過(guò)具有權(quán)限的核驗(yàn)對(duì)象進(jìn)行核查包括:
基于標(biāo)注信息創(chuàng)建第一核查任務(wù),所述交互平臺(tái)將包含詞以及對(duì)應(yīng)標(biāo)注信息的數(shù)據(jù)通過(guò)對(duì)應(yīng)的交互界面輸出至具有所述第一核查任務(wù)處理權(quán)限的核驗(yàn)對(duì)象,經(jīng)過(guò)核查得到第一確認(rèn)信息,其中,所述第一確認(rèn)信息包括:詞是否為包含完整語(yǔ)義的最小單位、在所述第一文本數(shù)據(jù)中詞對(duì)應(yīng)前后位置是否有可被納入對(duì)應(yīng)詞表達(dá)的詞匯、詞是否與標(biāo)注信息匹配;
根據(jù)所述第一確認(rèn)信息創(chuàng)建第二核查任務(wù),所述交互平臺(tái)將所述第一確認(rèn)信息通過(guò)對(duì)應(yīng)的交互界面輸出至具有第二核查任務(wù)處理權(quán)限的核驗(yàn)對(duì)象,經(jīng)過(guò)復(fù)查,獲取第二確認(rèn)信息。
可選地,所述交互界面的操作包括增/刪詞匯、確認(rèn)/更改標(biāo)注信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于明品云(北京)數(shù)據(jù)科技有限公司,未經(jīng)明品云(北京)數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110365061.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語(yǔ)料庫(kù)數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲(chǔ)介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺(tái)的方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)