[發(fā)明專利]一種基于正則表達(dá)式建立文本抽取模型的方法及設(shè)備在審
| 申請?zhí)枺?/td> | 202110797247.0 | 申請日: | 2021-07-14 |
| 公開(公告)號: | CN113536768A | 公開(公告)日: | 2021-10-22 |
| 發(fā)明(設(shè)計)人: | 蘇江文;王燕蓉;陳江海;張垚;莊莉;梁懿 | 申請(專利權(quán))人: | 福建億榕信息技術(shù)有限公司;國網(wǎng)信息通信產(chǎn)業(yè)集團(tuán)有限公司;國網(wǎng)信通億力科技有限責(zé)任公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F16/903 |
| 代理公司: | 福州科揚(yáng)專利事務(wù)所(普通合伙) 35001 | 代理人: | 李曉芬 |
| 地址: | 350000 福建省福*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 正則 表達(dá)式 建立 文本 抽取 模型 方法 設(shè)備 | ||
本發(fā)明涉及一種基于正則表達(dá)式建立文本抽取模型的方法,包括如下步驟:S1、編寫若干個正則表達(dá)式;S2、根據(jù)所述正則表達(dá)式,在語料庫中抽取語料集;S3、將所述語料集分割為訓(xùn)練集與驗(yàn)證集;S4、構(gòu)建文本抽取模型;S5、將訓(xùn)練集輸入至文本抽取模型,訓(xùn)練文本抽取模型;S6、將驗(yàn)證集輸入訓(xùn)練好的文本抽取模型,對訓(xùn)練好的文本抽取模型進(jìn)行驗(yàn)證。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于正則表達(dá)式建立文本抽取模型的方法及設(shè)備,屬于自然語言處理領(lǐng)域。
背景技術(shù)
正則表達(dá)式是對字符串規(guī)則的一種描述方法,通常被用來檢索、替換那些符合某個規(guī)則的文本。例如,提取電子郵件的正則表達(dá)式為:/^(\w)+(\.\w+)*@(\w)+((\.\w{2,3}){1,3})$/,其中的\w代表任意字符,{2,3}代表出現(xiàn)兩次或三次,該正則表達(dá)式可以識別出xxxx@xxxx.xxx格式的電子郵件地址。正則表達(dá)式表達(dá)靈活,可以匹配幾乎任何模式的文字。但應(yīng)用正則表達(dá)式的前提是,對擬提取的信息的“模式”或“規(guī)則”要非常明確。因此不適用于沒有明顯規(guī)則的文本中的關(guān)鍵信息提取。
有監(jiān)督文本抽取模型的建立過程中,迭代訓(xùn)練占據(jù)了大量的時間,所使用的訓(xùn)練數(shù)據(jù)在一定程度上決定了模型的性能,而大量訓(xùn)練數(shù)據(jù)又需要人工進(jìn)行標(biāo)注。
條件隨機(jī)場模型(CRF模型)是屬于有監(jiān)督文本抽取模型中的一種,常用于標(biāo)注語料中詞語的詞性(比如說,標(biāo)注出語料中的命名實(shí)體或動詞、名詞等)。CRF模型對于沒有明顯模式(人工很難觀察到特定規(guī)則)的關(guān)鍵信息具有較強(qiáng)的抽取能力。但CRF模型的準(zhǔn)確率不由其本身決定,而主要取決于用以訓(xùn)練的標(biāo)注語料是否和目標(biāo)測試語料比較一致,需要事先準(zhǔn)備較多的人工標(biāo)注語料,且抽取效果不穩(wěn)定、準(zhǔn)確性難以預(yù)估,不適用于對抽取準(zhǔn)確性有比較嚴(yán)格要求的場景。
公開號為CN201910455064.3的專利《關(guān)鍵詞語料標(biāo)注訓(xùn)練提取工具》公開了一種可降低人工標(biāo)注過程繁復(fù)度,并能提高海量關(guān)鍵詞語料標(biāo)注效率和準(zhǔn)確率的標(biāo)注訓(xùn)練工具。步驟如下:關(guān)鍵詞語料標(biāo)注準(zhǔn)備模塊對不同來源的海量語料數(shù)據(jù)進(jìn)行區(qū)分,半自動化語料關(guān)鍵詞標(biāo)注模塊創(chuàng)建關(guān)鍵詞標(biāo)注任務(wù),自主選擇適配算法并開展基于算法模型的自動標(biāo)注,通過集成CHI、LDA、TEXTRANK、TFIDF中至少一種關(guān)鍵詞抽取算法,對待標(biāo)注文本語料數(shù)據(jù)進(jìn)行預(yù)標(biāo)注處理,并對多種算法標(biāo)注結(jié)果進(jìn)行融合,當(dāng)標(biāo)注任務(wù)完成后,反饋式關(guān)鍵詞標(biāo)注模型學(xué)習(xí)訓(xùn)練模塊對關(guān)鍵詞標(biāo)注算法模型進(jìn)行訓(xùn)練;關(guān)鍵詞標(biāo)注模型效果評估模塊對模型指標(biāo)量化標(biāo)注效果進(jìn)行自動評估。
發(fā)明內(nèi)容
為了解決上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種基于正則表達(dá)式建立文本抽取模型的方法,通過編寫少量正則表達(dá)式代替人工標(biāo)注,有效減少建立有監(jiān)督文本抽取模型所需要的人力成本及時間。
本發(fā)明的技術(shù)方案如下:
技術(shù)方案一:
一種基于正則表達(dá)式建立文本抽取模型的方法,包括如下步驟:
S1、編寫若干個正則表達(dá)式;
S2、根據(jù)所述正則表達(dá)式,在語料庫中抽取語料集;
S3、將所述語料集分割為訓(xùn)練集與驗(yàn)證集;
S4、構(gòu)建文本抽取模型;
S5、將訓(xùn)練集輸入至文本抽取模型,訓(xùn)練文本抽取模型;
S6、將驗(yàn)證集輸入訓(xùn)練好的文本抽取模型,對訓(xùn)練好的文本抽取模型進(jìn)行驗(yàn)證。
進(jìn)一步的,所述文本抽取模型為CRF模型。
進(jìn)一步的,步驟S6中還設(shè)置有一閾值;若驗(yàn)證模型的正確率低于所述閾值,則跳轉(zhuǎn)至步驟S1。
技術(shù)方案二:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福建億榕信息技術(shù)有限公司;國網(wǎng)信息通信產(chǎn)業(yè)集團(tuán)有限公司;國網(wǎng)信通億力科技有限責(zé)任公司,未經(jīng)福建億榕信息技術(shù)有限公司;國網(wǎng)信息通信產(chǎn)業(yè)集團(tuán)有限公司;國網(wǎng)信通億力科技有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110797247.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





