[發(fā)明專利]基于全文的大文本CRF和規(guī)則分類方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710685936.6 | 申請日: | 2017-08-11 |
| 公開(公告)號: | CN107368610B | 公開(公告)日: | 2020-07-17 |
| 發(fā)明(設(shè)計)人: | 譚培波;史曉凌;茹海燕 | 申請(專利權(quán))人: | 北京智通云聯(lián)科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京遠(yuǎn)大卓悅知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11369 | 代理人: | 史霞 |
| 地址: | 100012 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 全文 文本 crf 規(guī)則 分類 方法 系統(tǒng) | ||
1.基于全文的大文本CRF和規(guī)則分類方法,其特征在于,包括以下步驟:
將待拆分文件拆分成標(biāo)題文本和正文文本兩部分并分別保存;
采用CRF文本處理方式對所述標(biāo)題文本進(jìn)行處理得到文件名和分類分本之間的對應(yīng)關(guān)系,根據(jù)每個分類目錄下存儲的文件名進(jìn)行三級分詞處理并對分詞結(jié)果進(jìn)行分類標(biāo)注,并采用CRF learn方法進(jìn)行標(biāo)題分類建模得到CRF模型;
采用DEC文本處理方式對所述正文文本進(jìn)行處理得到分詞文本和分類分本之間的對應(yīng)關(guān)系,根據(jù)每個分類目錄下存儲分詞文本進(jìn)行三級分詞處理并對分詞結(jié)果構(gòu)建DEC張量并進(jìn)行DEC類處理得到DEC模型,所述DEC是按照領(lǐng)域、要素和概念實(shí)現(xiàn)的3階張量模型;
獲取待分類文件并將其拆分成待分類標(biāo)題文本和待分類正文文本兩部分分別保存;
將所述待分類標(biāo)題文本進(jìn)行三級分詞處理并采用CRF test方法調(diào)用所述CRF模型計算得出CRF分類結(jié)果;
將所述待分類正文文本進(jìn)行三級分詞處理并構(gòu)建DEC張量后調(diào)用所述DEC模型計算得出DEC分類結(jié)果;
取所述CRF分類結(jié)果中的第一個和所述DEC分類結(jié)果中的前四個這五個結(jié)果進(jìn)行去重后輸出。
2.如權(quán)利要求1所述的基于全文的大文本CRF和規(guī)則分類方法,其特征在于,獲取原始文件并將其轉(zhuǎn)換為txt格式并作為所述待拆分文件。
3.基于全文的大文本CRF和規(guī)則分類系統(tǒng),其特征在于,包括:
基礎(chǔ)語料層,其用于存儲建立規(guī)則的DEC分類模型參數(shù)、CRF模板文件以及按類記錄的標(biāo)注語料文件,所述基礎(chǔ)語料層包括模型要素模塊和語料庫模塊,所述模型要素模塊包括DEC分類模型參數(shù)DC表、CRF模板文件以及分類結(jié)構(gòu)樹;
模型層,其用于根據(jù)所述建立規(guī)則的DEC分類模型參數(shù)、所述CRF模板文件以及所述按類記錄的標(biāo)注語料文件建立CRF模型和DEC規(guī)則模型,所述DEC是按照領(lǐng)域、要素和概念實(shí)現(xiàn)的3階張量模型,所述模型層包括標(biāo)題和正文文本截取模塊、3級分詞模塊、CRF模塊、DEC模塊,以及分類結(jié)果整合模塊;
應(yīng)用層,其用于接收用戶輸入的文本文件并根據(jù)所述CRF模型和所述DEC規(guī)則模型進(jìn)行分類并將分類結(jié)果輸出,所述CRF模塊包括CRF模型構(gòu)建模塊和CRF模型調(diào)用模塊;所述CRF模型構(gòu)建模塊用于對輸入的樣本語料進(jìn)行建模;所述CRF模型調(diào)用模塊用于接收分詞后的標(biāo)題輸入文本,調(diào)用所述CRF模型構(gòu)建模塊建立的模型,計算輸入文本的預(yù)測結(jié)果作為分類輸出;所述DEC模塊包括DEC模型構(gòu)建模塊和DEC模型調(diào)用模塊;所述DEC模型構(gòu)建模塊用于接收分詞后的正文語料,根據(jù)所述DEC分類模型參數(shù)DC表構(gòu)建DEC分類模型;所述DEC模型調(diào)用模塊調(diào)用所述DEC模型構(gòu)建模塊建立的模型,計算正文部分的字符輸出類;所述分類結(jié)果整合模塊用于取CRF輸出結(jié)果中的第1個和DEC結(jié)果中的前4個,去重,然后組合在一起輸出,作為全文的分類結(jié)果。
4.如權(quán)利要求3所述的基于全文的大文本CRF和規(guī)則分類系統(tǒng),其特征在于,所述應(yīng)用層包括新文獻(xiàn)接收模塊和輸出結(jié)果顯示模塊。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京智通云聯(lián)科技有限公司,未經(jīng)北京智通云聯(lián)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710685936.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 鑒定利用促腎上腺皮質(zhì)激素釋放因子受體來調(diào)節(jié)肌肉質(zhì)量或功能的化合物的方法
- 一種實(shí)現(xiàn)漫游計費(fèi)的方法及系統(tǒng)
- 一種基于分組數(shù)據(jù)流計費(fèi)的處理方法及系統(tǒng)
- 一種基于分組數(shù)據(jù)流計費(fèi)的系統(tǒng)及處理方法
- 一種CRF識別器的訓(xùn)練及技術(shù)及其屬性名關(guān)系對抽取方法
- 一種命名實(shí)體識別方法、裝置及系統(tǒng)
- 一種CRF的監(jiān)查方法及裝置
- 一種數(shù)據(jù)分析方法、裝置、設(shè)備及計算機(jī)存儲介質(zhì)
- 生成CRF表單的移動終端界面的方法和裝置
- 促腎上腺皮質(zhì)素釋放因子-結(jié)合蛋白抑制劑及其用途





