[發(fā)明專利]企業(yè)非標(biāo)準(zhǔn)格式文檔的信息提取方法在審
| 申請?zhí)枺?/td> | 201611033784.3 | 申請日: | 2016-11-23 |
| 公開(公告)號: | CN106776538A | 公開(公告)日: | 2017-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 付婷;蔡宇翔;蔡力軍;蘇運(yùn)東;肖琦敏;王雪晶;陳銳;張垚;劉心 | 申請(專利權(quán))人: | 國網(wǎng)福建省電力有限公司;國家電網(wǎng)公司;國網(wǎng)福建省電力有限公司信息通信分公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 福州元?jiǎng)?chuàng)專利商標(biāo)代理有限公司35100 | 代理人: | 蔡學(xué)俊,丘鴻超 |
| 地址: | 350003 福*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 企業(yè) 非標(biāo)準(zhǔn) 格式 文檔 信息 提取 方法 | ||
1.一種企業(yè)非標(biāo)準(zhǔn)格式文檔的信息提取方法,其特征在于:包括如下步驟,
S1、輸入原始文檔;
S2、待提取信息所在的段落檢測及提取,負(fù)責(zé)從原始文檔全文中,識別并提取出待提取信息所在的章節(jié)段落,從而使得每個(gè)待提取信息都對應(yīng)到原始文檔的一個(gè)片段,形成短文本;
S3、面向短文本,采用多策略的信息提取框架,即能夠針對不同的信息模式,支持采用不同的策略提取不同類型的信息。
2.根據(jù)權(quán)利要求1所述的企業(yè)非標(biāo)準(zhǔn)格式文檔的信息提取方法,其特征在于:所述原始文檔為包括公文、招標(biāo)書、營銷文檔的企業(yè)文檔。
3.根據(jù)權(quán)利要求1所述的企業(yè)非標(biāo)準(zhǔn)格式文檔的信息提取方法,其特征在于:所述步驟S2的具體實(shí)現(xiàn)如下,
S21、基于規(guī)則的標(biāo)題抽取:
通過word的宏語言,一次性將原始文檔按章節(jié)及其章節(jié)名稱抽取出,形成不同的文檔片段;而后,利用正則表達(dá)式,將符合模式的標(biāo)題取出;
S22、將標(biāo)題提取的內(nèi)容作為標(biāo)注語料;
S23、文檔特征化:
將文檔通過分詞技術(shù),進(jìn)行初步的特征化,形成特征向量全集,而后進(jìn)行特征優(yōu)化;所述特征優(yōu)化具體為:
從特征向量全集中產(chǎn)生一個(gè)特征子集;而后采用評價(jià)函數(shù)對該特征子集進(jìn)行評價(jià),并將評價(jià)的結(jié)果與停止準(zhǔn)則的條件進(jìn)行比較,滿足則該過程完成,不滿足則需要繼續(xù)迭代;其中評價(jià)函數(shù)的公式如下,
其中,m表示的是類的數(shù)量,表示其中的某一個(gè)類,t表示的是一個(gè)詞語,表示這個(gè)文本屬于類的概率,表示詞語t在文本中出現(xiàn)的概率,表示當(dāng)一個(gè)文本中包含詞語t時(shí),這個(gè)文本屬于類概率,表示當(dāng)一個(gè)文本中不包含詞語t時(shí),這個(gè)文本屬于類的概率;
S24、訓(xùn)練分類模型:
將步驟S22的標(biāo)注語料,通過步驟S23的特征化以后,利用SVM分類算法,構(gòu)建一個(gè)用于二分類的模型,利用該模型對原始文檔的章節(jié)進(jìn)行預(yù)測;
S25、模型部署運(yùn)行:
對輸入文檔進(jìn)行上述S21-S23處理后,利用步驟S24生成的模型,即可對輸入文檔的章節(jié)繼續(xù)異常,從而識別出待提取信息所在章節(jié),使得輸入文檔由長文檔變?yōu)槎涛谋尽?/p>
4.根據(jù)權(quán)利要求1所述的企業(yè)非標(biāo)準(zhǔn)格式文檔的信息提取方法,其特征在于:所述步驟S3的具體實(shí)現(xiàn)如下,
(1)對于格式固定嚴(yán)謹(jǐn),有確定規(guī)則的信息,優(yōu)先采用確定性較高的規(guī)則方法進(jìn)行關(guān)鍵信息提取;
(2)對于符合三大類、七小類的命名實(shí)體信息,采用準(zhǔn)確的命名識別提取技術(shù)進(jìn)行提取。
5.根據(jù)權(quán)利要求4所述的企業(yè)非標(biāo)準(zhǔn)格式文檔的信息提取方法,其特征在于:所述步驟S3的中還包括對于除(1)、(2)兩類外的自由文本信息,該類自由文本信息采用人工提取。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國網(wǎng)福建省電力有限公司;國家電網(wǎng)公司;國網(wǎng)福建省電力有限公司信息通信分公司,未經(jīng)國網(wǎng)福建省電力有限公司;國家電網(wǎng)公司;國網(wǎng)福建省電力有限公司信息通信分公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611033784.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 根據(jù)企業(yè)規(guī)劃模型進(jìn)行水平企業(yè)規(guī)劃
- 企業(yè)評價(jià)裝置和企業(yè)評價(jià)程序
- 企業(yè)評價(jià)裝置和企業(yè)評價(jià)程序
- 企業(yè)評價(jià)裝置和企業(yè)評價(jià)程序
- 企業(yè)評價(jià)裝置和企業(yè)評價(jià)程序
- 企業(yè)評價(jià)裝置和企業(yè)評價(jià)程序
- 企業(yè)評價(jià)裝置和企業(yè)評價(jià)程序
- 企業(yè)與企業(yè)之間信息交流平臺
- 基于企業(yè)畫像的企業(yè)精準(zhǔn)分析方法
- 標(biāo)貼(企業(yè))





