[發明專利]兼容多種語言的文檔信息精準提取系統在審
| 申請號: | 202011004234.5 | 申請日: | 2020-09-22 |
| 公開(公告)號: | CN112132214A | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 劉秀萍;王程 | 申請(專利權)人: | 劉秀萍 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/10;G06F8/38;G06F8/20;G06F40/289;G06F40/295 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 317000 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 兼容 多種 語言 文檔 信息 精準 提取 系統 | ||
1.兼容多種語言的文檔信息精準提取系統,其特征在于,提出一種通用高效可行的兼容多種語言的文檔信息精準提取架構,并基于該架構實現了兼容多種語言的文檔信息精準提取系統,包括以下幾個方面:
第一,提出基于支持向量機的文檔信息提取算法,并以多語言文檔分類的實際應用設計和分析算法參數,改良優化算法過程,改進提高算法的主動學習能力;
第二,通過對基于機器學習的信息提取流程解析改進,提出通用高效可行的兼容多種語言的信息精準提取架構,該架構主要分為兩個層次,分別為前臺展示層和后臺邏輯處理層,該架構主要分為三個模塊,分別為GUI模塊、前置處理模塊、主動學習模塊,GUI模塊為前臺展示層,將信息提取過程以圖形用戶界面的方式展示給用戶,提高用戶的操作效率,提升系統交互性,前置處理模塊和主動學習模塊為后臺邏輯處理層,采用模塊化設計與個性化定制,增強系統的擴展能力與語言移植能力;
第三,基于通用高效可行的兼容多種語言的信息精準提取架構,采用python語言實現了兼容多種語言的文檔信息精準提取系統,在精確度、召回率、F值、時間性能四個評估指標及語言移植能力上表現出非常好的效果;
兼容多種語言的文檔信息精準提取系統:一是基于支持向量機的文檔信息提取算法,包括支持向量機及其核函數、基于支持向量機的文檔信息提取算法設計與實驗;二是兼容多種語言的文檔信息精準提取系統的設計,包括基于支持向量機的信息提取流程、文檔信息提取圖形用戶界面、機器學習算法與特征選擇、文檔信息精準提取系統的架構,三是兼容多種語言的文檔信息精準提取系統的實現,包括實現圖形用戶界面GUI、實現前置處理模塊、實現主動學習模塊、實現基于規則的提取模塊。
2.根據權利要求1所述的兼容多種語言的文檔信息精準提取系統,其特征在于,基于支持向量機的文檔信息提取算法中最重要的是對參數向量e的求解,求出向量e能很容易的計算出分隔超平面的方程,本發明參數向量e的求解算法應用能提速的啟發式方法:首先通過一個外層循環對第一個e的值進行選擇,并且其選擇過程在以下二種方式下交替進行,一種方式是在所有數據集上進行單遍掃描,另外一種方式是在非邊界e上進行單遍掃描;另外,對非邊界e值進行遍歷時,第一步必須構造包含其中所有值的列表,然后才對該列表進行遍歷,同時該遍歷忽略掉已知且不會改變的e值;在選擇第一個e值后,算法通過一個內層循環選擇第二個e值,選擇方式是通過最大化步長獲取第二個e值的;本發明基于支持向量機的文檔信息提取機器學習算法對參數e進行求解的具體步驟:
第1步,定義數據結構basicDataClass給所有數據賦予初始值,其中包括樣本集矩陣X、樣本集分類結果矩陣labelMat、容錯率tolerRatio、樣本集矩陣的行數n,參數向量alpha,參數g及n行2列的矩陣eCache,該矩陣第一列表征的是第二列的值是否有效;
第2步,初始化第1步定義的數據結構,其中向量alpha為零向量,g為0,初始化當前迭代次數curLooNum、迭代次數上限值maxLooNum、用于記錄alpha是否已進行優化的變量alphaOptimized及用于標記選擇過程是否是全集掃面方式fullScaner,其中curLooNum初始值為0,alphaOptimized的初始值為0,fullScaner為True;
第3步,若滿足外層循環條件,此時的迭代次數curLooNum小于設定的上限次數maxLooNum,并且alphaOptimized大于零或fullScaner為True,則轉向第4步;否則,跳出外循環,并返回向量alpha和參數g的結果值,算法結束;
第4步,將優化狀態alphaOptimized設定為0,并判斷全集掃描的狀態fullScaner的值是否為True,如果為True,則轉向第5步,否則轉向第6步;
第5步,在所有數據集上進行單遍掃描,內層循環,對參數向量alpha進行優化,其中第二個alpha的選擇采用啟發式方法,即從中選擇步長最大的一個;如果alpha對優化成功,則將優化狀態變量alphaOptimized設定為1,之后將curLooNum加1,轉向第7步;
第6步,首先找到非邊界alpha值列表,再在非邊界alpha上進行一次遍歷,內層循環,對參數向量alpha進行優化,其中第二個alpha的選擇采用啟發式方法,即從中選擇步長最大的一個,如果alpha對優化成功,則將優化狀態變量alphaOptimized設定為1,之后將curLooNum加1,轉向第7步;
第7步,如果全集掃描狀態fullScaner為True,則將fullScaner設定為False,轉向第3步;否則,判斷優化狀態變量alphaOptimized是否為0,如果為0,則將fullScaner設定為True,并轉向第3步。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于劉秀萍,未經劉秀萍許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011004234.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種顯示屏支架以及顯示屏組件
- 下一篇:一種基于無人機的電力巡檢裝置





