[發明專利]兼容多種語言的文檔信息精準提取系統在審
| 申請號: | 202011004234.5 | 申請日: | 2020-09-22 |
| 公開(公告)號: | CN112132214A | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 劉秀萍;王程 | 申請(專利權)人: | 劉秀萍 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/10;G06F8/38;G06F8/20;G06F40/289;G06F40/295 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 317000 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 兼容 多種 語言 文檔 信息 精準 提取 系統 | ||
本發明提供的兼容多種語言的文檔信息精準提取系統,實現了支持向量機算法的多種語言的信息提取方法,并分別按照文檔分類的實際應用,結果表明在主動學習能力與分類效果方面,支持向量機算法優勢明顯;設計了一種通用可行的兼容多種語言的文檔信息提取架構,并基于該架構實現的兼容多種語言的文檔信息精準提取系統;將系統分別應用于對中英文科技新聞文檔的信息提取中,結果表明:兼容多種語言的信息提取系統是實體關系提取的成功實踐,具有較好的語言移植與可擴展能力、交互性能強、智能化程度高、可擴展性高、提取速度快、信息提取精度高等優勢,是一種具備顯著創新性,且優勢突出的文檔信息提取系統。
技術領域
本發明涉及一種文檔信息精準提取系統,特別涉及一種兼容多種語言的文檔信息精準提取系統,屬于文檔信息提取技術領域。
背景技術
伴隨計算機和辦公智能化的普以及互聯網特別是移動互聯網的飛速發展,各種形式的電子文檔正持續高速增長。近年來移動互聯網的火熱,進一步加速了電子文檔的普以與應用,人們的日常生活、工作和學習中都無時無刻的與電子文檔發生密切聯系。雖然電子文檔數量與日俱增,但在龐大的文檔庫中有很大部分是含有大量垃圾信息的,且其中的信息還具有很大無序性,面對海量的電子文檔資源時,為獲取所需要的信息,只能采用通讀全文或者逐個檢索的方法,這大大阻礙了人們獲取有效信息的效率。因此,從眾多電子文檔中智能、快速、精準的得到用戶感興趣的信息正日益成為一個急待解決的問題。
信息提取技術雖是從眾多文檔中提取所需信息的有效手段,但要構建一個通用可行的信息提取系統卻異常艱難和復雜。早期一般都是基于知識工程的方法構建信息提取系統,構建的系統雖具有一定的提取精度,但因提取規則都是基于手工建立的,需要花費大量的時間和資源,而且容易產生錯誤,導致系統的可移植能力較差。因此,當前迫切需要一種能夠從訓練語料庫中智能獲取文檔信息提取模式的方法,而基于統計機器學習的信息提取方法能很好的滿足這一需求,該方法是包括學習階段與應用階段兩個部分的提取方法,其中,學習階段主要是根據機器學習算法和訓練語料訓練模型,以構建提取模型;應用階段使用學習階段構造的模型對輸入的文檔進行信息提取。因此該類方法具有對領域知識的依賴性比較低,可移植能力較高的優點。近年來伴隨已標注樣本集的不斷增加積累,基于統計機器學習的信息提取技術研發與應用受到越來越多的青睞。
在20世紀60年代末期,有一種文檔理解的技術,主要用于從自然語言文檔中提取出結構化的數據信息,這就是信息提取技術的前身。之后,伴隨因特網的發展和普及,涌現出大量的在線文檔和離線文檔,這也在一定程度上為信息提取帶來了便利。
近年來,伴隨語料庫的不斷擴充及應用需求的逐漸增加,信息提取技術變得更加火熱。在理論研究方面,大多數現有技術將重點放在以下幾個方面:機器學習的信息提取方法、文檔理解方法、篇章分析方法、Web信息提取方法及文檔事件探測方法等;在實際應用方面,大部分是構建僅僅適用于某一領域范圍的提取系統,或與信息檢索、文檔挖掘等其它自然語言處理技術相互協作以構建功能相對完善的知識發掘與識別系統。
現有技術的英文信息提取起步較早,在命名實體識別和實體關系提取方面的技術較成熟,但仍有許多關鍵性的難題需要突破?,F有技術重點放在基于機器學習的信息提取方法上,根據模型訓練過程中采用的是否是已標注的訓練樣本集,可分為有監督的學習方法和無監督的學習方法,雖然有監督的機器學習方法逐漸豐富,但同時也存在無法快速得到諸多的已標注訓練樣本集等瓶頸,然而基于無監督的學習方法卻很好地解決了這個難題,但這種方法目前仍處于空白狀態,存在著一些急待克服的問題,如特征空間冗余性的缺陷等。
中文信息提取起步較晚,中文不具有英文那種詞與詞之間存在空格分隔符等的天然特征,使得中文信息提取的變得更加困難?,F有技術在中文信息提取方面主要致力于提高命名實體識別的精確度和召回率及構建簡單的信息提取系統上,然而對于復雜強健的中文信息提取系統的設計與實現較弱。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于劉秀萍,未經劉秀萍許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011004234.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種顯示屏支架以及顯示屏組件
- 下一篇:一種基于無人機的電力巡檢裝置





