[發明專利]一種文本結構化的方法有效
| 申請號: | 201711036517.6 | 申請日: | 2017-10-30 |
| 公開(公告)號: | CN107729526B | 公開(公告)日: | 2020-04-07 |
| 發明(設計)人: | 汪東升;邱朋飛;徐濤 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/335;G06F16/903 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;吳歡燕 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 結構 方法 | ||
本發明提供一種文本結構化的方法,包括:S1,根據待結構化文本的文本類型,獲取相應的切分配置文件和抽取配置文件;S2,遍歷切分配置文件中的第一切分規則,根據每一第一切分規則中的起點類型、終點類型、起點位置和終點位置,從待結構化文本中獲取對應第一切分規則的切分片段;S3,遍歷抽取配置文件中的每一切分片段的第一抽取規則,將每一第一抽取規則中的正則表達式與切分片段進行匹配,根據匹配結果從切分片段中抽取待獲取的信息,得到結構化的文本。本發明通過設計一套通用的文本結構化的方法,根據不同文本的文本類型調用相應的配置文件,快速實現不同類型的文本的結構化。
技術領域
本發明涉及數據處理領域,更具體地,涉及一種文本結構化的方法。
背景技術
隨著信息技術的不斷發展和普及,各行各業已經廣泛利用信息技術來提高效率和生產力,由此產生了海量的文本數據。這些文本數據往往含有大量有用的信息,有效利用這些文本數據資源挖掘出有用的信息已經成為一個很迫切的需求。統計分析是一種有效的方法,但是統計分析不能發掘一些隱藏的信息,大數據技術被廣泛地用來進行數據處理和數據挖掘。無論是統計分析,還是大數據技術,所處理的對象往往是結構化的數據,而生產生活中產生的海量文本數據中,大多是非結構化的數據,需要將其處理成結構化數據才能更好的采用統計分析和大數據技術進行處理。
將非結構化文本進行結構化處理,需要從非結構化文本中抽取出結構化數據信息。不同類型的文本由于格式的不同,從其中要獲取的結構化數據信息往往也是不同的,現有技術中針對不同類型的文本需要定義不同的方法和不同的程序,但是這種做法比較費時,程序也沒有通用性,不能依靠同一套方法來實現不同類型文本的結構化。
發明內容
本發明提供一種克服上述問題或者至少部分地解決上述問題的文本結構化的方法。
第一方面,本發明提供一種文本結構化的方法,包括:
S1,根據待結構化文本的文本類型,獲取相應的切分配置文件和抽取配置文件;
S2,遍歷所述切分配置文件中的第一切分規則,根據每一所述第一切分規則中的起點類型、終點類型、起點位置和終點位置,從所述待結構化文本中獲取對應所述第一切分規則的切分片段;
S3,遍歷所述抽取配置文件中的每一所述切分片段的第一抽取規則,將每一所述第一抽取規則中的正則表達式與所述切分片段進行匹配,根據匹配結果從所述切分片段中抽取待獲取的信息,得到結構化的文本;
其中,所述起點位置的類型與所述起點類型對應,所述終點位置的類型與所述終點類型對應。
優選地,遍歷所述切分配置文件中的第一切分規則,若第一切分規則中的起點類型為段號,根據與所述起點類型對應的所述起點位置獲得所述切分片段的起始段號;
若所述終點類型為段號,根據與所述終點類型對應的所述終點位置獲得所述切分片段的終止段號。
優選地,若所述起點類型為正則表達式,則所述第一切分規則中還包括起點正則表達式;將所述起點正則表達式與所述待結構化文本進行匹配,獲得第一匹配段;
根據與所述起點類型對應的起點位置判斷所述第一匹配段是否包含在所述切分片段中,獲得所述切分片段的起始段號;
若所述終點類型為正則表達式,則所述第一切分規則中還包括終點正則表達式;將所述終點正則表達式與所述待結構化文本進行匹配,獲得第二匹配段;
根據與所述終點類型對應的終點位置判斷所述第二匹配段是否包含在所述切分片段中,獲得所述切分片段的終止段號;
根據切分片段的起始段號和終止段號,從所述待結構化文本中獲得對應所述第一切分規則的所述切分片段。
優選地,所述根據與所述起點類型對應的所述起點位置獲得所述切分片段的起始段號的步驟,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711036517.6/2.html,轉載請聲明來源鉆瓜專利網。





