[發明專利]一種將非結構化文本轉化為結構化文本的方法及裝置有效
| 申請號: | 201911218187.1 | 申請日: | 2019-12-03 |
| 公開(公告)號: | CN110955714B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 朱曉峰;王加麗;金蕾 | 申請(專利權)人: | 中國銀行股份有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/28 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 劉飛;周達 |
| 地址: | 100818 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結構 文本 轉化 方法 裝置 | ||
1.一種將非結構化文本轉化為結構化文本的方法,其特征在于,包括:
獲取非結構化文本;所述非結構化文本包含不同層級的標簽;
根據所述非結構化文本創建配置文件,所述配置文件包含所述非結構化文本中的指定標簽與結構化文本的關聯關系;
根據所述配置文件,確定與所述指定標簽所在的標簽鏈相關聯的結構化文本;所述標簽鏈由所述不同層級的標簽構成;
根據所述非結構化文本,確定所述標簽鏈的出現頻次以及所述標簽鏈對應的數據;
根據所述標簽鏈的出現頻次,將所述標簽鏈對應的數據,寫入與所述標簽鏈相關聯的結構化文本;
其中,所述配置文件通過以下方式創建:
從所述非結構化文本中依次提取互不相同的標簽;
從所述互不相同的標簽中選取指定標簽,并在所述指定標簽中添加所述結構化文本的文本標識;
所述根據所述配置文件,確定與所述指定標簽所在的標簽鏈相關聯的結構化文本,包括:
解析所述配置文件;
將解析出的所述結構化文本的文本標識,以及與所述結構化文本關聯的標簽鏈對應進行存儲,得到第一記錄;
根據所述第一記錄,確定與所述指定標簽所在的標簽鏈相關聯的結構化文本;
所述根據所述非結構化文本,確定所述標簽鏈的出現頻次以及所述標簽鏈對應的數據,包括:
解析所述非結構化文本,并對解析出的標簽鏈進行編號;將所述標簽鏈以及所述標簽鏈的出現頻次對應進行存儲,得到第二記錄;將所述標簽鏈、所述標簽鏈的編號,以及與所述標簽鏈對應的數據對應進行存儲,得到第三記錄;
根據所述第二記錄及第三記錄,確定所述標簽鏈的出現頻次以及所述標簽鏈對應的數據;
所述根據所述標簽鏈的出現頻次,將所述標簽鏈對應的數據,寫入與所述標簽鏈相關聯的結構化文本,包括:
根據所述標簽鏈的出現頻次,確定與所述結構化文本相關聯的各個標簽鏈中,標簽鏈的出現頻次的最大值;
將所述標簽鏈的出現頻次的最大值作為所述結構化文本的行數,并根據所述標簽鏈的編號以及與所述結構化文本相關聯的標簽鏈的順序,依次將所述標簽鏈對應的數據寫入所述結構化文本。
2.根據權利要求1所述的方法,其特征在于,還包括:
在缺少指定編號的標簽鏈,或缺少所述指定編號的標簽鏈對應的數據的情況下,將所述指定編號的標簽鏈對應的數據設置為空,并寫入所述結構化文本。
3.根據權利要求1所述的方法,其特征在于,所述結構化文本中的每個字段為固定長度;或每個字段為非固定長度,每個字段之間用分隔符進行劃分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀行股份有限公司,未經中國銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911218187.1/1.html,轉載請聲明來源鉆瓜專利網。





