[發明專利]通用文本解析架構及基于所述架構解析文本的方法和裝置有效
| 申請號: | 201611249460.3 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN108255802B | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 石鵬;姜珂 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/253;G06F40/284 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙) 11348 | 代理人: | 王偉鋒;劉鐵生 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通用 文本 解析 架構 基于 方法 裝置 | ||
本發明公開一種通用文本解析架構及基于所述架構解析文本的方法和裝置,涉及數據分析技術領域,能夠提高開發完整文本解析程序的效率。架構中的預處理層用于提供組件化的預處理邏輯,在基于預處理邏輯獲得預處理組件后,利用預處理組件對文本進行預處理,并將預處理結果傳輸至語料倉庫層進行緩存;信息搜索算法層用于提供對公共算法進行封裝的信息搜索邏輯,并在基于信息搜索邏輯獲得封裝的算法后,將算法進行緩存,預處理組件和/或算法有熱插拔性;維度業務邏輯層用于通過調用信息搜索算法層中的算法,實現對語料倉庫層中緩存的預處理結果的搜索,并通過維度業務邏輯對搜索結果進行處理獲得文本解析結果。主要適用于開發文本解析程序的場景中。
技術領域
本發明涉及數據分析技術領域,尤其涉及一種通用文本解析架構及基于所述架構解析文本的方法和裝置。
背景技術
隨著文本信息數據量的增大以及種類的增多,人們通過肉眼以及大腦對文本信息進行分析,從中獲取所需信息的效率越來越低。因此,文本解析程序應運而生,即只要待解析文本的格式、業務需求等信息與文本解析程序相匹配,則就可以利用文本解析程序從待解析文本中解析出業務需求所需的信息。
然而,發明人在實現上述發明的過程中發現,由于現有的文本解析程序都是開發人員針對客戶的需求進行定制開發的,所以當客戶的需求發生改變時,開發人員則需要花費大量時間重新開發一套文本解析程序,從而使得開發效率較低。
發明內容
鑒于上述技術問題,本發明提出了一種通用文本解析架構及基于所述架構解析文本的方法和裝置,能夠使得開發人員基于通用文本解析架構進行二次開發,從而提高了開發完整的文本解析程序的效率。
本發明的目的是采用以下技術方案來實現的:
第一方面,本發明提供一種通用文本解析架構,所述通用文本解析架構包括:預處理層、語料倉庫層、信息搜索算法層以及維度業務邏輯層;其中,
所述預處理層用于提供將預處理過程進行組件化的預處理邏輯,并在基于所述預處理邏輯獲得至少一個預處理組件后,利用所述至少一個預處理組件對文本進行預處理,并將預處理結果傳輸至語料倉庫層;
所述語料倉庫層用于緩存所述預處理層的預處理結果;
所述信息搜索算法層用于提供對非業務邏輯的公共算法進行封裝的信息搜索邏輯,并在基于所述信息搜索邏輯獲得至少一個封裝的算法后,將所述至少一個封裝的算法進行緩存,其中,所述預處理組件和/或所述封裝的算法具有熱插拔性;;
維度業務邏輯層用于通過調用信息搜索算法層中的算法,實現對所述語料倉庫層中緩存的預處理結果的搜索,并通過待搜索維度的業務邏輯對搜索結果進行處理,獲得文本解析結果。
第二方面,本發明提供一種基于通用文本解析架構解析文本的方法,所述方法包括:
獲取待解析的文本;
利用預處理層中的至少一個預處理組件對所述文本進行預處理,并將預處理結果緩存至語料倉庫層中;
利用維度業務邏輯層調用信息搜索算法層中至少一個封裝的算法,實現對所述語料倉庫層中緩存的所述預處理結果的搜索,所述封裝的算法為基于非業務邏輯的公共算法,且所述預處理組件和/或所述封裝的算法具有熱插拔性;
通過待搜索維度的業務邏輯對搜索結果進行處理,獲得文本解析結果。
第三方面,本發明提供一種基于通用文本解析架構解析文本的裝置,所述裝置包括:
獲取單元,用于獲取待解析的文本;
預處理單元,用于利用預處理層中的至少一個預處理組件對所述獲取單元獲取的所述文本進行預處理;
緩存單元,用于將所述預處理單元獲得的預處理結果緩存至語料倉庫層中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611249460.3/2.html,轉載請聲明來源鉆瓜專利網。





