[發明專利]信息提取方法、裝置、計算機設備、存儲介質在審
| 申請號: | 202211404727.7 | 申請日: | 2022-11-10 |
| 公開(公告)號: | CN115934926A | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 楊小峰;張佳博 | 申請(專利權)人: | 上海工物高技術產業發展有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/35;G06F40/289;G06F40/295;G06F40/284 |
| 代理公司: | 華進聯合專利商標代理有限公司 44224 | 代理人: | 唐敏 |
| 地址: | 201306 上海市浦東新區中國(上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 提取 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種信息提取方法,其特征在于,所述方法包括:
接收至少一個待解析文檔;
對每個所述待解析文檔進行解析,獲取每個所述待解析文檔中文本數據信息;
對所述文本數據信息進行分詞處理,得到分詞文本信息;
利用預先設置的關鍵字段和關鍵詞邏輯表達式對所述分詞文本信息進行關鍵詞抽取,輸出每個所述待解析文檔的關鍵詞信息;
將每個所述待解析文檔的關鍵信息與預設的關鍵信息進行比較,確定每個所述待解析文檔的關鍵信息匹配度,響應于所述關鍵信息匹配度小于預設的匹配度閾值,將對應的所述待解析文檔進行過濾。
2.根據權利要求1所述的方法,其特征在于,所述對所述文本數據信息進行分詞處理,得到分詞文本信息,包括:
利用文本分類算法對所述文本數據信息進行文本分類,確定所述文本數據信息的分類結果,所述文本分類算法包括:Fast?Text模型;
利用自然語言處理對所述文本數據信息進行分詞、詞性標記、命名實體識別,得到分詞文本信息。
3.根據權利要求1所述的方法,其特征在于,所述待解析文檔的格式至少包括:PPTX格式、DOCX格式、DOC格式和XLXS格式,所述對每個所述待解析文檔進行解析,包括:將每個所述待解析文檔的格式轉換為可攜帶文檔格式,對所述可攜帶文檔格式進行解析。
4.根據權利要求3所述的方法,其特征在于,所述對所述可攜帶文檔格式進行解析,包括:
對轉換為可攜帶文檔格式的待解析文檔進行解析,獲取所述待解析文檔中文本數據信息,所述文本數據信息至少包括:字符信息、矩陣信息和行列信息。
5.根據權利要求4所述的方法,其特征在于,所述方法還包括:對所述字符信息、矩陣信息和行列信息進行預處理,所述預處理包括:分句、大小寫轉換、統一字符和符號。
6.一種信息提取裝置,其特征在于,所述裝置包括:
信息接收模塊,用于接收至少一個待解析文檔并存儲;
信息解析模塊,用于獲取所述待解析文檔,對每個所述待解析文檔進行解析,獲取每個所述待解析文檔中文本數據信息;
信息抽取模塊,用于獲取所述文本數據信息,對所述文本數據信息進行分詞處理,得到分詞文本信息,并利用預先設置的關鍵字段和關鍵詞邏輯表達式對所述分詞文本信息進行關鍵詞抽取,輸出每個所述待解析文檔的關鍵詞信息至所述信息接收模塊;
驗證篩選模塊,用于將每個所述待解析文檔的關鍵信息與預設的關鍵信息進行比較,確定每個所述待解析文檔的關鍵信息匹配度,響應于所述關鍵信息匹配度小于預設的匹配度閾值,將對應的所述待解析文檔進行過濾。
7.根據權利要求6所述的裝置,其特征在于,所述信息抽取模塊,包括:
文本分類模塊,用于利用文本分類算法對所述文本數據信息進行文本分類,確定所述文本數據信息的分類結果,所述文本分類算法包括:Fast?Text模型;
自然語言處理模塊,用于利用自然語言處理對所述文本數據信息進行分詞、詞性標記、命名實體識別,得到分詞文本信息。
8.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1-5任一項所述的方法的步驟。
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1-5任一項所述的方法的步驟。
10.一種信息提取系統,其特征在于,包括:處理端,所述處理端用于接收至少一個客戶端上傳的待解析文檔,所述處理端用于實現權利要求1-5任一項所述的方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海工物高技術產業發展有限公司,未經上海工物高技術產業發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211404727.7/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





