[發明專利]一種文本信息智能處理系統在審
| 申請號: | 202211113958.2 | 申請日: | 2022-09-14 |
| 公開(公告)號: | CN115455935A | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | 林欣;李楷達 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/258;G06F40/279;G06F16/33;G06F16/35;G06F16/36;G06F40/103;G06N3/08;G06N5/02 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 信息 智能 處理 系統 | ||
1.一種文本信息智能處理系統,其特征在于采用文本預處理子系統、知識圖譜構建子系統和知識查詢與問答子系統構建的智能系統為文本信息處理工具,實現基于語義的知識搜索和問答,所述文本預處理子系統包括:源文檔信息抽取模塊、基于目錄的粗粒度圖譜構建模塊和實體抽取模塊;所述源文檔信息抽取模塊用于從源文檔中抽取信息;所述基于目錄的粗粒度圖譜構建模塊用于分析文檔目錄結構,并以此構造樹狀知識圖譜;所述實體抽取模塊用于從文檔信息中抽取關鍵實體信息;所述知識圖譜構建子系統包括:關系挖掘與補全模塊、圖譜數據預處理模塊、知識圖譜插入模塊、知識圖譜可視化模塊,所述關系挖掘與補全模塊用于從文檔信息中抽取關鍵關系信息,并對缺失關系進行補全;所述圖譜數據預處理模塊用于實現圖譜數據的預處理,主要包括圖譜中節點的連接信息以及邊信息以及節點標識與節點名稱的映射信息;所述知識圖譜插入模塊用于構建知識圖譜,并將實體、關系插入到知識圖譜中;所述知識圖譜可視化模塊用于將知識圖譜可視化展示; 所述知識查詢與問答子系統包括:問題答案生成模塊和候選答案排序及輸出模塊,所述問題答案生成模塊用于根據輸入問題,尋找和計算合適的候選答案;所述候選答案排序及輸出模塊用于從候選答案中找出置信度最高的答案進行輸出,實現對文檔知識的動態查詢與問答應對的智能處理。
2. 根據權利要求1所述的文本信息智能處理系統,其特征在于所述源文檔信息抽取模塊將待解析文檔中的信息抽取并存儲,具體包括下述步驟:
1)尋址并讀取文檔
將用戶在網頁中輸入的文檔地址使用POST技術傳輸至服務器端,服務器找到對應路徑文件,若文件為pdf格式,直接存入內存;若為word、html格式,使用只讀方式讀取文件內容,并轉存為pdf格式保存;
2)文檔文本信息識別
使用CNOCR模型提供的文字特征抽取算法,對尋址并讀取文檔操作讀取到的內容進行分析識別處理,抽取文本及版面信息;
3)圖像、表格信息抽取及存儲
使用fast-rcnn 深度學習的圖像檢測模型來抽取表格和圖片內容,并判斷識別內容是否具有表頭、單元格等表格特征,從而分辨識別內容為表格或圖片,將
抽取到的表格和圖片存入硬盤,將存取地址記錄在文檔文本內容中;
4)文本格式處理
使用正側式匹配進行如下處理:定位并刪除頁眉和頁腳、識別圖片和表格位置信息后是否存在換行符,若不存在,說明圖片和表格后文本未正確換行,則添加換行符、判斷是否存在空行或只有無意義符號的行,若存在則進行刪除。
3. 根據權利要求1所述的文本信息智能處理系統,其特征在于所述基于目錄的粗粒度圖譜構建模塊根據抽取的信息構建文檔標題層級的粗粒度知識圖譜,具體包括下述步驟:
1)識別標題、層級
根據標題在文本中存在的特征,生成如標題前存在序號、序號后有逗號或頓號的一些規則,基于規則從文檔中找出標題,并根據標題編號、標號類型,將標題歸入正確的層級,若為html格式,可根據html語言的層級關系作為輔助信息查詢文檔中的標題;
2)篩選正確標題
對于篩選出來的標題,根據正則表達式篩選出正確的標題,所述正則表達式需要根據文本的具體內容和寫作風格指定;
3)構建目錄樹:
對標題進行正則表達式篩選后,獲取用于構建目錄樹的標題及其層級,利用標題層級關系,構建樹狀結構形式的目錄樹,以字典形式保存在本地,并將標題與標題對應的內容構建鏈接;
4)構建粗粒度圖譜及存儲
根據標題及標題間層級關系構建粗粒度知識圖譜,并將其存儲到服務器端,后續由關系挖掘與補全模塊進行實體抽取、關系挖掘與補全,進一步完善該知識圖譜。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211113958.2/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





