[發(fā)明專利]一種基于審計風險庫的數據搜索方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201911117051.1 | 申請日: | 2019-11-15 |
| 公開(公告)號: | CN110955763A | 公開(公告)日: | 2020-04-03 |
| 發(fā)明(設計)人: | 王桂欽;彭澎;陳威;王偉;劉伊雅 | 申請(專利權)人: | 深圳供電局有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06Q50/18 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 蔡偉杰 |
| 地址: | 510080 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 審計 風險 數據 搜索 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于審計風險庫的數據搜索方法及系統(tǒng),通過提取檢索式中關鍵詞,據各個文本數據的近似度讀取審計風險庫中近似度最大的N個文本數據,將近似度最大的N個文本數據作為檢索結果輸出到用戶;能夠優(yōu)化規(guī)范審計風險庫的組織結構,提高審計數據搜索的效率,能夠有效地提高第三方接口的讀取速度,方便了用戶的查找體驗,并提升了檢索的準確性。
技術領域
本公開涉及大數據、審計數據處理技術領域,具體涉及一種基于審計風險庫的數據搜索方法及系統(tǒng)。
背景技術
審計風險庫是基于對公司審計與風險的深入考察和了解,建立的詳細、準確和全面的公司審計與風險研究專業(yè)數據庫。審計風險庫涵蓋了對上市公司的審計意見與收取的審計費用等信息,還包括與公司的經營風險和財務風險相關的信息等,所謂審計風險是指會計報表存在重大錯誤或漏報,而審計后發(fā)表不恰當審計意見的可能性。
審計風險庫中包括有審計數據,具體包括數據庫數據和文本數據,其中的數據庫數據是經過篩選處理的結構化數據。而實際上審計數據更多的是文本數據,如審計報告、審計意見、審計案例和法規(guī)制度等等都屬于文本數據的范疇。兩種數據的區(qū)別是,文本數據具有數量大、種類多等特點。
現有的數據搜索技術對于海量的審計文本數據處理效果不能令人滿意,審計風險庫的文本數據中的審計經驗、數據價值的獲取往往是人工整理、提煉得到,或者通過開放平臺由相關人員自主新增和修改相關規(guī)則。這樣做容易造成審計風險庫的組織結構混亂和不規(guī)范,拖慢檢索分析的效率,對數據搜索的效率很低。
發(fā)明內容
本公開提供一種基于審計風險庫的數據搜索方法及系統(tǒng),通過提取檢索式中關鍵詞,據各個文本數據的近似度讀取審計風險庫中近似度最大的N個文本數據,將近似度最大的N個文本數據作為檢索結果輸出到用戶。
為了實現上述目的,根據本公開的一方面,提供一種基于審計風險庫的數據搜索方法,所述方法包括以下步驟:
步驟1,接收用戶的檢索式;
步驟2,提取檢索式中關鍵詞;
步驟3,計算關鍵詞與審計風險庫中的各個文本數據的近似度;
步驟4,根據各個文本數據的近似度讀取審計風險庫中近似度最大的N個文本數據;
步驟5,將近似度最大的N個文本數據作為檢索結果輸出到用戶。
其中,N為大于等于1的整數。
進一步地,在步驟1中,所述檢索式包括檢索詞、邏輯算符、通配符,檢索式以句子為單位。
進一步地,在步驟2中,提取關鍵詞的方法為TF-IDF、TextRank、LSA/LSI/LDA中任意一種關鍵詞提取方法。
進一步地,在步驟3中,計算關鍵詞與審計風險庫中的各個文本數據的近似度的方法包括以下步驟:
步驟3.1,計算關鍵詞的交叉熵值:令關鍵詞為先驗條件W,審計風險庫的每個類別中的各個關鍵詞W與類別Ci,類別為文本數據類別,關鍵詞W的期望交叉熵為:
其中,p(Ci)表示屬于類別Ci的審計風險庫中的各個文本數據占所有消息數目的比重,p(W)表示包含關鍵詞W的文本數據占所有文本數據數目的比重,p(Ci|W)表示在包含關鍵詞W的消息中屬于類別Ci的消息所占的比重,n為審計風險庫中文本數據類別的總數量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳供電局有限公司,未經深圳供電局有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911117051.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型手機射頻電測用測試探針模塊
- 下一篇:一種LNG船氣穹筒體防雨蓋
- 數據顯示系統(tǒng)、數據中繼設備、數據中繼方法、數據系統(tǒng)、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發(fā)送方法、數據發(fā)送系統(tǒng)、數據發(fā)送裝置以及數據結構
- 數據顯示系統(tǒng)、數據中繼設備、數據中繼方法及數據系統(tǒng)
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發(fā)送和數據接收設備、數據發(fā)送和數據接收方法
- 數據發(fā)送裝置、數據接收裝置、數據收發(fā)系統(tǒng)、數據發(fā)送方法、數據接收方法和數據收發(fā)方法
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置





