[發明專利]一種數據特征預處理的方法及其實現系統和應用在審
| 申請號: | 202011040887.9 | 申請日: | 2020-09-28 |
| 公開(公告)號: | CN112199415A | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 李玉軍;鄧媛潔;魏瑩 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06N3/04;G06N3/08;G06Q10/06;G06Q50/26 |
| 代理公司: | 濟南金迪知識產權代理有限公司 37219 | 代理人: | 許德山 |
| 地址: | 250199 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 特征 預處理 方法 及其 實現 系統 應用 | ||
本發明涉及一種數據預處理的方法及其實現系統和應用,包括:(1)數據結構化:原始數據包括可量化字段和文本字段;對于可量化字段,對其中的離散類別字段進行標簽編碼,對連續數值型字段進行歸一化;對于文本字段,對其進行規則提取,利用信息抽取和知識表示技術,提取出關鍵字,并表示相對應的規則,建立結構化知識庫;(2)特征向量提取和構建:對于步驟(1)處理后的可量化字段,判斷相似度,刪除樣本相似度區分較小的無效特征,并選擇最有效的特征作為特征向量。本發明針對文本性數據文件,基于知識抽取和表示技術,本發明提出關鍵字和規則的提取和量化方法,建立結構化知識庫,以進行量化評估。
技術領域
本發明涉及一種數據特征預處理的方法及其實現系統和應用,屬于神經網絡技術領域。
背景技術
信息化社會的發展產生了海量的數據,人們需要時時刻刻處理多種維度、各種形態的數據來進行生產和生活,獲取各種音視頻文件、傳感器數據等信息。目前數據預處理的常見方法包括數據清洗、數據集成和數據變換等。針對不同形態的數據要選擇不同的預處理方法,對較高維度的數據特征需要降維,剔除冗余數據,不同方法會不同程度的影響數據應用的效果,因此能處理涵蓋結構化字段和非結構化文本信息的高維數據特征處理方法較少。
目前在判定服刑人員是否符合“減假暫”(減刑、假釋及暫緩執行)的規范時,需要法官翻閱大量的法律文書做出判決,消耗大量的人力物力,同時會產生一定的主觀性,缺少針對判決的量化評估方法。目前對大數據的處理方法向著智能化、自動化的方向發展,各種工作也逐漸由智能機器所代替,人類社會與智能機器的交叉越來越多,在這樣的時代背景下,智能、方便的人機交互變得越來越重要。
發明內容
針對現有技術的不足,本發明提出了一種數據特征預處理的方法;
本發明還提供了上述數據特征預處理的方法的實現系統;
本發明另外還提供了上述數據特征預處理的方法在判決服刑人員是否符合減假暫條件方面的應用;其中用到了本發明提供的一種基于BP(Back Propagation)神經網絡和RBF(Radical Basis Function)神經網絡兩種異構神經網絡融合的級聯神經網絡模型,集成BP神經網絡的數據壓縮能力和RBF神經網絡任意精度的泛函逼近能力,從而解決評估數據的多維非線性問題。可以有效的利用建立的服刑人員多維信息數據庫,利用關聯數據神經網絡優化技術,來提高服刑人員減假暫量化評估的準確性。
術語解釋:
1、閔可夫斯基距離,衡量數值點之間距離的一種方法。
2、VDM距離,衡量樣本簇中無序屬性間距離的一種方法。
3、異構神經網絡:是指兩種結構不同的神經網絡。
4、網絡融合:將兩種不同的神經網絡搭建成前后級聯的結構,前級神經網絡的輸入是整個網絡的輸入,其輸出作為后級神經網絡的輸入,后級神經網絡的輸出作為整個網絡結構的輸出。
本發明的技術方案為:
一種數據特征預處理的方法,包括步驟如下:
(1)數據結構化
原始數據按數據類型可分為兩類,包括可量化字段和文本字段;
數據結構化,構建特征向量:結構化數據,是指有嚴格的數據格式和長度規范的數據。
對于所述可量化字段,對其中的離散類別字段進行標簽編碼,對連續數值型字段進行歸一化;
對于所述文本字段,對其進行規則提取,利用信息抽取和知識表示技術,提取出關鍵字,并表示相對應的規則,建立結構化知識庫;如輸入最高人民法院關于辦理減刑案件法律規定內容,輸出固定格式的信息點,包括“減刑規則”、“減刑時間”、“減刑間隔”等。
(2)特征向量提取和構建
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011040887.9/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





