[發明專利]一種基于AI的對象化屬性文本自動分類方法及系統在審
| 申請號: | 202110295365.1 | 申請日: | 2021-03-19 |
| 公開(公告)號: | CN112966111A | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 王建偉 | 申請(專利權)人: | 北京星漢博納醫藥科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/951;G06F40/126;G06K9/62;G06N20/00 |
| 代理公司: | 上海氦閃專利代理事務所(普通合伙) 31354 | 代理人: | 李明;袁媛 |
| 地址: | 101312 北京市順*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ai 對象 屬性 文本 自動 分類 方法 系統 | ||
1.一種基于AI的對象化屬性文本自動分類方法,包括分類方法,其特征在于,所述分類方法的核心步驟如下:
建立字符編碼庫,把歷史做過入庫的所有文本數據進行字符化分解,單個字符在庫中做唯一數字編號,編號規則,使用整數做自增編號;
2)標準屬性數據預處理,提取已入庫的標準數據,作為待訓練數據,字符串長度限制為60個漢字字符,如:藥品通用名、藥品規格、藥品生產企業、批準文號等,能清晰表達數據屬性特征的字段;一般情況下,表名識別為對象分類,表的字段名稱識別為屬性分類,為了節省數據空間,屬性分類需要做字段編碼轉換,值提取數值編碼;
3)建立視窗特征編碼庫,創建一張62個字段的表,用于存儲主鍵,字符串轉碼值和屬性標簽值;把步驟2)中處理好的字符串按步驟1)中的編碼做轉碼,也就是把字符串中的字符都轉換成整數,不足60位的用0補齊,最后把字段名稱作為屬性標簽,標注到編碼后字的符串上;該步驟的目的是讓算可以通過數字去理解字符,建立60位視窗,這個動作很重要,是分類是否成功的關鍵,它把不定長的不規范字符串的變動問題,轉化為定長數據和特征更明顯的單一數據問題,換了一種角度去理解字符串;
4)模型訓練與交叉比對,加載步驟3)中的數據,轉碼字符串數據作為特征集,屬性標簽作為目標集,然后對所有數據進行訓練集和測試集才分,分別使用已知的所有機器學習算法進行訓練和預測,計算預測效果,取訓練效果最好的算法作為成果輸出,并把模型做對象串行化存儲,保存成文檔;
5)屬性文本分類預測,預測前需要把字符串按步驟3)中的方法把字符串轉換為60位數字編碼數組,多個字符串需要分開轉換,一起識別;按照實驗數據測試,準確率穩定在99.9%左右。
2.一種基于AI的對象化屬性文本自動分類系統,包括分類系統,其特征在于,所述分類系統包括有系統管理模塊、字符編碼庫管理模塊、視窗特征編碼庫管理模塊、數據模型訓練管理模塊、數據治理清洗管理模塊、數據探索管理模塊、任務管理模塊、分類信息管理模塊和統計分類與驗證模塊,所述系統管理模塊:負責系統核心參數配置,鏈接外部數據庫數據鏈接管理,通用數據etl抽取工具配置管理,用戶基本信息管理,系統日志等。
3.根據權利要求2所述的一種基于AI的對象化屬性文本自動分類系統,其特征在于,所述字符編碼庫管理模塊:編碼的目的,是讓機器學習算法,可以理解字符串;主要負責對字符的編碼,同時記錄字符編碼統計數量,提供公共接口,實時接收外部字符串進行轉碼,如果字符在編碼庫不存在,自動入庫,并編碼;提供已入庫字符基礎添加、修改、查詢和刪除功能。
4.根據權利要求2所述的一種基于AI的對象化屬性文本自動分類系統,其特征在于,所述視窗特征編碼庫管理模塊:視窗的目的是讓所有字符串在同一長度,同一個視角被分析,學習,它與字符編碼操作一起構成整個系統的算法核心基礎;提供基礎視窗基本維護功能,可對數據進行人工微調;根據不同分類特征,創建不同大小不同視窗,用于提高數據存儲效率,減少算法運行時間;如:姓名屬性可以用20個長度的視窗,顏色用10個夠了;提供字符串加窗編碼接口,實現屬性標簽編碼轉換。
5.根據權利要求2所述的一種基于AI的對象化屬性文本自動分類系統,其特征在于,所述數據模型訓練管理模塊:實現使用視窗數據進行模型訓練數據配置,不同算法加訓練數據,獲得的模型的預測效果會有很大出入;提供模型訓練的執行情況監控;實現模型訓練結果可視化交叉驗證比對;提供模型訓練結果串行化保存導出,并支持重命名管理;提供模型使用情況監控,有效性控制;提供模型修正情況統計,主要由統計模塊或人工修正模塊控制。
6.根據權利要求5所述的一種基于AI的對象化屬性文本自動分類系統,其特征在于,所述數據治理清洗管理模塊:在做erp數據抽取,或爬蟲數據入庫的過程中,經常會遇到數據錯位的情況;同對屬性分類預測,可以提取出與當前分類差異化比較大的數據,交給統計分類接口去二次判斷,同時發出數據問題預警,交由人工研判;研判后的結果會增加到機器學習訓練數據中,每日定時重構屬性分類預測模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京星漢博納醫藥科技有限公司,未經北京星漢博納醫藥科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110295365.1/1.html,轉載請聲明來源鉆瓜專利網。





