[發(fā)明專利]一種基于AI的對象化屬性文本自動分類方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110295365.1 | 申請日: | 2021-03-19 |
| 公開(公告)號: | CN112966111A | 公開(公告)日: | 2021-06-15 |
| 發(fā)明(設計)人: | 王建偉 | 申請(專利權)人: | 北京星漢博納醫(yī)藥科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/951;G06F40/126;G06K9/62;G06N20/00 |
| 代理公司: | 上海氦閃專利代理事務所(普通合伙) 31354 | 代理人: | 李明;袁媛 |
| 地址: | 101312 北京市順*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ai 對象 屬性 文本 自動 分類 方法 系統(tǒng) | ||
本發(fā)明屬于數(shù)據(jù)分析和數(shù)據(jù)挖掘技術領域,尤其是一種基于AI的對象化屬性文本自動分類方法及系統(tǒng),包括分類方法,所述分類方法的核心步驟如下:建立字符編碼庫,把歷史做過入庫的所有文本數(shù)據(jù)進行字符化分解,單個字符在庫中做唯一數(shù)字編號,編號規(guī)則,使用整數(shù)做自增編號;標準屬性數(shù)據(jù)預處理,提取已入庫的標準數(shù)據(jù),作為待訓練數(shù)據(jù),字符串長度限制為60個漢字字符,如:藥品通用名、藥品規(guī)格、藥品生產企業(yè)、批準文號等,能清晰表達數(shù)據(jù)屬性特征的字段。通過本發(fā)明可以快速判斷一段數(shù)據(jù)描述的主體屬性類別,然后判斷屬性類別是否與主體設計一致;另外,也可以通過對多個近鄰數(shù)據(jù)進行屬性分類判斷,在網(wǎng)頁中定位主體描述信息位置。
技術領域
本發(fā)明涉及數(shù)據(jù)分析和數(shù)據(jù)挖掘技術領域,尤其涉及一種基于AI的對象化屬性文本自動分類方法及系統(tǒng)。
背景技術
在短短的五年內,使用互聯(lián)網(wǎng)的人數(shù)增加了83%。以微博為例,2018年底的微博月活躍用戶增至4.62億,日均文字發(fā)布量高達1.3億條。面對海量的數(shù)據(jù),單純的人工管理歸納不同類別的信息在時間上、經濟上的成本都很大。越來越多的應用開始采取自動的文本分類技術,包括垃圾評論識別、黃反識別、新聞分類、情感分析等,文本分類技術在大數(shù)據(jù)背景下,正處于高速發(fā)展時期。
經檢索,中國專利公開號為CN112115264A的專利,公開了一種面向數(shù)據(jù)分布變化的文本分類模型調整方法,能夠根據(jù)數(shù)據(jù)分布情況的變化,先對在線文本數(shù)據(jù)流進行標簽預測,而后通過相似度計算和價值篩選,分類進行人工標注,采用對抗的訓練樣本數(shù)據(jù)集分別迭代訓練判別網(wǎng)絡,動態(tài)地對已訓練好的識別網(wǎng)絡模型進行調整和更新,使得離線模型自適應在線系統(tǒng)數(shù)據(jù)特征發(fā)生變化的情況。
上述專利還存在有以下不足之處:在機器學習的大多數(shù)算法中,是不能直接使用文本做為特征值進行訓練的,當前特征工程描述中,沒有說明如何計算文本間的相似度和價值,這樣就很難通過模型訓練達到指定目標;算法中提到“手動標注后的真實標簽數(shù)據(jù)”并將其做為正樣本數(shù)據(jù),進行訓練,如果想讓結果比較理想,必須經過大量的人工標注才可以,這樣人工工作量巨大,想讓算法落地需要很多時間,如果出現(xiàn)新的分類情況,還需要人工參與,還需要相同或更多時間標注標簽,顯然不是很現(xiàn)實;
算法中提到“帶標簽數(shù)據(jù)”和“預測類別”數(shù)據(jù),這兩部分數(shù)據(jù)如何初始化,和數(shù)據(jù)來源,文中沒有說明,對于這部分數(shù)據(jù)的選擇和前期處理。
發(fā)明內容
基于背景技術中提出的人工工作量巨大的技術問題,本發(fā)明提出了一種基于AI的對象化屬性文本自動分類方法及系統(tǒng)。
本發(fā)明提出的一種基于AI的對象化屬性文本自動分類方法,包括分類方法,所述分類方法的核心步驟如下:
1)建立字符編碼庫,把歷史做過入庫的所有文本數(shù)據(jù)進行字符化分解,單個字符在庫中做唯一數(shù)字編號,編號規(guī)則,使用整數(shù)做自增編號;
2)標準屬性數(shù)據(jù)預處理,提取已入庫的標準數(shù)據(jù),作為待訓練數(shù)據(jù),字符串長度限制為60個漢字字符,如:藥品通用名、藥品規(guī)格、藥品生產企業(yè)、批準文號等,能清晰表達數(shù)據(jù)屬性特征的字段;一般情況下,表名識別為對象分類,表的字段名稱識別為屬性分類,為了節(jié)省數(shù)據(jù)空間,屬性分類需要做字段編碼轉換,值提取數(shù)值編碼;
3)建立視窗特征編碼庫,創(chuàng)建一張62個字段的表,用于存儲主鍵,字符串轉碼值和屬性標簽值;把步驟2)中處理好的字符串按步驟1)中的編碼做轉碼,也就是把字符串中的字符都轉換成整數(shù),不足60位的用0補齊,最后把字段名稱作為屬性標簽,標注到編碼后字的符串上;該步驟的目的是讓算可以通過數(shù)字去理解字符,建立60位視窗,這個動作很重要,是分類是否成功的關鍵,它把不定長的不規(guī)范字符串的變動問題,轉化為定長數(shù)據(jù)和特征更明顯的單一數(shù)據(jù)問題,換了一種角度去理解字符串;
4)模型訓練與交叉比對,加載步驟3)中的數(shù)據(jù),轉碼字符串數(shù)據(jù)作為特征集,屬性標簽作為目標集,然后對所有數(shù)據(jù)進行訓練集和測試集才分,分別使用已知的所有機器學習算法進行訓練和預測,計算預測效果,取訓練效果最好的算法作為成果輸出,并把模型做對象串行化存儲,保存成文檔;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京星漢博納醫(yī)藥科技有限公司,未經北京星漢博納醫(yī)藥科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110295365.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





