[發(fā)明專利]一種分類器的構(gòu)建方法、混雜文本的分類方法及裝置在審
| 申請?zhí)枺?/td> | 201811278457.3 | 申請日: | 2018-10-30 |
| 公開(公告)號: | CN109522943A | 公開(公告)日: | 2019-03-26 |
| 發(fā)明(設(shè)計(jì))人: | 曾承;王金河;呂鵬 | 申請(專利權(quán))人: | 武漢泰樂奇信息科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 武漢科皓知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 羅飛 |
| 地址: | 430070 湖北省武漢*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 混雜 分類器 文本 構(gòu)建 短句 分類結(jié)果 分類 文本分割 分隔符 | ||
本發(fā)明提供了一種分類器的構(gòu)建方法、混雜文本的分類方法及裝置,其中的混雜文本的分類方法包括:獲得待處理的混雜文本;根據(jù)分隔符將混雜文本分割為多個(gè)短句;將多個(gè)短句逐個(gè)輸入構(gòu)建的分類器中,獲得分類結(jié)果。可以大大提高分類結(jié)果準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種分類器的構(gòu)建方法、混雜文本的分類方法及裝置。
背景技術(shù)
在進(jìn)行數(shù)據(jù)挖掘之前,需要將非結(jié)構(gòu)化數(shù)據(jù)清洗為結(jié)構(gòu)化數(shù)據(jù),當(dāng)非結(jié)構(gòu)化的數(shù)據(jù)是一段混雜的文本時(shí),則需要通過技術(shù)手段對混雜文本進(jìn)行拆分,并映射到對應(yīng)的結(jié)構(gòu)化的列中。
現(xiàn)有技術(shù)中,通常采用的方法是:首先通過人工整理特征詞,在進(jìn)行分類時(shí),將混雜文本按照標(biāo)點(diǎn)符號分開為短句,然后依次判斷短句中是否包含不同列的特征詞,如果包含,就把該短句劃分到該列。例如“肝臟超聲未見明顯異常;腎臟超聲未見明顯異常”,前一句劃分到“肝臟超聲”,后一句劃分到“腎臟超聲”。
本發(fā)明申請人在實(shí)施本發(fā)明的過程中,發(fā)現(xiàn)現(xiàn)有技術(shù)中的方案至少存在如下問題:
現(xiàn)有方法,由于需要通過人工整理特征詞,導(dǎo)致特征詞不全面,容易遺漏,并且整理的特征詞不能很好的體現(xiàn)文本特征,導(dǎo)致一些短句會被誤判。例如“膀胱充盈,子宮附件未見明顯異常”,按照特征詞判斷,該短句會被誤判為“膀胱超聲”,因?yàn)樗卣髟~“膀胱”,但“膀胱充盈”只是做“子宮附件超聲”檢查的前提條件,實(shí)際上該短句應(yīng)該屬于“子宮附件超聲”。
由上可知,現(xiàn)有技術(shù)中方法存在分類結(jié)果不準(zhǔn)確的技術(shù)問題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種分類器的構(gòu)建方法、混雜文本的分類方法及裝置,用以解決或者至少部分解決現(xiàn)有技術(shù)中方法存在分類結(jié)果不準(zhǔn)確的技術(shù)問題。
本發(fā)明第一方面提供了一種分類器的構(gòu)建方法,包括:
步驟S1:將多個(gè)混雜文本進(jìn)行拆分成短句,基于預(yù)先整理的特征詞標(biāo)注為訓(xùn)練集;
步驟S2:針對訓(xùn)練集,篩選出滿足預(yù)設(shè)條件的特征詞;
步驟S3:采用篩選出的特征詞將短句表示為特征向量;
步驟S4:基于特征向量以及對應(yīng)的訓(xùn)練集訓(xùn)練模型,獲得每個(gè)拆分列的分類器,其中,每個(gè)拆分列對應(yīng)一個(gè)類別。
在一種實(shí)施方式中,步驟S1中,通過手動(dòng)或者自動(dòng)的方式進(jìn)行標(biāo)注,獲得每個(gè)文本對應(yīng)的訓(xùn)練集。
在一種實(shí)施方式中,步驟S2具體包括:
通過分詞和統(tǒng)計(jì)詞頻,獲得每個(gè)特征詞的詞頻;
將每個(gè)特征詞按照詞頻排序,將滿足預(yù)設(shè)數(shù)量的特征詞作為滿足預(yù)設(shè)條件的特征詞。
在一種實(shí)施方式中,步驟S2具體包括:
通過分詞和統(tǒng)計(jì)詞頻,獲得每個(gè)特征詞的詞頻;
計(jì)算每個(gè)特征的重要程度;
根據(jù)每個(gè)特征詞的詞頻和重要程度,確定特征詞的評分,將評分高于預(yù)設(shè)值的特征詞作為滿足預(yù)設(shè)條件的特征詞。
在一種實(shí)施方式中,步驟S2具體包括:
采用機(jī)器學(xué)習(xí)的方式篩選出符合預(yù)設(shè)條件的特征詞。
在一種實(shí)施方式中,步驟S4中的模型包括:
邏輯回歸模型、決策樹模型、支持向量機(jī)模型、樸素貝葉斯模型中的一種。
基于同樣的發(fā)明構(gòu)思,本發(fā)明第二方面提供了一種混雜文本的分類方法,包括:
獲得待處理的混雜文本;
根據(jù)分隔符將混雜文本分割為多個(gè)短句;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢泰樂奇信息科技有限公司,未經(jīng)武漢泰樂奇信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811278457.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 混雜膜、包括該混雜膜的防反射膜、光學(xué)產(chǎn)品和恢復(fù)該混雜膜的除霧性能的方法
- 信息處理設(shè)備、信息存儲媒體、內(nèi)容管理系統(tǒng)、數(shù)據(jù)處理方法、以及計(jì)算機(jī)程序
- 混雜共聚物組合物
- 環(huán)保塑木復(fù)合板及其制造方法
- 石墨烯-陶瓷混雜涂層及其制備方法
- 多語言混雜模型建立、數(shù)據(jù)獲取方法及裝置、電子設(shè)備
- 一種基于故障混雜模型的機(jī)電系統(tǒng)故障傳播分析方法
- 低成本制備基于連續(xù)C與SiC束間混雜纖維增強(qiáng)碳化硅復(fù)合材料的方法及其產(chǎn)品
- 一種混雜纖維經(jīng)編格柵
- 使用混雜鍵產(chǎn)生密碼簽名
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測模型構(gòu)建方法





