[發(fā)明專利]異常標點清洗方法、存儲介質(zhì)及服務器有效
| 申請?zhí)枺?/td> | 201810103364.0 | 申請日: | 2018-02-01 |
| 公開(公告)號: | CN108319692B | 公開(公告)日: | 2021-03-19 |
| 發(fā)明(設(shè)計)人: | 陳峰 | 申請(專利權(quán))人: | 云知聲智能科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/211;G06F40/166 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100096 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 異常 標點 清洗 方法 存儲 介質(zhì) 服務器 | ||
本發(fā)明公開了一種針對醫(yī)療語料的異常標點清洗方法、存儲介質(zhì)及服務器,通過從醫(yī)療語料庫中進行句子抽取,抽取出不包括任何標點和空格類字符的語句;對抽取出的語句進行泛化處理;基于抽取出的語句中的詞頻特征,對抽取出的語句進行聚類;針對聚類后得到的每一個句子類別,進行信息統(tǒng)計,找出異常標點,并對找出的異常標點進行自動清洗;達到了挖掘出醫(yī)療語料中的異常標點并對存在異常的標點進行自動清洗的目的,提高了醫(yī)療語料中標點的清洗效率。
技術(shù)領(lǐng)域
本發(fā)明涉及醫(yī)療文本數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種針對醫(yī)療語料的異常標點清洗方法、存儲介質(zhì)及服務器。
背景技術(shù)
雖然醫(yī)療語料是一種專業(yè)性很強的語料,但在醫(yī)療語料中仍然存在大量的標點異常;也就是說,在醫(yī)療文本中,當文本內(nèi)容的上下文一致的情況下,會存在大量的標點不一致。而針對醫(yī)療語料這種文本,由于標點符號在整個文本序列中的占比較低(粗略統(tǒng)計大概只有20%左右),且本來樣本就少,若質(zhì)量還不高,則會給后續(xù)的數(shù)據(jù)處理帶來很大干擾。因此,如何找出并清除上述不一致的標點,則成為目前亟待解決的問題之一。
發(fā)明內(nèi)容
本發(fā)明提供一種針對醫(yī)療語料的異常標點清洗方法、存儲介質(zhì)及服務器,旨在挖掘出醫(yī)療語料中的異常標點并對存在異常的標點進行自動清洗。
本發(fā)明提供了一種針對醫(yī)療語料的異常標點清洗方法,所述異常標點清洗方法包括:
從醫(yī)療語料庫中進行句子抽取,抽取出不包括任何標點和空格類字符的語句;
對抽取出的語句進行泛化處理;
基于抽取出的語句中的詞頻特征,對抽取出的語句進行聚類;
針對聚類后得到的每一個句子類別,進行信息統(tǒng)計,找出異常標點,并對找出的異常標點進行自動清洗。
優(yōu)選地,所述基于抽取出的語句中的詞頻特征,對抽取出的語句進行聚類,包括:
根據(jù)抽取出的語句中的詞頻和逆向文件頻率,采用基于距離的聚類算法,對抽取出的語句進行聚類。
優(yōu)選地,所述采用基于距離的聚類算法,對抽取出的語句進行聚類,包括:
采用距離作為相似性的評價指標,利用誤差平方和準則函數(shù)作為聚類準則函數(shù),對抽取出的語句進行聚類。
優(yōu)選地,所述針對聚類后得到的每一個句子類別,進行信息統(tǒng)計,找出異常標點,包括:
針對聚類后得到的每一個句子類別,統(tǒng)計在當前句子類別A的位置之前出現(xiàn)頻率最高的句子類別B,并統(tǒng)計在句子類別A和句子類別B之間出現(xiàn)頻率最高的標點符號P1,以及在句子類別A和句子類別B之間出現(xiàn)次數(shù)低于預設(shè)閾值的分隔符W1;
統(tǒng)計在當前句子類別A的位置之后出現(xiàn)頻率最高的句子類別C,并統(tǒng)計在句子類別A和句子類別C之間出現(xiàn)頻率最高的標點符號P2,以及在句子類別A和句子類別C之間出現(xiàn)次數(shù)低于預設(shè)閾值的分隔符W2;
將在句子類別A和句子類別B之間出現(xiàn)次數(shù)低于預設(shè)閾值的分隔符W1,以及在句子類別A和句子類別C之間出現(xiàn)次數(shù)低于預設(shè)閾值的分隔符W2,均視為異常標點;
其中,所述分隔符W1和分隔符W2包括一個或者多個標點符號。
優(yōu)選地,所述對找出的異常標點進行自動清洗,包括:
將句子類別A和句子類別B之間的異常標點W1替換為出現(xiàn)頻率最高的標點符號P1,將句子類別A和句子類別C之間的異常標點W2替換為出現(xiàn)頻率最高的標點符號P2。
對應于以上所提供的一種針對醫(yī)療語料的異常標點清洗方法,本發(fā)明還提供了一種存儲介質(zhì),所述存儲介質(zhì)存儲有多條指令,其特征在于,所述指令適用于由處理器加載并執(zhí)行以上實施例所提供的異常標點清洗方法;其中,所述異常標點清洗方法包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于云知聲智能科技股份有限公司,未經(jīng)云知聲智能科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810103364.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





