[發(fā)明專利]一種針對易混淆運動損傷實體詞的識別方法在審
| 申請?zhí)枺?/td> | 202110682430.6 | 申請日: | 2021-06-21 |
| 公開(公告)號: | CN113297851A | 公開(公告)日: | 2021-08-24 |
| 發(fā)明(設(shè)計)人: | 李瑞瑞;李爽;趙偉 | 申請(專利權(quán))人: | 北京富通東方科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/126;G06F16/35;G06K9/62;G16H70/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100086 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對 混淆 運動 損傷 實體詞 識別 方法 | ||
本發(fā)明公開了一種針對易混淆運動損傷實體詞的識別方法,基于運動損傷領(lǐng)域的大規(guī)模文本語料,訓(xùn)練word2vec語義模型,將所述文本語料切割生成字符向量文本和詞匯向量文本,采用自動標注工具標注訓(xùn)練集、驗證集和測試集的字符向量文本和詞匯向量文本;為所述字符向量文本和詞匯向量文本創(chuàng)建編碼并計算所述字符向量文本和詞匯向量文本的相對位置編碼。然后對字符向量文本和詞匯向量文本進行第一次鑒別,得到所述字符向量文本和詞匯向量文本的預(yù)測標簽。將預(yù)測標簽為癥狀、體征、檢查結(jié)果和檢驗結(jié)果的實體詞歸類為待確定組,進行二次鑒別。通過上述方式,本發(fā)明能夠有效鑒別運動損傷領(lǐng)域中實體詞的類別。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理領(lǐng)域,特別是涉及一種針對易混淆運動損傷實體詞的識別方法。
背景技術(shù)
命名實體識別(NER)技術(shù)可用于識別文本中的特定實體信息,如人名、地名、組織名稱等,它廣泛應(yīng)用于信息抽取、信息檢索、智能問答、機器翻譯等領(lǐng)域。
以前的方法主要是基于詞典和基于規(guī)則的。基于詞典的方法是通過字符串模糊查找或者完全匹配的方法,但是隨著新的實體名稱不斷涌現(xiàn),詞典的質(zhì)量與大小有局限性;現(xiàn)階段應(yīng)用較多的模型有隱馬爾可夫模型(HiddenMarkovModel,HMM)、支持向量機(SupportVectorMachine,SVM)、最大熵馬爾可夫模型(MaximumEntropyMarkovModel,MEMM)、條件隨機場(ConditionalRandomField,CRF)等。條件隨機場模型能對鄰近標簽對預(yù)測序列的影響問題進行有效地處理,所以在實體識別中應(yīng)用較多,且效果不錯。目前,針對序列標注問題,一般采用深度學(xué)習(xí)算法。與傳統(tǒng)算法相比,深度學(xué)習(xí)算法去掉了手工提取特征這一步,能有效的提取判別特征。
近年來,隨著互聯(lián)網(wǎng)的高速運轉(zhuǎn),信息也有了各式各樣的存儲形式。在生物醫(yī)學(xué)領(lǐng)域,文獻資源每年都在數(shù)以千倍的增加,從醫(yī)學(xué)含義解釋角度看,運動損傷領(lǐng)域?qū)嶓w詞中,癥狀、體征、檢查結(jié)果和檢驗結(jié)果屬于易混淆實體詞類,其中,癥狀的實體詞存在識別過程中容易出錯的問題,而與之關(guān)聯(lián)性較大的三類實體詞:體征、檢查結(jié)果、檢驗結(jié)果的檢查方法詞表達相對標準、固定、有限,易于區(qū)分,因此作為鑒別癥狀與體征、檢查結(jié)果、檢驗結(jié)果的詞表最為合適。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提出一種針對易混淆運動損傷實體詞的識別方法。
為解決上述技術(shù)問題,本發(fā)明采用的一個技術(shù)方案是:提出一種針對易混淆運動損傷實體詞的識別方法,其特征在于,包括以下步驟:
步驟1:基于運動損傷領(lǐng)域的大規(guī)模文本語料,訓(xùn)練word2vec語義模型,將所述文本語料切割生成字符向量文本和詞匯向量文本;
步驟2:采用自動標注工具標注訓(xùn)練集、驗證集和測試集的字符向量文本和詞匯向量文本;
步驟3: 為字符向量文本和詞匯向量文本創(chuàng)建編碼并計算所述字符向量文本和詞匯向量文本的相對位置編碼。
步驟4:對字符向量文本和詞匯向量文本進行第一次鑒別,得到所述字符向量文本和詞匯向量文本的預(yù)測標簽。
步驟5:將預(yù)測標簽為癥狀、體征、檢查結(jié)果和檢驗結(jié)果的實體詞歸類為待確定組,進行二次鑒別;
所述待確定組為4組,包括癥狀組、體征組、檢查結(jié)果組和檢驗結(jié)果組。
進一步的,所述字符向量文本包括單字符向量文本和雙字符向量文本,所述單字符向量文本通過將文本語料按字符切割生成,所述雙字符向量文本通過將文本語料按雙字符切割生成,所述詞匯向量文本采用jieba分詞按語義切割生成。
進一步的,所述自動標注工具采用BIOES方法進行標注;所述BIOES方法包括:“B”表示標注的開始字符,“I”表示標注的中間字符,“E”表示標注的結(jié)尾字符,當標注為單字符時則用“S”表示,其他字符用“O”表示,數(shù)據(jù)格式要求一行一個字符及該字符標注,字符與標注間用空格隔開,句與句之間用空行隔開。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京富通東方科技有限公司,未經(jīng)北京富通東方科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110682430.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





