[發明專利]命名實體識別方法及系統有效
| 申請號: | 201810475383.6 | 申請日: | 2018-05-17 |
| 公開(公告)號: | CN108717410B | 公開(公告)日: | 2022-05-20 |
| 發明(設計)人: | 劉光敏;桂洪冠;紀達麒;陳運文 | 申請(專利權)人: | 達而觀信息科技(上海)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30 |
| 代理公司: | 北京知果之信知識產權代理有限公司 11541 | 代理人: | 唐海力;李志剛 |
| 地址: | 201203 上海市浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 命名 實體 識別 方法 系統 | ||
本申請公開了一種命名實體的識別方法及裝置。所述方法包括:輸入待識別文本,得到第一字符序列;通過訓練詞向量,得到所述目標文字的第一特征模型;將所述第一字符序列中的每個字符按照所述第一特征模型進行標簽標注,得到第一標簽序列;根據所述第一標簽序列,提取可識別的所述命名實體;采用通過訓練詞向量,得到所述目標文字的第一特征模型的方式,通過詞向量對第一特征模型進行特征函數擴展,達到了提升系統泛化能力的目的,從而實現了提高識別效果的技術效果,進而解決了相關技術中過擬合帶來的識別效果較差的問題。
技術領域
本申請涉及命名實體識別領域,具體而言,涉及一種基于詞向量和條件隨機場的命名實體識別方法及系統。
背景技術
命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等;相關技術中往往采用將常見的命名實體識別任務被轉化為序列標注任務,具體的,在序列標注任務中,最經典的方法為使用線性鏈條件隨機場。
發明人發現,相關技術中基于條件隨機場的命名實體識別方法的一大缺點是容易過擬合,尤其是在訓練集數據較少時,這里的過擬合主要是指模型在訓練集上效果很好,但真實預測時效果比較差的情況,通常緩解過擬合的最好方法是增大訓練數據,但是數據的獲取往往并沒有那么容易,所以僅有少量訓練數據的情況還是很常見的,因此過擬合帶來的問題一直影響著系統的效果。
針對相關技術中過擬合帶來的識別效果較差的問題,目前尚未提出有效的解決方案。
發明內容
本申請的主要目的在于提供一種命名實體的識別方法,以解決相關技術中過擬合帶來的識別效果較差的問題。
為了實現上述目的,根據本申請的一個方面,提供了一種命名實體的識別方法。
根據本申請的命名實體的識別方法包括:輸入待識別文本,得到第一字符序列,其中,所述第一字符序列為將所述目標文字進行拆分后得到的每個字符所組成的序列;通過訓練詞向量,得到所述目標文字的第一特征模型,其中,所述第一特征模型用于生成所述每個字符對應的特征數值;將所述第一字符序列中的每個字符按照所述第一特征模型進行標簽標注,得到第一標簽序列;根據所述第一標簽序列,提取可識別的所述命名實體。
進一步的,所述通過訓練詞向量,得到所述目標文字的第一特征模型包括:通過預設訓練數據和預設特征模板進行模型訓練,得到第二特征模型;根據經過訓練后的詞向量對所述第二特征模型進行特征函數擴展,得到所述第一特征模型。
進一步的,所述通過訓練詞向量,得到所述目標文字的第一特征模型還包括:對所述預設訓練數據進行數據格式預處理;將處理后的訓練數據轉化為字符序列格式和標簽序列格式,并用于模型訓練。
進一步的,所述將所述第一字符序列中的每個字符按照所述第一特征模型進行標簽標注,得到第一標簽序列包括:根據所述第一特征模型和每個所述標簽,生成對應的第一特征函數和第一特征函數權重,其中,所述第一特征函數權重用于作為所述第一特征函數對應每個所述標簽的權重。
進一步的,所述將所述第一字符序列中的每個字符按照所述第一特征模型進行標簽標注,得到第一標簽序列還包括:根據所述第一特征模型,得到第一標簽轉移概率,其中,所述第一標簽轉移概率為所述標簽在與所述第一字符序列建立對應關系時,當前標簽轉移到下一個標簽的概率;對每個所述第一字符序列對應的所述第一特征函數權重進行累加計算,結合所述第一標簽轉移概率,得到所述第一標簽序列。
進一步的,所述通過訓練詞向量,得到所述目標文字的第一特征模型還包括:將所述第一字符序列中的每個字符轉化為低維實數向量;通過添加通用語料對所述低維實數向量進行詞向量訓練,得到經過語義相似度擴展的詞向量。
為了實現上述目的,根據本申請的另一方面,提供了一種命名實體的識別裝置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于達而觀信息科技(上海)有限公司,未經達而觀信息科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810475383.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種序列標注方法及裝置
- 下一篇:一種基于大數據的調查問卷設計輔助系統





