[發明專利]一種改進知識遷移的實體識別方法在審
| 申請號: | 201911374613.0 | 申請日: | 2019-12-27 |
| 公開(公告)號: | CN111144119A | 公開(公告)日: | 2020-05-12 |
| 發明(設計)人: | 趙平;孫連英;涂帥;王金峰 | 申請(專利權)人: | 北京聯合大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/216;G06F16/35;G06Q50/14 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 吳蔭芳 |
| 地址: | 100101 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 改進 知識 遷移 實體 識別 方法 | ||
本發明涉及一種景點實體識別方法,利用知識遷移的思想解決了旅游領域標注數據難獲取的問題,同時解決了利用深度學習方法識別景點中嚴重依賴標注數據以及標注數據質量問題,此外用融合語言模型的BERT+BiLSTM+CRF方法解決了中文命名實體識別特征表示的一詞多義問題。本發明借助已有的輔助領域樣本的標注數據,根據關鍵詞,句子,可擴展能力三個級別的評估,利用評估結果擴展目標領域訓練集。經過實驗證明,本發明僅取1/4的標注數據,就可以獲得比較顯著的識別效果。此外,在無需進行大量的人工數據標注的前提下,借助已有的輔助領域樣本的標注數據進行擴展,在不影響識別效率的前提下,減少了人工標注數據所花費的時間和精力。
技術領域
本發明涉及一種景點實體識別方法,尤其涉及一種改進知識遷移的景點實體識別模型。
背景技術
在對類似旅游游記這種海量非結構化文本進行高效信息管理和數據挖掘對旅游領域問答系統、輿情分析、個性化推薦等研究具有重要的意義,而對景點的實體識別精確率直接影響對旅游領域的信息抽取。
針對旅游景點的識別,目前主要有以下幾類:基于機器學習(隱馬爾可夫模型和條件隨機場)和基于深度學習(卷積神經網絡)的方法。隱馬爾可夫模型識別景點是一個雙重隨機過程,該方法未能考慮到上下文之間的語義信息,且在對文本提取特征的過程中未能解決文本特征表示的一詞多義問題,旅游領域景點詞語一般會存在不同語境下不同含義,比如“黃山”在不同語境下可以指安徽省黃山市,屬于地名,也可以指旅游景區“黃山”等,繼而景點實體識別效率一般。基于條件隨機場方法主要依賴人工構建特征模板,對于旅游領域,景點實體數量過多,無法一一列舉,且在人工構建特征模板的時候耗時耗力,未能考慮到上下文語境和語義的信息。基于卷積神經網絡的方法,對景點識別效率較高,但是需要大量的人工標注語料,且識別結果嚴重依賴語料標注質量,此外人工標注耗費巨大精力,自動化標注的訓練集語料質量直接影響識別效率。所以針對旅游景點識別目前最大的問題就是:1)對于旅游景點重名,景點詞語在不同語境下的不同含義問題,在文本特征表示的時候得不到解決;2)對于特定的旅游領域,景點實體數量過多,無法一一列舉,且在人工構建特征模板的時候耗時耗力,使用機器學習算法進行學習需要人工標注數據,且模型嚴重依賴標注數據的質量,標注數據難獲取的問題等;
發明內容
本發明的目的就是為了解決上述問題,提供了一種改進知識遷移的景點實體識別模型。輔助領域文本為規范標注化的數據,所以遷移的難點在于如何評估輔助領域到目標領域的相似性,保證特征提取和知識遷移的過程中,將輔助領域中盡可能多的關于目標領域的語義信息擴展但不產生負遷移。
對此,本文針對旅游領域文本特點,提出了關鍵詞重要性,樣本可擴展性兩種不同的計算方式來評估一個樣本的好壞。設計了三種不同程度的相似度來評估輔助領域與目標領域的相似度。它具有利用輔助領域擴展目標領域訓練集的優點,能夠準確有效識別景點。
為了實現上述目的,本發明采用如下技術方案:
一種改進知識遷移的景點實體識別模型,具體步驟為:
步驟一:利用輔助領域訓練集使用BERT+BiLSTM+CRF方法訓練中文命名實體識別模型,中文命名實體識別模型包括BERT模型、BiILSTM、CRF層,具體為:訓練集經過BERT模型得到文本字向量,然后通過BiILSTM深度學習上下文特征信息,進行命名實體識別,最后使用CRF層對BiLSTM的輸出序列處理。
步驟二:用輔助領域訓練集訓練word2Vec模型,訓練完成后的word2Vec模型稱為輔助領域詞向量化模型,用目標領域訓練集訓練word2Vec模型,訓練完成后的word2Vec模型稱為目標領域詞向量化模型;
步驟三:對輔助領域訓練集中的每一個樣本,計算詞語重要性,并將詞語重要性根據由大到小的順序排列,前m個詞語為輔助領域關鍵詞;對目標領域訓練集中的每一個樣本,計算詞語重要性,并將詞語重要性根據由大到小的順序排列,前m個詞語為目標領域關鍵詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京聯合大學,未經北京聯合大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911374613.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于低溫自蔓延燃燒原理的粉體合成爐及合成方法
- 下一篇:雙缸單進料液壓活塞泵





