[發明專利]一種基于中文字符詞性特征的目標實體識別方法及裝置有效
| 申請號: | 201810431801.1 | 申請日: | 2018-05-08 |
| 公開(公告)號: | CN108959242B | 公開(公告)日: | 2021-07-27 |
| 發明(設計)人: | 李全剛;柳廳文;李彥增;王學賓;亞靜;李柢穎;時金橋 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06K9/62 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 中文 字符 詞性 特征 目標 實體 識別 方法 裝置 | ||
本發明涉及一種基于中文字符詞性特征的目標實體識別方法及裝置。該方法包括:1)在訓練文本中標記目標實體并進行分詞及詞性標注;2)將訓練文本拆分為字符,得到字符序列,每個字符保留拆分之前的詞性;3)將字符的詞性與字符在分詞中的位置進行拼接作為字符詞性,得到字符詞性序列;4)將對目標實體的標記映射至目標實體中的各個字符上,得到字符標注序列;5)將字符序列與字符詞性序列作為特征,將字符標注序列作為訓練目標值,輸入機器學習模型中進行訓練;6)將待識別文本的字符序列與字符詞性序列輸入訓練好的機器學習模型,得到目標實體識別結果。本發明能夠根據需求在中文文本中準確有效地對所需特定目標實體進行識別與提取。
技術領域
本發明屬于自然語言處理領域,具體涉及一種基于中文字符詞性特征的目標實體識別方法及裝置,可使用中文文本中字符的詞性特征經由神經網絡模型自動提取文本中的目標實體。
背景技術
文本中經常含有多個類型的多個實體,本發明中提及的目標實體專指文本中用戶所關注的某特定實體,例如:“北京動物園位于西城區,園中有大熊貓等500余種動物。”在這句話中,包含“北京動物園”、“西城區”、“大熊貓”三個不同類型實體,而“北京動物園”為整個點評的主要實體,因此將“北京動物園”認定為此文本中的目標實體。
在信息爆炸的今天,互聯網中每分鐘都會產生海量的文本數據;隨著移動終端在中國的普及,網絡社交呈現出碎片化的趨勢。用戶在使用互聯網的過程中,會不斷產生大量的碎片信息,如:微博、影評、食評、購物評價、游記等。通過對這些文本進行分析,服務商就能更加了解用戶,從而提供更好的用戶體驗。
要對海量的文本進行分析,首要任務就是根據需求對每個文本的特定目標實體進行識別。傳統的目標實體識別方法有以下兩種,一種是基于特定規則匹配的方法,另一種是基于統計機器學習的方法。
基于特定規則匹配的方法以規則模板和字符串匹配為主要手段,雖然準確率高,但往往依賴于具體語言和文本風格,僅適用于規律顯著的文本內容,規則制定過程耗時大,規則模板的可移植性差。而互聯網信息所含的文本種類豐富、語言碎片化,并且目標實體的類型不固定,這些特點也使得特定規則很難在互聯網中文文本中準確識別出需要的目標實體。
基于統計機器學習的方法主要包括:隱馬爾可夫模型(Hidden Markov Mode,HMM)、最大熵模型(Maxmium Entropy,ME)、支持向量機(Support Vector Machine,SVM)、條件隨機場(Conditional Random Fields,CRF)等。基于統計的方法對特征選取的要求較高,需要從文本中選擇能有效反映目標實體特性的特征,而這些特征的選取非常依賴人工經驗。
發明內容
本發明的目的在于提供一種基于中文字符詞性特征的目標實體識別方法及裝置,能根據需求在中文文本中準確有效地對所需特定目標實體進行識別與提取。
本發明采用的技術方案如下:
一種基于中文字符詞性特征的目標實體識別方法,包括以下步驟:
1)在訓練文本中標記目標實體,并對訓練文本進行分詞及詞性標注;
2)將訓練文本拆分為字符,各個字符構成字符序列,每個字符保留拆分之前的詞性;
3)標注每個字符在分詞中的位置,將字符的詞性與字符在分詞中的位置進行拼接作為字符詞性,各個字符的字符詞性構成字符詞性序列;
4)將步驟1)對目標實體的標記映射至目標實體中的各個字符上,得到字符標注序列;
5)將字符序列與字符詞性序列作為特征,將字符標注序列作為訓練目標值,輸入機器學習模型中進行訓練;
6)將待識別文本的字符序列與字符詞性序列輸入訓練好的機器學習模型,得到待識別文本的字符標注序列,通過將字符標注序列拼接并還原得到目標實體識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810431801.1/2.html,轉載請聲明來源鉆瓜專利網。





