[發明專利]一種基于字模型的評論文本實體識別方法及裝置有效

申請號：	201611129133.4	申請日：	2016-12-09
公開（公告）號：	CN106776555B	公開（公告）日：	2019-11-15
發明（設計）人：	李全剛;柳廳文;王玉斌;李柢穎;時金橋;亞靜;郭莉	申請（專利權）人：	中國科學院信息工程研究所
主分類號：	G06F17/27	分類號：	G06F17/27
代理公司：	11200 北京君尚知識產權代理有限公司	代理人：	邱曉鋒<國際申請>=<國際公布>=<進入
地址：	100093***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于字模評論文本實體識別方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于字模型的評論文本實體識別方法，其步驟包括：

1)使用標注好的訓練數據訓練基于字的雙向LSTM模型；訓練基于字的雙向LSTM模型時，按字對訓練文本進行切分，截取定長的上下文一起構成字序列，同時采用采樣窗口機制，保證訓練集中正負采樣數量的均衡；訓練基于字的雙向LSTM模型模型的步驟包括：

i)對標注好的訓練文本按照字進行切分，然后以每個字為中心截取定長的上下文作為訓練樣本，上下文長度不足的補0處理；

ii)如果一個字序列的中心字屬于目標核心實體，則該樣本為正樣本，否則為負樣本；

iii)按上述操作后，一條長度為N的評價性文本被處理成N個定長字序列，然后以核心實體首字和尾字為起點按定長采樣窗口分別向前、向后選取字序列，連同核心實體對應的字序列一起作為該評價性文本的訓練樣本；

iv)訓練樣本集按字切分后生成字典并依據字頻對字進行編號，根據字編號將訓練樣本轉為數字序列；

v)處理完所有帶標注的文本，生成訓練樣本集，訓練雙向LSTM模型；

2)使用訓練好的基于字的雙向LSTM模型對輸入的評價性文本進行核心實體識別；

3)對基于字的雙向LSTM模型輸出的非空結果進行字補齊，將補齊后的結果作為最終識別出的核心實體并輸出；

4)對基于字的雙向LSTM模型輸出的結果為空的評價性文本，通過文本分詞、詞性標注和實體詞典生成一個候選實體作為核心實體。

2.如權利要求1所述的方法，其特征在于，步驟v)將訓練樣本集分為訓練和驗證兩部分，通過設置激活函數、損失函數對LSTM模型進行訓練。

3.如權利要求1所述的方法，其特征在于，步驟2)使用基于字的雙向LSTM模型模型識別核心實體的步驟包括：對輸入的評價性文本同樣進行字切分，以每個字為中心截取定長的上下文作為訓練樣本，上下文長度不足的補0處理，一條長度為N的評價性文本被處理成N個定長字序列，并依據所述字典和編號轉化為數字序列，將此N個序列輸入到訓練好的雙向LSTM模型中進行標注。

4.如權利要求1所述的方法，其特征在于，步驟3)進行所述字補齊時，首先對測試文本進行分詞，然后依據分詞結果找到能夠覆蓋模型輸出結果的最小分詞序列，最后依據詞性迭代刪除最小覆蓋序列的首尾詞。

5.如權利要求1所述的方法，其特征在于，步驟4)對于模型輸出結果為空的測試文本，先對文本進行分詞和詞性標注，把分詞后的文本中首個滿足如下條件之一的詞作為候選實體：

i)在實體詞典中，其中實體詞典為用戶自定義的核心實體集；

ii)詞性為名詞且在測試集文本中，該詞詞頻不超過閾值。

6.一種基于字模型的評論文本實體識別裝置，其特征在于，包括：

模型訓練模塊，負責使用標注好的訓練數據訓練基于字的雙向LSTM模型；訓練基于字的雙向LSTM模型時，按字對訓練文本進行切分，截取定長的上下文一起構成字序列，同時采用采樣窗口機制，保證訓練集中正負采樣數量的均衡；訓練基于字的雙向LSTM模型模型的步驟包括：

i)對標注好的訓練文本按照字進行切分，然后以每個字為中心截取定長的上下文作為訓練樣本，上下文長度不足的補0處理；

ii)如果一個字序列的中心字屬于目標核心實體，則該樣本為正樣本，否則為負樣本；

iv)訓練樣本集按字切分后生成字典并依據字頻對字進行編號，根據字編號將訓練樣本轉為數字序列；

v)處理完所有帶標注的文本，生成訓練樣本集，訓練雙向LSTM模型；

實體識別模塊，負責使用訓練好的基于字的雙向LSTM模型對輸入的評價性文本進行核心實體識別；

字補齊模塊，負責對基于字的雙向LSTM模型輸出的非空結果進行字補齊，將補齊后的結果作為最終識別出的核心實體并輸出；

候選實體生成模塊，負責對基于字的雙向LSTM模型輸出的結果為空的評價性文本，通過文本分詞、詞性標注和實體詞典生成一個候選實體作為核心實體。

7.如權利要求6所述的裝置，其特征在于，所述字補齊模塊進行所述字補齊時，首先對測試文本進行分詞，然后依據分詞結果找到能夠覆蓋模型輸出結果的最小分詞序列，最后依據詞性迭代刪除最小覆蓋序列的首尾詞。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所，未經中國科學院信息工程研究所許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201611129133.4/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種基于多模態超圖學習的微博情感預測方法
下一篇：一種文本模式生成方法、裝置和計算設備

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

[發明專利]一種基于字模型的評論文本實體識別方法及裝置有效

專利文獻下載