[發明專利]一種基于字模型的評論文本實體識別方法及裝置有效
| 申請號: | 201611129133.4 | 申請日: | 2016-12-09 |
| 公開(公告)號: | CN106776555B | 公開(公告)日: | 2019-11-15 |
| 發明(設計)人: | 李全剛;柳廳文;王玉斌;李柢穎;時金橋;亞靜;郭莉 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 11200 北京君尚知識產權代理有限公司 | 代理人: | 邱曉鋒<國際申請>=<國際公布>=<進入 |
| 地址: | 100093*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 字模 評論 文本 實體 識別 方法 裝置 | ||
1.一種基于字模型的評論文本實體識別方法,其步驟包括:
1)使用標注好的訓練數據訓練基于字的雙向LSTM模型;訓練基于字的雙向LSTM模型時,按字對訓練文本進行切分,截取定長的上下文一起構成字序列,同時采用采樣窗口機制,保證訓練集中正負采樣數量的均衡;訓練基于字的雙向LSTM模型模型的步驟包括:
i)對標注好的訓練文本按照字進行切分,然后以每個字為中心截取定長的上下文作為訓練樣本,上下文長度不足的補0處理;
ii)如果一個字序列的中心字屬于目標核心實體,則該樣本為正樣本,否則為負樣本;
iii)按上述操作后,一條長度為N的評價性文本被處理成N個定長字序列,然后以核心實體首字和尾字為起點按定長采樣窗口分別向前、向后選取字序列,連同核心實體對應的字序列一起作為該評價性文本的訓練樣本;
iv)訓練樣本集按字切分后生成字典并依據字頻對字進行編號,根據字編號將訓練樣本轉為數字序列;
v)處理完所有帶標注的文本,生成訓練樣本集,訓練雙向LSTM模型;
2)使用訓練好的基于字的雙向LSTM模型對輸入的評價性文本進行核心實體識別;
3)對基于字的雙向LSTM模型輸出的非空結果進行字補齊,將補齊后的結果作為最終識別出的核心實體并輸出;
4)對基于字的雙向LSTM模型輸出的結果為空的評價性文本,通過文本分詞、詞性標注和實體詞典生成一個候選實體作為核心實體。
2.如權利要求1所述的方法,其特征在于,步驟v)將訓練樣本集分為訓練和驗證兩部分,通過設置激活函數、損失函數對LSTM模型進行訓練。
3.如權利要求1所述的方法,其特征在于,步驟2)使用基于字的雙向LSTM模型模型識別核心實體的步驟包括:對輸入的評價性文本同樣進行字切分,以每個字為中心截取定長的上下文作為訓練樣本,上下文長度不足的補0處理,一條長度為N的評價性文本被處理成N個定長字序列,并依據所述字典和編號轉化為數字序列,將此N個序列輸入到訓練好的雙向LSTM模型中進行標注。
4.如權利要求1所述的方法,其特征在于,步驟3)進行所述字補齊時,首先對測試文本進行分詞,然后依據分詞結果找到能夠覆蓋模型輸出結果的最小分詞序列,最后依據詞性迭代刪除最小覆蓋序列的首尾詞。
5.如權利要求1所述的方法,其特征在于,步驟4)對于模型輸出結果為空的測試文本,先對文本進行分詞和詞性標注,把分詞后的文本中首個滿足如下條件之一的詞作為候選實體:
i)在實體詞典中,其中實體詞典為用戶自定義的核心實體集;
ii)詞性為名詞且在測試集文本中,該 詞詞頻不超過閾值。
6.一種基于字模型的評論文本實體識別裝置,其特征在于,包括:
模型訓練模塊,負責使用標注好的訓練數據訓練基于字的雙向LSTM模型;訓練基于字的雙向LSTM模型時,按字對訓練文本進行切分,截取定長的上下文一起構成字序列,同時采用采樣窗口機制,保證訓練集中正負采樣數量的均衡;訓練基于字的雙向LSTM模型模型的步驟包括:
i)對標注好的訓練文本按照字進行切分,然后以每個字為中心截取定長的上下文作為訓練樣本,上下文長度不足的補0處理;
ii)如果一個字序列的中心字屬于目標核心實體,則該樣本為正樣本,否則為負樣本;
iii)按上述操作后,一條長度為N的評價性文本被處理成N個定長字序列,然后以核心實體首字和尾字為起點按定長采樣窗口分別向前、向后選取字序列,連同核心實體對應的字序列一起作為該評價性文本的訓練樣本;
iv)訓練樣本集按字切分后生成字典并依據字頻對字進行編號,根據字編號將訓練樣本轉為數字序列;
v)處理完所有帶標注的文本,生成訓練樣本集,訓練雙向LSTM模型;
實體識別模塊,負責使用訓練好的基于字的雙向LSTM模型對輸入的評價性文本進行核心實體識別;
字補齊模塊,負責對基于字的雙向LSTM模型輸出的非空結果進行字補齊,將補齊后的結果作為最終識別出的核心實體并輸出;
候選實體生成模塊,負責對基于字的雙向LSTM模型輸出的結果為空的評價性文本,通過文本分詞、詞性標注和實體詞典生成一個候選實體作為核心實體。
7.如權利要求6所述的裝置,其特征在于,所述字補齊模塊進行所述字補齊時,首先對測試文本進行分詞,然后依據分詞結果找到能夠覆蓋模型輸出結果的最小分詞序列,最后依據詞性迭代刪除最小覆蓋序列的首尾詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611129133.4/1.html,轉載請聲明來源鉆瓜專利網。





