日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于字模型的評論文本實體識別方法及裝置有效

專利信息
申請號: 201611129133.4 申請日: 2016-12-09
公開(公告)號: CN106776555B 公開(公告)日: 2019-11-15
發明(設計)人: 李全剛;柳廳文;王玉斌;李柢穎;時金橋;亞靜;郭莉 申請(專利權)人: 中國科學院信息工程研究所
主分類號: G06F17/27 分類號: G06F17/27
代理公司: 11200 北京君尚知識產權代理有限公司 代理人: 邱曉鋒<國際申請>=<國際公布>=<進入
地址: 100093*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 字模 評論 文本 實體 識別 方法 裝置
【權利要求書】:

1.一種基于字模型的評論文本實體識別方法,其步驟包括:

1)使用標注好的訓練數據訓練基于字的雙向LSTM模型;訓練基于字的雙向LSTM模型時,按字對訓練文本進行切分,截取定長的上下文一起構成字序列,同時采用采樣窗口機制,保證訓練集中正負采樣數量的均衡;訓練基于字的雙向LSTM模型模型的步驟包括:

i)對標注好的訓練文本按照字進行切分,然后以每個字為中心截取定長的上下文作為訓練樣本,上下文長度不足的補0處理;

ii)如果一個字序列的中心字屬于目標核心實體,則該樣本為正樣本,否則為負樣本;

iii)按上述操作后,一條長度為N的評價性文本被處理成N個定長字序列,然后以核心實體首字和尾字為起點按定長采樣窗口分別向前、向后選取字序列,連同核心實體對應的字序列一起作為該評價性文本的訓練樣本;

iv)訓練樣本集按字切分后生成字典并依據字頻對字進行編號,根據字編號將訓練樣本轉為數字序列;

v)處理完所有帶標注的文本,生成訓練樣本集,訓練雙向LSTM模型;

2)使用訓練好的基于字的雙向LSTM模型對輸入的評價性文本進行核心實體識別;

3)對基于字的雙向LSTM模型輸出的非空結果進行字補齊,將補齊后的結果作為最終識別出的核心實體并輸出;

4)對基于字的雙向LSTM模型輸出的結果為空的評價性文本,通過文本分詞、詞性標注和實體詞典生成一個候選實體作為核心實體。

2.如權利要求1所述的方法,其特征在于,步驟v)將訓練樣本集分為訓練和驗證兩部分,通過設置激活函數、損失函數對LSTM模型進行訓練。

3.如權利要求1所述的方法,其特征在于,步驟2)使用基于字的雙向LSTM模型模型識別核心實體的步驟包括:對輸入的評價性文本同樣進行字切分,以每個字為中心截取定長的上下文作為訓練樣本,上下文長度不足的補0處理,一條長度為N的評價性文本被處理成N個定長字序列,并依據所述字典和編號轉化為數字序列,將此N個序列輸入到訓練好的雙向LSTM模型中進行標注。

4.如權利要求1所述的方法,其特征在于,步驟3)進行所述字補齊時,首先對測試文本進行分詞,然后依據分詞結果找到能夠覆蓋模型輸出結果的最小分詞序列,最后依據詞性迭代刪除最小覆蓋序列的首尾詞。

5.如權利要求1所述的方法,其特征在于,步驟4)對于模型輸出結果為空的測試文本,先對文本進行分詞和詞性標注,把分詞后的文本中首個滿足如下條件之一的詞作為候選實體:

i)在實體詞典中,其中實體詞典為用戶自定義的核心實體集;

ii)詞性為名詞且在測試集文本中,該 詞詞頻不超過閾值。

6.一種基于字模型的評論文本實體識別裝置,其特征在于,包括:

模型訓練模塊,負責使用標注好的訓練數據訓練基于字的雙向LSTM模型;訓練基于字的雙向LSTM模型時,按字對訓練文本進行切分,截取定長的上下文一起構成字序列,同時采用采樣窗口機制,保證訓練集中正負采樣數量的均衡;訓練基于字的雙向LSTM模型模型的步驟包括:

i)對標注好的訓練文本按照字進行切分,然后以每個字為中心截取定長的上下文作為訓練樣本,上下文長度不足的補0處理;

ii)如果一個字序列的中心字屬于目標核心實體,則該樣本為正樣本,否則為負樣本;

iii)按上述操作后,一條長度為N的評價性文本被處理成N個定長字序列,然后以核心實體首字和尾字為起點按定長采樣窗口分別向前、向后選取字序列,連同核心實體對應的字序列一起作為該評價性文本的訓練樣本;

iv)訓練樣本集按字切分后生成字典并依據字頻對字進行編號,根據字編號將訓練樣本轉為數字序列;

v)處理完所有帶標注的文本,生成訓練樣本集,訓練雙向LSTM模型;

實體識別模塊,負責使用訓練好的基于字的雙向LSTM模型對輸入的評價性文本進行核心實體識別;

字補齊模塊,負責對基于字的雙向LSTM模型輸出的非空結果進行字補齊,將補齊后的結果作為最終識別出的核心實體并輸出;

候選實體生成模塊,負責對基于字的雙向LSTM模型輸出的結果為空的評價性文本,通過文本分詞、詞性標注和實體詞典生成一個候選實體作為核心實體。

7.如權利要求6所述的裝置,其特征在于,所述字補齊模塊進行所述字補齊時,首先對測試文本進行分詞,然后依據分詞結果找到能夠覆蓋模型輸出結果的最小分詞序列,最后依據詞性迭代刪除最小覆蓋序列的首尾詞。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611129133.4/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产1区2区3区中文字幕| 欧美日韩国产三区| 99精品久久久久久久婷婷| 欧美性二区| 色婷婷综合久久久久中文| 久久国产精品久久| 小萝莉av| 久久久久久中文字幕| 亚洲国产精品肉丝袜久久| 日本一区二区三区在线看| 国产91九色在线播放| 在线国产一区二区| 日韩av三区| 99精品国产99久久久久久97| 久久国产精品网站| 国产精品区一区二区三| 午夜伦理在线观看| 精品国产乱码一区二区三区a| 日韩欧美一区二区在线视频| 99精品一区二区| 国产精品精品国内自产拍下载| 亚洲精品国产一区二| 2018亚洲巨乳在线观看| 国产乱xxxxx97国语对白| 国产在线一区观看| 欧美一级久久精品| 狠狠色狠狠色综合婷婷tag| 国产精品9区| 久久亚洲精品国产一区最新章节| 亚洲自偷精品视频自拍| 欧美日韩国产一区在线| 欧美日韩一区二区三区四区五区| 国产精品亚洲第一区| 国产精品一区二区av麻豆| www.午夜av| 日韩一级片免费观看| 99精品黄色| 精品国产伦一区二区三区| 久久精品一| 国产精品九九九九九九| 亚洲久色影视| 精品国产伦一区二区三区| 国产综合久久精品| 国产一区二区三区在线电影| 91亚洲欧美强伦三区麻豆 | 国产精品久久久久久久久久不蜜臀| 中文在线一区二区三区| 亚洲精品日本久久一区二区三区| 伊人欧美一区| 国产一区二三| 国产一区二区在线91| 欧美资源一区| 亚洲精品丝袜| 欧美日本一二三区| 精品一区二区三区影院| 97国产精品久久久| 欧美日韩国产123| 国产白丝一区二区三区| 夜夜嗨av一区二区三区中文字幕| 亚洲乱亚洲乱妇50p| 日韩精品一区二区中文字幕| 性生交大片免费看潘金莲| 欧美一区二区三区爽大粗免费| 国产亚洲精品久久777777| 性欧美一区二区| 国产精品日韩在线观看| 亚洲国产精品激情综合图片| 久久精品99国产精品亚洲最刺激| 91精品国产九九九久久久亚洲| 国产精品久久久久久久久久久久久久不卡 | 国产特级淫片免费看| 国产一区二区三区国产| 国产videosfree性另类| 国内精品国产三级国产99| 国产一二区在线| 香港三日本8a三级少妇三级99| 国产偷窥片| 国产精品18久久久久白浆| 欧美色图视频一区| 精品国产亚洲一区二区三区| 黑人巨大精品欧美黑寡妇| 国产欧美综合一区|