日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]海量文本中基于詞向量表征的新詞發現方法及系統在審

專利信息
申請號: 201710344343.3 申請日: 2017-05-16
公開(公告)號: CN107168953A 公開(公告)日: 2017-09-15
發明(設計)人: 袁華;錢宇 申請(專利權)人: 電子科技大學
主分類號: G06F17/27 分類號: G06F17/27;G06N3/02
代理公司: 四川省成都市天策商標專利事務所51213 代理人: 卞濤
地址: 610000 四川省成*** 國省代碼: 四川;51
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 海量 文本 基于 向量 表征 新詞 發現 方法 系統
【說明書】:

技術領域

發明屬于中文自然語言處理領域,特別涉及一種海量文本中基于詞向量表征的新詞發現方法及系統。

背景技術

新詞發現是中文自然語言處理研究領域一個非常重要的研究內容。由于中文不像英文等許多西方語言,詞和詞之間有固定的分隔符,所以分詞通常作為中文信息處理任務最開始的一個必要步驟,而新詞發現又與分詞緊密相關。Sproat和Emerson指出新詞的出現很大程度上影響著分詞工具的分詞準確性,60%的分詞錯誤是由新詞引起的。在新詞任務中,對于“新詞”并沒有一個明確界定的概念。在中文分詞領域,有新詞和未登錄詞兩種概念,未登錄詞是指不在當前分詞工具的詞典出現的詞,新詞則是指隨時代發展出現的詞,新詞也屬于未登錄詞,一般沒有對新詞和未登錄詞加以區別,本發明對此也不做區分。

目前新詞識別方法主要分為有監督的方法和無監督的方法。有監督的方法主要是基于統計學習,這種方法需要大量的標注數據以及大量的特征選取工作,而獲得大量的標注數據往往成本較高,特征選取需要豐富的經驗;無監督的方法主要是基于規則或計算一些統計指標來進行新詞發現,基于規則的方法需要制定大量的語言規則,可移植性差,而單純的某個統計指標往往效果較差,且一些統計指標計算復雜。

隨著近幾年利用神經網絡或深度學習訓練語言模型而得到的詞向量能夠很好的表征詞與詞之間的語義關系,而一個新詞如果被分詞軟件錯誤的分開,被分開的不同部分應該語義上很相似,例如‘張勇’是一個人名,但分詞軟件錯誤的分成了“張/勇/”。經過合適的神經網絡模型訓練,可以發現‘張’和‘勇’對應的詞向量很相似。

發明內容

本發明的目的是提供一種海量文本中基于詞向量表征的新詞發現方法及系統,以至少解決以上技術問題之一。

本發明是通過以下技術方案實現的。

本發明首先涉及一種海量文本中基于詞向量表征的新詞發現方法,包括:

對新詞發現任務的語料進行預處理,所述預處理至少包括短句切分和分詞;

對預處理后的語料進行n-gram詞串挖掘,以得到該語料中的n-gram候選詞串;

設置詞向量,并根據n-gram候選詞串中的詞與詞之間對應的詞向量的相似性進行剪枝,得到新詞。

作為一種優選的實施方式,所述對預處理后的語料進行n-gram詞串挖掘以得到該語料中的n-gram候選詞串的方法包括:

從預處理后的語料中查找所有出現頻率大于預設頻率閾值的二元詞串,并記錄各個二元詞串的位置索引;

二元詞串從其位置索引開始進行左右擴張直到達到停止條件,得到n-gram候選詞串。

作為另一種優選的實施方式,所述詞向量為基于外部語料訓練得到,所述基于外部語料訓練詞向量的方法包括:

對外部語料進行分詞處理;

采用神經網絡訓練語言模型對分詞處理后的外部語料進行訓練,得到詞向量。

作為另一種優選的實施方式,所述根據n-gram候選詞串中的詞與詞之間對應的詞向量的距離進行剪枝的方法包括:判斷n-gram候選詞串中的詞與詞之間對應的詞向量的相似性是否大于預設的相似性閾值,如果滿足該條件則將這兩個詞作為一個新詞進行保存。

本發明還涉及一種海量文本中基于詞向量表征的新詞發現系統,包括:

預處理模塊,其被配置成對新詞發現任務的語料進行預處理,所述預處理至少包括短句切分和分詞;

n-gram詞串挖掘模塊,其被配置成對預處理后的語料進行n-gram詞串挖掘,以得到該語料中的n-gram候選詞串;

詞向量設置模塊,其被配置成設置詞向量;

剪枝模塊,其被配置成根據n-gram候選詞串中的詞與詞之間對應的詞向量的相似性進行剪枝,得到新詞。

作為一種優選的實施方式,所述n-gram詞串挖掘模塊具體被配置成:

從預處理后的語料中查找所有出現頻率大于預設頻率閾值的二元詞串,并記錄各個二元詞串的位置索引;

二元詞串從其位置索引開始進行左右擴張直到達到停止條件,得到n-gram候選詞串。

作為另一種優選的實施方式,所述詞向量設置模塊具體被配置成:對外部語料進行分詞處理;采用神經網絡訓練語言模型對分詞處理后的外部語料進行訓練,得到詞向量。

作為另一種優選的實施方式,所述剪枝模塊具體被配置成:判斷n-gram候選詞串中的詞與詞之間對應的詞向量的相似性是否小于預設的相似性閾值,如果滿足該條件則將這兩個詞作為一個新詞進行保存。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201710344343.3/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国模一区二区三区白浆| 91av精品| 欧美日韩一区电影| 4399午夜理伦免费播放大全| 国产日韩欧美网站| 小萝莉av| 国产69精品福利视频| 日本二区在线观看| 国产999精品视频| 亚洲国产99| 91国产在线看| av不卡一区二区三区| 99久久国产综合精品麻豆| **毛片免费| 国产伦精品一区二区三区照片91| 国产1区2区3区| 午夜看片网站| 老女人伦理hd| 国产精品一区在线播放| 亚洲w码欧洲s码免费| 国产欧美日韩一级大片| 偷拍久久精品视频| 欧美激情片一区二区| bbbbb女女女女女bbbbb国产| 国产超碰人人模人人爽人人添| ass韩国白嫩pics| 午夜社区在线观看| 欧美激情视频一区二区三区免费| 国产一区二区黄| 国内精品99| 国产一区二区黄| 国产色午夜婷婷一区二区三区| 国产在线拍揄自揄拍| 69久久夜色精品国产69–| 国产精品偷伦一区二区| 亚洲一级中文字幕| 亚洲视频h| 性色av色香蕉一区二区三区| 国产精品1234区| 午夜精品影视| 99国产精品免费观看视频re| 97人人模人人爽人人喊0| 免费看欧美中韩毛片影院| 在线国产二区| 91超薄丝袜肉丝一区二区| 久久精品视频偷拍| 欧美亚洲视频二区| 99久久国产综合精品女不卡| 亚洲精品日本久久一区二区三区| 一区二区三区欧美精品| 91精品啪在线观看国产线免费| 精品欧美一区二区精品久久小说| 亚洲欧美日韩在线看| 久久久久久久久久国产精品| 欧美精品一区二区三区在线四季| 国产精品久久久久久一区二区三区 | 国产精品一区二区免费| 一本大道久久a久久精品| 日本一二区视频| 狠狠色噜噜狠狠狠狠777| 99久久精品国产国产毛片小说| 欧美一区视频观看| www亚洲精品| 好吊色欧美一区二区三区视频| 亚洲欧美日韩在线| 欧美日韩一级在线观看| 国产一区二区免费电影| 少妇又紧又色又爽又刺激的视频| 一区二区三区欧美视频| 亚洲精品国产综合| 精品国产一二区| 国产97在线播放| 欧美激情午夜| 国产jizz18女人高潮| 少妇高潮大叫喷水| 国产一区观看| 中文字幕在线播放一区| 久久久久久久国产| 日韩av在线播放网址| 国产91视频一区二区| 欧美一区二区三区免费电影| 欧美日韩中文字幕三区| 狠狠色综合久久婷婷色天使| 国产一区在线精品| 国产精品欧美日韩在线| 亚洲欧美自拍一区| 91亚洲欧美日韩精品久久奇米色 | 日韩精品中文字幕在线| 91人人爽人人爽人人精88v| 日本三级香港三级网站| 欧洲亚洲国产一区二区三区| 欧美一区二区三区免费视频| 国产精品久久国产三级国电话系列 | 久久一区欧美| 国产精品一级片在线观看| 午夜看片网站| 91福利视频免费观看| 久久九精品| 日本一区二区三区免费视频| 亚洲精品乱码久久久久久写真| sb少妇高潮二区久久久久| 日本99精品| 亚洲va久久久噜噜噜久久0| 久久一区二区三区欧美| 日韩午夜一区| 国产精品一区二| 久久久久国产精品嫩草影院| 国产精品一区二区三区在线看| 国产www亚洲а∨天堂| 国产一区二区91| 国产亚洲久久| 国产一区二区手机在线观看| 亚洲欧美一区二区精品久久久| 久久精品亚洲一区二区三区画质| 国产精品剧情一区二区三区| 97欧美精品| 91精品视频在线观看免费| 日韩精品一区二区久久| 欧美日韩亚洲另类| 欧美一区二区三区四区在线观看| 日本一二三四区视频| 欧美在线一区二区视频| 色综合久久网| 99久久久国产精品免费无卡顿| 91麻豆产精品久久久| 国产乱人伦精品一区二区三区| 国产视频一区二区视频| 91精品一二区| 欧美精品一区二区久久久| 久久99精品久久久大学生| 福利片91| 国产精品一区二区毛茸茸| 日韩av中文字幕一区二区| 91午夜在线| 久久一区二区视频| 国产精品高清一区| 97人人澡人人爽人人模亚洲 | 午夜伦理在线观看| 夜夜嗨av色一区二区不卡| 国产精品9区| 亚洲精品国产一区二区三区| 国产精品国产亚洲精品看不卡15| 久久激情综合网| 精品国产一区二| 国产一级一区二区| 蜜臀久久99精品久久一区二区| 99国产超薄丝袜足j在线观看| 日韩午夜毛片| 欧美人妖一区二区三区| 日韩毛片一区| 国产精品剧情一区二区三区| 中文字幕在线一二三区| 欧美一区二区色| 精品国产免费久久| 国产午夜亚洲精品羞羞网站| 亚洲精品久久久久999中文字幕 | 挺进警察美妇后菊| 精品国产一区二区三区高潮视| 夜夜躁人人爽天天天天大学生| 欧美在线视频一区二区三区| 国产精品1区2区| 91精品综合| 欧美日韩一二三四区| 国产午夜精品一区| 福利视频亚洲一区| 欧美一区二区三区在线免费观看 | 国产一区二区三区午夜| 国产精品欧美一区乱破| 日韩av电影手机在线观看| 国产精品v一区二区三区| 97人人澡人人爽人人模亚洲| 免费高潮又黄又色又爽视频| 国产乱老一区视频| 国产亚洲精品久久久久久久久动漫| 国产精品视频免费一区二区| 国产精品免费自拍| 91精品视频在线免费观看| 国产区图片区一区二区三区| 91精品国产91热久久久做人人| 国产69精品久久久久孕妇不能看| 中文字幕一区二区三区乱码 | 精品国产免费久久| 97视频久久久| 久免费看少妇高潮a级特黄按摩| 久久久精品欧美一区二区| 日本高清一二三区| 黄色国产一区二区| 国产jizz18女人高潮| 对白刺激国产对白精品城中村| 国内精品久久久久影院日本| 亚洲va国产2019| 欧美一区二区伦理片| 欧美精品在线视频观看| 欧美精品九九| 91麻豆精品国产91久久久久推荐资源| 午夜亚洲影院| 国产1区2区3区| 亚洲国产精品网站| 精品视频在线一区二区三区| 91看片app| 欧美日韩亚洲三区| 午夜精品一二三区| 欧美日韩亚洲三区| 国产中文字幕91| 国产理论片午午午伦夜理片2021 | 中文字幕一区二区在线播放| 亚洲在线久久| 欧美一级片一区| 综合国产一区| **毛片免费| 久久第一区| 国产精品日产欧美久久久久| 国产不卡一二三区| 午夜无遮挡| 欧美激情精品久久久久久免费| 国产伦精品一区二区三区照片91 | 99久久国产综合精品尤物酒店| 国产91电影在线观看| 久久精品视频3| 欧美乱妇在线观看| 68精品国产免费久久久久久婷婷 | 丰满岳乱妇在线观看中字| 强行挺进女警紧窄湿润| 国产精品一区在线播放| 午夜电影三级| 久久精品亚洲一区二区三区画质| 一区二区三区精品国产| 99国产精品久久久久老师| 韩国视频一区二区| 日韩一区免费在线观看| 91久久国产露脸精品国产护士| 国产精品久久久久久久龚玥菲| 欧美日韩亚洲三区| 国产精品视频一区二区在线观看| 欧美日韩偷拍一区| 欧美日韩精品中文字幕| 国产91在线拍偷自揄拍| 亚洲国产欧美一区二区丝袜黑人 | 午夜剧场a级片| 不卡在线一区二区| 亲子乱子伦xxxx| 欧美在线观看视频一区二区三区| 97人人揉人人捏人人添| 亚洲乱强伦| 国产一区二区三区午夜| 亚洲免费精品一区二区|