日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于語義的社交媒體非規范詞糾正方法在審

專利信息
申請號: 201710829908.7 申請日: 2017-09-15
公開(公告)號: CN107577668A 公開(公告)日: 2018-01-12
發明(設計)人: 費高雷;鄭夏;李元磊;胡光岷 申請(專利權)人: 電子科技大學
主分類號: G06F17/27 分類號: G06F17/27
代理公司: 成都宏順專利代理事務所(普通合伙)51227 代理人: 周永宏
地址: 611731 四川省成*** 國省代碼: 四川;51
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 語義 社交 媒體 規范 糾正 方法
【說明書】:

技術領域

發明屬于數據挖掘領域,特別涉及一種非規范詞檢測及識別技術。

背景技術

隨著Web2.0的興起,互聯網模式由專業人員織網轉變為所有用戶參與織網,在形式更為民主化的同時,也意味著將有大量來自用戶的低成本低質量的信息產生。社交媒體是用戶發布和傳播信息的重要平臺,允許用戶不限地點、不限時間分享自己的生活和想法。Twitter是一家面向全球范圍的社交網站,它的特點在于用戶發表推文時有字符數量限制。這就導致了用戶可能使用更便捷簡短的縮寫或網絡詞匯來表達觀點,將產生大量的非規范詞匯,影響相關研究者對推文的后續分析。所以,對非規范詞匯進行糾正是非常必要的。

張仰森教授提出英文文本中主要出現非詞錯誤和真詞錯誤兩種詞匯錯誤情況,非詞錯誤指在字典中無法找到的書寫不規范詞匯,而真詞錯誤指可在字典中找到但不符語境的語法錯誤類詞匯。本發明僅針對非詞錯誤情況。出現非詞錯誤的非規范詞一般指拼寫錯誤詞匯、延長詞以及無意義詞匯。

首先對于非規范詞的檢測和識別方面,目前并沒有很多有效方法。最常用的就是查字典法,也就是通過遍歷字典庫查找與待識別詞相匹配的單詞,如果有則判定為規范詞,反之則判定為非規范詞。也有學者利用查找N-gram表的方法進行非規范詞識別,即遍歷已有的N-gram表并統計其出現次數,當詞頻低于某閾值則判定為非規范詞。

對于非規范詞糾正方面,已有一些較為有效的方法和研究,且已應用于部分搜索引擎、輸入法等商業產品中。最常用的有最小編輯距離法、詞干法、統計法、總結規則法以及構建字典法等。

要將自然語言交給機器學習中的算法來處理,首先就要將語言數學化,一個最常用的方法就是把每個詞表示為一個詞向量。詞向量是一個很好的表現單詞語義的方式。其中One-hot Representation最直觀,這種方法把每個詞表示為一個很長的向量,只有一個維度的值為1,代表了當前的詞,其余均為0。此方法雖簡單但會帶來維度災難,后來學者提出了Distributed Representation的方法,表示的一種低維實數向量。當前常用獲取詞向量的模型有:①Word2Vector模型②GloVe模型③LSA矩陣分解模型④PLSA潛在語義分析概率模型。

以Twitter為例的社交媒體不斷產生大量無意義的噪聲信息以及重復冗余的信息,比如用戶的閑聊及轉發。為方便研究者對社交媒體數據的分析,文本信息去噪以及規范化是很有必要的。隨著自然語言處理技術的發展以及單詞規范化和單詞語義表征的深度研究,近些年出現了很多針對于普通文本的規范化系統,然而這些傳統方法大多受限于單詞的詞形,使得其在Twitter中的應用效果大大降低。

發明內容

為解決上述技術問題,本申請提出一種基于語義的社交媒體非規范詞糾正方法,在常規的拼寫糾錯技術上,加入了非規范詞匯的語義信息作為另一考慮因素,優化了最短編輯距離法難以處理詞形差異較大的非規范詞的問題。

本發明采用的技術方案為:基于語義的社交媒體非規范詞糾正方法,包括:

S1、語義信息構建,采用GloVe模型獲取每個單詞的詞向量,計算任意兩個詞向量之間的距離;

S2、非規范詞識別,通過對推文進行預處理得到完整單詞列表;將列表中的每個單詞與字典集合中的單詞進行比對;若成功匹配則列表中的該單詞為規范詞;否則為非規范詞;

S3、對于步驟S2判斷得到的非規范詞,找出與其詞向量距離較小的N各詞向量對應的單詞;找出這些單詞中的規范單詞,選擇其中與非規范詞向量最小的規范單詞對其進行替換。

進一步地,所述計算任意兩個詞向量之間的距離的方法為:歐幾里得距離或明可夫斯基距離或切比雪夫距離或曼哈頓距離或馬哈拉諾比斯距離或余弦夾角。

進一步地,步驟S2所述預處理具體為:

A1、過濾推文噪聲;所述推文噪聲包括:無效字符以及亂碼;

A2、提取包含話題的單詞以及包含用戶名的單詞,得到話題話題詞和用戶名;

A3、去除重復詞;

A4、采用所有非字母符號對英文單詞進行分詞處理。

更進一步地,步驟S2所述的字典集合至少包括:各常用英文字典、通過預處理得到的話題詞以及用戶名。

進一步地,步驟S3還包括:

B1、采用單詞間最小編輯距離d表示詞形相似;

B2、通過設置詞義參數α來表示詞向量的質量,用該α乘以詞向量間的距離l表示詞義相似性;

B3、根據下式計算與非規范詞關系緊密度最高的規范詞;并根據該規范詞來對費規范詞進行糾正;

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201710829908.7/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 日韩欧美一区二区久久婷婷| 午夜av免费观看| 中文字幕日本一区二区| 99精品国产一区二区三区麻豆 | 91国内精品白嫩初高生| 久久久99精品国产一区二区三区| 在线国产精品一区二区| 国产精品伦一区二区三区级视频频 | 欧美精品国产一区二区| 国产www亚洲а∨天堂| 国产午夜一级片| 久久精品入口九色| 91精品一区二区在线观看| 久久影院一区二区| 亚洲高清国产精品| 久久久久国产精品www| 精品一区二区三区自拍图片区| 亚洲影院久久| 中文字幕日韩有码| 国产一区二区视频免费在线观看| 久久精品麻豆| 国产精品久久国产精品99| 天干天干天啪啪夜爽爽99| 夜夜躁日日躁狠狠久久av| 国产九九影院| 午夜无遮挡| 久久久久久久久亚洲精品| 51区亚洲精品一区二区三区| 午夜大片网| 国产视频二区| 欧美一级不卡| 国产午夜精品一区| 午夜看片在线| 国产亚洲精品久久777777| 欧美在线观看视频一区二区三区| 国产毛片精品一区二区| 少妇特黄v一区二区三区图片| 亚洲精品国产精品国产| 国产精品19乱码一区二区三区| 99久久国产综合精品麻豆| 国产suv精品一区二区4| 亚洲国产偷| 欧美精品一区久久| 国产精品69av| www.成| 日韩精品免费播放| 日韩av在线中文| 亚洲精品国产久| 国产999精品久久久久久绿帽| 国产精品久久人人做人人爽| 日本道欧美一区二区aaaa| 91久久综合亚洲鲁鲁五月天| 国产亚洲精品久久网站| 狠狠色狠狠综合久久| 中文在线√天堂| 欧美一级不卡| 扒丝袜网www午夜一区二区三区| 鲁一鲁一鲁一鲁一鲁一av| 久久综合伊人77777麻豆| 97欧美精品| 久爱精品视频在线播放| 国产一区=区| 中文字幕在线一区二区三区| 国产99视频精品免视看芒果| 精品国产一区二区三| 国产精品综合一区二区三区| 国产精品69av| 国产一二区在线| 亚洲国产精品日韩av不卡在线| 右手影院av| 国产天堂一区二区三区| 欧美日韩亚洲另类| 99日韩精品视频| 日韩av中文字幕一区二区| 国产精品亚洲第一区| 夜夜躁人人爽天天天天大学生| 国产主播啪啪| 国产精品一区二区6| 国产亚洲另类久久久精品| 午夜剧场伦理| 国产伦精品一区二区三区免费下载| 国产精品伦一区二区三区视频| 一区二区91| 美女啪啪网站又黄又免费| 中文字幕欧美另类精品亚洲| 午夜剧场a级片| 91黄色免费看| 狠狠色噜噜狠狠狠狠777| 国产高清一区二区在线观看| 日本一区中文字幕| 国产欧美一区二区三区免费 | 午夜电影网一区| 三级视频一区| 99国产精品| 国产婷婷色一区二区三区在线| 欧美乱大交xxxxx古装| 日本一区午夜艳熟免费| 日本一码二码三码视频| 亚洲精品一区,精品二区| av不卡一区二区三区| 欧美一级特黄乱妇高清视频| 国产麻豆91欧美一区二区| 亚洲欧美一卡| 97精品国产97久久久久久| 国内精品久久久久影院日本| 麻豆精品国产入口| 国产高清无套内谢免费| 日本一区二区在线观看视频| 狠狠综合久久av一区二区老牛| 肉丝肉足丝袜一区二区三区| 中文文精品字幕一区二区| 国产91综合一区在线观看| 日韩av在线网址| 免费的午夜毛片| 高清人人天天夜夜曰狠狠狠狠| 国产欧美日韩精品一区二区三区| 亚洲v欧美v另类v综合v日韩v| 99热久久这里只精品国产www| 亚洲精品日韩色噜噜久久五月| 国产精品乱码一区二区三区四川人| 国产玖玖爱精品视频| 日本一二三区电影| 99re热精品视频国产免费| 国产精品亚洲一区| 亚洲福利视频一区| 国产真裸无庶纶乱视频| 国产亚洲精品久久午夜玫瑰园 | 日韩精品中文字幕久久臀| 香港三日本三级三级三级| 国产1区在线观看| 99久久免费毛片基地| 欧美日韩国产一区二区三区在线观看| 挺进警察美妇后菊| 亚洲欧美制服丝腿| 国产午夜精品av一区二区麻豆| 久久99精品久久久野外直播内容| 久爱精品视频在线播放| 久久精品视频3| 香蕉免费一区二区三区在线观看| 亚洲精华国产欧美| 国产一区二| 日本一级中文字幕久久久久久| 久久综合国产精品| 一区二区在线精品| 乱子伦农村| 国产精品96久久久| 国产精品乱码一区二区三区四川人 | 亚洲区在线| 国产一二三区免费| 国产激情视频一区二区| **毛片在线| 日本精品视频一区二区三区 | av中文字幕一区二区| 午夜生活理论片| 97人人澡人人爽91综合色| 欧美三级午夜理伦三级老人| 91精品婷婷国产综合久久竹菊| 国产精品久久国产精品99| 99久久婷婷国产综合精品草原| 国产精品女同一区二区免费站| 国产一区网址| 日韩午夜毛片| 香蕉av一区二区| 亚洲精品国产精品国自| 国产一二三区免费| 亚洲精品久久久久999中文字幕| 99精品区| 久久久一二区| 亚洲精品少妇一区二区| 国产午夜伦理片| 亚洲精品色婷婷| 精品国产一区二区三区忘忧草| 亚洲免费精品一区二区| 日韩一区二区中文字幕| 99三级视频| 北条麻妃久久99精品| 亚洲国产精品国自产拍久久| 国产精品一区二区在线看| 国产午夜亚洲精品羞羞网站 | 国产精品日韩一区二区三区| 久久艹亚洲| 少妇自拍一区| 国产一区正在播放| 5g影院天天爽入口入口| 狠狠躁狠狠躁视频专区| 久久福利免费视频| 国产精品久久久久久亚洲美女高潮| 亚洲日韩aⅴ在线视频| 搡少妇在线视频中文字幕| 欧美二区在线视频| 日韩av在线导航| 午夜激情综合网| 热久久国产| 国产精品19乱码一区二区三区| 亚洲欧美一二三| 午夜免费av电影| free×性护士vidos欧美| 99精品黄色| 中文字幕日韩一区二区| 欧美精品免费看| 久久国产视屏| 91精品视频在线免费观看| 亚洲国产精品国自产拍av| 国产aⅴ精品久久久久久| 亚洲国产精品激情综合图片| 国产精品69av| 99精品欧美一区二区三区美图| 国产一区二区三区大片| 亚洲欧美一区二区三区1000| 久久影视一区二区| 91精品福利在线| 99久久久久久国产精品| 国产免费第一区| 日韩免费一级视频| 91久久香蕉国产日韩欧美9色| 国产香蕉97碰碰久久人人| 国产一区二区高潮| 理论片高清免费理伦片| 亚洲乱码av一区二区三区中文在线:| 日本一二三四区视频| xxxx国产一二三区xxxx| 91麻豆文化传媒在线观看| 996久久国产精品线观看| 首页亚洲欧美制服丝腿| 国产午夜精品一区理论片飘花| 国产一区二| 国产高清在线观看一区| 午夜av资源| 欧美日韩国产一二| 日韩av一区不卡| 99久久国产综合精品色伊| 色噜噜日韩精品欧美一区二区| 一区二区三区欧美视频| 国内自拍偷拍一区| 国产三级精品在线观看| 欧美日韩国产午夜| 999久久久国产精品| 5g影院天天爽入口入口| 男女午夜爽爽| 国内精品久久久久久久星辰影视| 国产精品自产拍在线观看蜜| 欧美精品中文字幕亚洲专区| 黄色av中文字幕| 中文字幕制服狠久久日韩二区 | 国产69精品久久久久999小说| 午夜激情在线播放|