日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于詞向量語義分析的海量短文本聚類方法在審

專利信息
申請號: 201611018402.X 申請日: 2016-11-03
公開(公告)號: CN106776713A 公開(公告)日: 2017-05-31
發明(設計)人: 繆偉宏;潘嶸 申請(專利權)人: 中山大學
主分類號: G06F17/30 分類號: G06F17/30;G06F17/27
代理公司: 廣州粵高專利商標代理有限公司44102 代理人: 林麗明
地址: 510275 廣東*** 國省代碼: 廣東;44
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 向量 語義 分析 海量 文本 方法
【權利要求書】:

1.一種基于詞向量語義分析的海量短文本聚類方法,其特征在于,包括以下步驟:

S1:收集海量文本數據,并對每一文本數據進行預處理;

S2:對預處理后的文本進行word2vec模型訓練得到詞向量模型;

S3:將待處理的文本利用得到的詞向量模型處理得到該待處理的文本的向量;

S4:對待處理的文本的向量利用K-Means聚類算法或Dbscan聚類算法進行聚類處理得到聚類結果。

2.根據權利要求1所述的基于詞向量語義分析的海量短文本聚類方法,其特征在于,所述步驟S1的具體過程是:

對收集的文本數據采用基于知識庫的方法對部分詞語進行消歧,包括常規的高頻詞、停用詞、標點符號、表情符號、簡繁體轉換的去除處理。

3.根據權利要求1所述的基于詞向量語義分析的海量短文本聚類方法,其特征在于,所述步驟S3的具體過程如下:

將待處理的文本利用得到的詞向量模型處理得到若干個單詞的詞向量,對每一個單詞的詞向量進行tfidf值計算,以計算出的tfidf值作為word2vec處理的權重,對每一個單詞的詞向量進行word2vec處理并加權求和得到待處理文本的256維度的向量:

<mrow><mi>d</mi><mi>o</mi><mi>c</mi><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo><mo>=</mo><msub><mi>w</mi><mrow><mi>k</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>*</mo><msubsup><mo>&Sigma;</mo><mrow><mi>k</mi><mo>=</mo><mn>0</mn></mrow><mi>m</mi></msubsup><msub><mi>Toten</mi><mi>k</mi></msub><mo>/</mo><mi>n</mi></mrow>

其中,doc表示文本向量,Token表示文本的每個單詞的詞向量,n為文本中單詞個數,m為文本詞向量的具體維度為256,Wk,j為第i個單詞在文檔j中的tfidf值。

4.根據權利要求3所述的基于詞向量語義分析的海量短文本聚類方法,其特征在于,所述步驟S4的具體過程如下:

1)從n個單詞中數隨機動態選取k個詞向量作為初始聚類中心;

2)分別計算未選中的詞向量與這k個聚類中心的距離,根據最小距離對這些詞向量進行劃分得到新的聚類;

3)計算第2)中得到的聚類的每一個詞向量的均值作為聚類中心;

4)迭代計算標準測度函數,如當迭代次數達到一定閾值,或者標準測度函數收斂K值不再變化時,算法終止,否則跳轉至步驟2)。

5.根據權利要求3所述的基于詞向量語義分析的海量短文本聚類方法,其特征在于,所述將待處理的文本利用得到的詞向量模型處理得到若干個單詞的詞向量的過程是:對預處理后的文本作為word2vec模型的輸入,詞向量維度設為256,上下窗口為5,利用連續空間詞向量技術CBOW方法進行訓練得到文本的單詞的詞向量。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611018402.X/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 精品久久综合1区2区3区激情| 国产日韩欧美自拍| 国产精品一区在线观看你懂的| 26uuu亚洲电影在线观看| 欧美网站一区二区三区| 日本中文字幕一区| 国产一区二区日韩| 日韩区欧美久久久无人区| 日本亚洲国产精品| 国精偷拍一区二区三区| 欧美一区二区三区中文字幕| 久久精品二| 国产人伦精品一区二区三区| 国产精品高清一区| 国产视频在线一区二区| 国产91免费在线| 欧美日韩亚洲另类| 欧美一区二区三区免费观看视频| 国产白丝一区二区三区| 亚洲精品久久久久一区二区| 中文字幕一区一区三区| 激情久久一区| 国产高清一区二区在线观看| 欧美日韩九区| 最新国产精品自拍| xxxx18hd护士hd护士| 国产精品一二二区| 国产午夜精品免费一区二区三区视频 | 日韩午夜三级| 亚洲精品久久久久999中文字幕| 国产精品九九九九九九| 91波多野结衣| 欧美hdfree性xxxx| 午夜毛片在线观看| 91精品久久久久久| 久久久久国产精品嫩草影院| 精品国产一区二区三区国产馆杂枝| 久久一级精品| 激情久久精品| 日韩精品中文字幕一区| 大bbw大bbw巨大bbw看看| 91精品资源| 午夜精品一区二区三区三上悠亚| 欧美三级午夜理伦三级中视频| ass美女的沟沟pics| 免费的午夜毛片| 88国产精品视频一区二区三区| 日韩电影在线一区二区三区| 99精品少妇| 欧美一区二区三区久久久久久桃花| 高清在线一区二区| 96国产精品| 99久精品视频| 色午夜影院| 日本一区二区三区在线视频| 丰满岳妇伦4在线观看| 96国产精品视频| 羞羞视频网站免费| 99精品偷拍视频一区二区三区| 久久99精品国产99久久6男男| 欧美精品久久一区二区| 午夜国产一区| 午夜wwww| 国产真实一区二区三区| 欧美激情国产一区| 国产女人与拘做受免费视频| 99国产精品久久久久99打野战| 日韩国产精品久久| 日韩精品中文字| 四虎国产精品永久在线国在线 | 日韩中文字幕亚洲精品欧美| 欧美日韩国产一区在线| 欧美日韩一级在线观看| 国产精品国产三级国产专播精品人| 亚洲区日韩| 亚洲乱在线| 国产第一区二区| 国产足控福利视频一区| 亚洲国产aⅴ精品一区二区16| 欧美一区二区三区久久精品| 91麻豆精品国产91久久久资源速度 | 国产在线视频99|