日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種搜索引擎中基于類中心壓縮變換的文本聚類方法有效

專利信息
申請號: 201210447277.X 申請日: 2012-11-09
公開(公告)號: CN102955857A 公開(公告)日: 2013-03-06
發明(設計)人: 歐陽元新;謝舒翼;劉文琦;熊璋 申請(專利權)人: 北京航空航天大學
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京科迪生專利代理有限責任公司 11251 代理人: 楊學明;顧煒
地址: 100191*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 搜索引擎 基于 中心 壓縮 變換 文本 方法
【權利要求書】:

1.一種搜索引擎中基于類中心壓縮變換的文本聚類方法,其特征在于:該方法包括以下步驟:

步驟1、對聚類文本集中的每一個文本進行分詞;

步驟2、去除停用詞,過濾影響因子較小的詞;

步驟3、計算每個文本中每個詞出現的次數tf;

步驟4、計算詞語的反文本頻率idf;

步驟5、挖掘同義詞組;

步驟6、挖掘共現高頻詞組,即同時出現在多個不同文本中的詞組對;

步驟7、根據同義詞組和高頻共現詞組,產生原始的類中心,每個類中心由一系列高頻詞匯組成,統計高頻詞匯的tf和idf,標記高頻詞匯所屬的類中心;

步驟8、計算每個文本的內容長度,提取文章的標題,對標題進行分詞;如果沒有標題,則標題title設為空;提取段首詞語與段尾詞匯并加以標記以便后面的加權計算;

步驟9、計算任意兩個文本之間的相似度,標題或內容中有相同或同義的詞語時增加權重,段首詞語與段尾詞匯分別賦予不同的權重,計算公式如下:pureFileSim(i,j)=(contentSimilarity(i,j)+titleSimilarity(i,j))/(log(fileLengthi*fileLengthj));

contentSimilarity(i,j)=Σx,y(log(fileKeywodTf(i,x))+1)*fileKeywodIdf(i,x)*+(log(fileKeywodTf(j,y))+1)*fileKeywodIdf(j,y)*;]]>

titleSimilarity(i,j)=Σx,y(fileTitleWordTf(i,x)*fileTitleWordIdf(i,x))*+(fileTitleWordTf(j,y)*fileTitleWordIdf(j,y))*;]]>

式中:pureFileSim(i,j):文本i與文本j的純相似度;

contentSimilarity(i,j):文本i與文本j的內容相似度;

titleSimilarity(i,j):文本i與文本j的標題相似度;

fileKeywordTf(x,i):文本i中關鍵字x的tf;

fileKeywordIdf(x,i):文本i中關鍵字x的idf;

fileTitleWordTf(j,y):類中心j關鍵詞y的tf;

fileTitleWordIdf(j,y):類中心j關鍵詞y的idf;

fileLengthi:文本i的內容長度;

步驟10、隨機化文本的輸入順序:根據原始聚類中心對聚類文本集進行初始聚類,其算法如下:對每一篇文本,計算它與所有聚類中心的相似度,選擇相似度最大的一個聚類中心id作為這個文本所屬的類;文本i與類中心j的相似度計算公式如下:

fileSim(i,j)=(ΣfileKeyword(i,x)centerj(log(fileKeywordIf(x,i))+1)*fileKeywordIdf(x,i)]]>

+ΣfileTitleWord(i,x)centerj(log(centerKeywordTf(j,y))+1)*(centerKeywordIdf(j,y))/fileContentLengthi;]]>

式中:

fileKeywordTf(x,i):文本i中關鍵字x的tf;

fileKeywordIdf(x,i):文本i中關鍵字x的idf;

centerKeywordTf(j,y):類中心j關鍵詞y的tf;

centerKeywordIdf(j,y):類中心j關鍵詞y的idf;

fileContentLengthi:文本i的內容長度;

同時計算與每個詞匯最接近的類中心,記錄下詞匯的wordid;

計算最相似的類中心比第二相似的類中心多出的百分比,記錄到文本的diffRatio中;

步驟11、剔除diffRatio小于10%的文本,在剩下的文本中對屬于同一個類的文本集進行關鍵詞提取和統計,利用這些詞匯重新生成該類的中心;被選的詞匯要求tf和idf都不小于某個閾值;更新詞匯的中心id,對類中心進行壓縮,讓同一個詞匯只出現在與其相似高的一些類中心里,合并相似度較高的類中心;

步驟12、根據新的聚類中心重新計算每個文本所屬的聚類中心,相似度計算同步驟9;

步驟13、計算每個類的核心相似度,嘗試對最大的類進行分裂以產生新的類,其分裂算法如下:計算該類中最活躍的文本fx,即其它文本最相似文本中文本fx出現的次數最高,且相似值較大,在類中計算與文本fx相似度最低的文本fy,以fx及與fx最相似的文本集建立新的類中心ctx,以fy及與fy最相似的文本集建立新的類中心cty,對該類中剩下的文本計算其與ctx,cty的相似度,將它們分別并入兩者之一;

步驟14、在步驟11的基礎上對與類中心相似度較小的文本,根據其大多數詞匯的中心id并入屬于該id的類;

步驟15.重復步驟10-14,直到類的個數收斂,且同一個類中的文本與類中心相似度到達一定閾值,則終止。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201210447277.X/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 久久国产精品久久| 国产麻豆精品一区二区| 国模一区二区三区白浆| 欧美日韩亚洲另类| 久久婷婷国产香蕉| 99久久国产综合| 国产精品96久久久久久久| 夜夜躁日日躁狠狠躁| 97人人澡人人爽91综合色| 91丝袜国产在线播放| 欧美日韩卡一卡二| 国产精品5区| 女女百合互慰av| 久久99精品一区二区三区| 91精品第一页| 日韩av中文字幕第一页| 91久久国产露脸精品国产护士| 欧美日韩一区二区三区不卡视频| 午夜诱惑影院| 二区三区免费视频| 日本一区二区电影在线观看| 91精品www| 亚洲少妇一区二区三区| 日韩亚洲精品在线| 国产精欧美一区二区三区久久| 国产精品日韩一区二区| 日韩国产精品久久| 国产日韩一区二区三区| 国产乱人激情h在线观看| 肉丝肉足丝袜一区二区三区| 精品少妇一区二区三区| 亚洲精品久久久久玩吗| 国产精品电影一区二区三区| 蜜臀久久精品久久久用户群体| 久久精品国产综合| 女人被爽到高潮呻吟免费看 | 日韩精品一区三区| 免费观看xxxx9999片| 国产又色又爽无遮挡免费动态图| 91精品美女| 综合色婷婷一区二区亚洲欧美国产 | 午夜av电影院| 国产精品伦一区二区三区在线观看| 国产乱码精品一区二区三区中文| 欧美一区二区三区在线视频观看| 国产二区不卡| 99精品少妇| 狠狠色噜噜综合社区| 国产精品一二三在线观看| 午夜电影一区二区| 香港日本韩国三级少妇在线观看| 日韩一级在线视频| 国产精品第56页| 午夜影院黄色片| 国产1区2区3区| 欧美三级午夜理伦三级中视频| 午夜少妇性影院免费观看| 日韩亚洲精品视频| 国产精品自产拍在线观看桃花| 午夜wwww| 午夜片在线| 26uuu色噜噜精品一区二区| 精品综合久久久久| 97人人模人人爽人人喊38tv| 91精品国产综合久久福利软件| 超碰97国产精品人人cao| 国内精品久久久久影院日本 | 日韩av视屏在线观看| 免费视频拗女稀缺一区二区| 91久久一区二区| 国产精品欧美一区乱破 | 91久久国产露脸精品| 久久99精品一区二区三区| 日韩精品一区二区不卡| 午夜电影三级| 伊人av中文av狼人av | 99久久久久久国产精品| 亚洲精品国产suv| 精品videossexfreeohdbbw| 97人人揉人人捏人人添| 国产精品自产拍在线观看蜜| 久久综合国产精品| 91亚洲国产在人线播放午夜| 国产一区二区高清视频| 国产亚洲精品久久午夜玫瑰园| 亚洲国产欧美一区| 亚洲少妇一区二区三区| 国产中文字幕一区二区三区| 国产日韩一区二区三免费| 69久久夜色精品国产7777| 91avpro| 91狠狠操| 国产乱淫精品一区二区三区毛片| 精品国产一区二| 欧美一区二区三区久久精品视| 国产品久久久久久噜噜噜狼狼| 中文字幕在线播放一区| 国产色午夜婷婷一区二区三区| 一区二区精品久久| 国产一区二区播放| 久久影院一区二区| 91影视一区二区三区| 亚洲精品乱码久久久久久写真| 国产精品综合一区二区| 91精品一区在线观看| 狠狠躁天天躁又黄又爽| 久久国产精品久久久久久电车| 久久99久久99精品免观看软件 | 热久久一区二区| 国产综合久久精品| 亚洲国产精品日韩av不卡在线 | 日韩中文字幕在线一区二区| 日韩一区免费在线观看| 国产精品自拍不卡| 国产一区二区国产| 亚洲精品一区在线| 午夜叫声理论片人人影院| 午夜看片网站| 丰满岳乱妇在线观看中字| 久久免费视频一区| 91国偷自产一区二区介绍| 色乱码一区二区三区网站| 国产不卡网站| 欧美高清xxxxx| 国产一区欧美一区| 一区二区三区在线观看国产| 国产精品影音先锋| 午夜精品一区二区三区三上悠亚 | 国产精品久久久综合久尹人久久9| 性少妇freesexvideos高清bbw | 久久国产精品首页| 久久久999精品视频| 亚洲精品乱码久久久久久高潮| 国产综合久久精品| 国产欧美亚洲精品| 久久综合二区| 国产91久| 精品美女一区二区三区| 日韩精品一二区| 亚洲天堂国产精品| 久久免费福利视频| 欧美网站一区二区三区| 强行挺进女警紧窄湿润| 精品在线观看一区二区| 国产精品亚洲а∨天堂123bt| 亚洲三区二区一区| 日韩精品免费一区二区夜夜嗨| 美女脱免费看直播| 久久99国产精品久久99果冻传媒新版本| 香蕉久久国产| 国产亚洲精品久久yy50| 欧美一区视频观看| 欧美日韩偷拍一区| 国产白嫩美女在线观看| 亚洲国产精品综合| 国内精品久久久久影院日本| 亚洲乱亚洲乱妇50p| 国产一区二区高清视频| 欧美激情视频一区二区三区免费| 国内精品国产三级国产99| 国产在线精品一区二区在线播放| 欧美在线一级va免费观看| 国模一区二区三区白浆| 精品国产1区2区3区| 久久天天躁夜夜躁狠狠躁2022| 欧美亚洲精品一区二区三区| 野花社区不卡一卡二| 99色精品视频| 日本久久丰满的少妇三区| 免费欧美一级视频| 99久久婷婷国产亚洲终合精品| 91影视一区二区三区| 国产日产高清欧美一区二区三区| 国产馆一区二区| 国产精品麻豆一区二区| 精品国产二区三区| 国产精品一二三四五区| 午夜电影一区二区三区| 午夜激情在线播放| 亚洲欧美国产日韩综合| 欧美亚洲精品一区二区三区| 国偷自产中文字幕亚洲手机在线| 日本久久丰满的少妇三区| 精品久久久久久中文字幕大豆网 | 久久精品视频中文字幕| 欧美日韩国产精品综合| 国产在线欧美在线| 狠狠色丁香久久婷婷综合丁香| 最新国产一区二区| 国产69精品久久久久久野外| 亚洲乱玛2021| 一本一道久久a久久精品综合蜜臀| 视频一区欧美| 免费91麻豆精品国产自产在线观看| 99精品国产一区二区三区不卡| 国产欧美日韩精品在线| 97人人澡人人爽91综合色| 色就是色欧美亚洲| 欧美国产一区二区在线| 亚州精品中文| 亚洲精品乱码久久久久久国产主播| 国内精品久久久久久久星辰影视 | 午夜亚洲国产理论片一二三四| 午夜无人区免费网站| 日韩av免费电影| 在线播放国产一区| 波多野结衣巨乳女教师| 国产.高清,露脸,对白| 欧美一区免费| 国产精品二区在线| 毛片大全免费看| 国产视频精品久久| 91精品国产综合久久婷婷香| 国产午夜精品av一区二区麻豆| 视频一区二区三区中文字幕| 国产一二区视频| 亚洲一二三四区| 精品国产一区二| 国产午夜三级一区二区三| 中文字幕一区二区三区又粗| 国产第一区二区三区| 日韩欧美精品一区二区| 亚洲视频h| 国产精品高潮呻| 狠狠操很很干| 国产精品一区二区中文字幕| 精品国产九九| 欧美日韩激情一区二区| 国产欧美性| 日本一区二区三区中文字幕 | 国产日产精品一区二区三区| 欧美精品久久一区二区| 99久久精品免费看国产交换| 日韩一区二区精品| 狠狠色噜噜狠狠狠狠色吗综合 | 麻豆精品国产入口| 精品久久久久久久免费看女人毛片| **毛片在线| 精品999久久久| 日韩一区免费在线观看| 精品国产品香蕉在线| 国产日韩欧美精品| 日韩精品一区在线观看| 久久99精品国产麻豆婷婷| 91在线一区二区| 欧美精品一区二区三区视频|