[發明專利]一種多媒體熱點分析方法有效
| 申請號: | 201510094167.3 | 申請日: | 2015-03-03 |
| 公開(公告)號: | CN104715024A | 公開(公告)日: | 2015-06-17 |
| 發明(設計)人: | 蔣大可;何俊;莫燕峰 | 申請(專利權)人: | 湖北光谷天下傳媒股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢天力專利事務所 42208 | 代理人: | 馮衛平 |
| 地址: | 430077 湖北省武漢市*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多媒體 熱點 分析 方法 | ||
技術領域
本發明涉及一種信息管理的方法,特別是一種多媒體熱點分析方法。
背景技術
隨著互聯網技術的不斷成熟,我們如今生活在一個信息爆炸的時代,媒體每天需要面對的信息量成幾何數的增長,如何處理這些信息,將其分門別類并從中確定熱點信息一直困擾著各大媒體,若采取人工分類的方法過于依賴操作人員的經驗且工作量大,若使用軟件自動分類則準確率低,且無法從中篩選出熱點。
發明內容
本發明的目的在于提供一種多媒體熱點分析方法,運用該方法可以將搜集到的媒體信息,按照相似度進行自動聚類,并將達到關注次數的媒體信息設定為熱點。
實現本發明目的的技術方案是:一種多媒體熱點分析方法,包括一個數據庫,收集到的每個稿件都會附加一個消息頭,根據該消息頭將稿件進行分類,并以16進制的形式將稿件分門別類的存入該數據庫中,其特征在于包括以下步驟:
1.1.通過消息頭,按不同類型隨機從數據庫中抽出文件,形成文本文檔群;
1.2.將16進制的文本文檔群,隨機分散到二維網絡空間中,來對其實行并發掃描。
1.3.每次并發掃描,都將計算每次掃描過的文檔與其他的文檔相似的程度,來判斷是否納入熱點范圍;
1.4.如果其中的線程掃描文檔為空時,會隨機的去掃描其中一個與相鄰的相似度較低的文檔,如果其線程處于閑置狀態時,并且其處理的文檔與附近的線程的處理文檔相似度較高,該線程會放下其處理的文檔;
??1.5.通過循環操作步驟1.3、1.4,相似或者相關的文檔,將通過不斷的群體相似度被聚集在同一個區域,一次篩選完成;
1.6.初始化連接權值w,學習率a,鄰域半徑Nbo,將需要掃描的文本文檔設定一個范圍,連接權值w代表每個線程;
1.7.對所有范圍內的文本取樣;
1.8.將文檔分詞,并構建向量空間模型,將文檔表示成可計算的矩陣;
1.9.將取樣的文本文檔進行分詞區別分類,分別分入到構建的向量空間模型中;
1.10.?將每個向量空間模型中的文本文檔,通過歐氏距離來比較,計算連接權向量與輸入文檔之間的距離,值最小的神經元便是獲勝神經元;
1.11.更新獲勝神經元及其鄰域內所有神經元的連接權值,而鄰域外的神經元的連接權值保持不變;
1.12.調整學習率a和鄰域半徑Nbo,為了保證算法的收斂,學習率的取值一般在0到1之間,且隨著學習代數的增加而遞減;鄰域半徑也隨著學習代數的增加而遞減,最后只有獲勝結點在學習;
1.13.重復步驟1.7~1.12,直至算法收斂或達到最大迭代次數為止,以得到熱點數據;
1.14.通過得出的熱點數據,與其他媒體的版面進行對比,比較其重復度,重復度最高的便是最終的熱點數據;
1.15.通過得出的最終熱點數據,將其排序,并分色顯示,通過每個消息頭中的不同ip數據,生成信息地圖,將已經分好色的熱點,顯示在地圖上,讓用戶清楚、明朗的了解到現今的熱點。
而且步驟1.2~1.5采用的是基于蟻群文檔聚類算法,具體計算步驟如下:
2.1.算法初始化階段,文本集中的文檔隨機的被映射到一個二維平面的網格空間中,所遵循的映射規則是每一個網格中只能容納唯一一個文檔,也就是說,不可以重疊的將不同文檔映射到同一個網格中,同時一定數量的螞蟻被散布到該二維平面上;
2.2.計算群體相似度密度,每個單一的螞蟻隨機的在二維網格空間中移動,選擇一個文檔,然后拾起這篇文檔,并攜帶著它在二維網格空間中隨機的移動,每移動一次,每只螞蟻都要計算它所攜帶的文檔或者它所在網格中的文檔與周圍環境的群體相似度,用以決定是否拾起或者放下該文檔,若一只螞蟻所在的位置為r,它所在環境的群體相似度密度f(oi)定義如下:
其中oi∈Nerighs×s(r)表示的是文檔在位置r的s×s邊長的鄰域,d(oi,?oj)?表示兩篇文檔?oi與oj?之間的文本距離,α是群體相似度系數,也叫做相異度因子,它的大小不僅會影響最終的蟻群聚類的簇數,還會影響到算法的收斂速度,采用余弦相似度公式作為文檔間的相似度計量:
其中,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北光谷天下傳媒股份有限公司;,未經湖北光谷天下傳媒股份有限公司;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510094167.3/2.html,轉載請聲明來源鉆瓜專利網。





