日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于SparkMLlib文檔分類的類庫構建方法及系統在審

專利信息
申請號: 201710639999.8 申請日: 2017-07-31
公開(公告)號: CN107577708A 公開(公告)日: 2018-01-12
發明(設計)人: 刁志剛;耿星;薛嶺 申請(專利權)人: 北京北信源軟件股份有限公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京集佳知識產權代理有限公司11227 代理人: 古利蘭,王寶筠
地址: 100081 北京市海淀區中關村*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 sparkmllib 文檔 分類 構建 方法 系統
【權利要求書】:

1.一種基于SparkMLlib文檔分類的類庫構建方法,其特征在于,包括:

獲取所述SparkMLlib的運行參數,其中,所述運行參數包括平滑參數和模型類型;

去除已分類目標文檔的類內高重復項;

對所述目標文檔的已知的分類類庫中的分類項進行聚類,去除類內相似項;

基于夾角余弦定理去除類內過離散項,生成新的文檔分類的類庫。

2.根據權利要求1所述的方法,其特征在于,所述基于夾角余弦定理去除類內離群值,生成新的文檔分類的類庫后,還包括:

基于所述新的文檔分類的類庫對文檔進行分類。

3.根據權利要求1所述的方法,其特征在于,所述對所述目標文檔的已知的分類類庫中的分類項進行聚類,去除類內相似項具體為:

對所述目標文檔的已知的分類類庫中的分類項進行聚類,基于皮爾遜相關系數法去除類內相似項。

4.根據權利要求3所述的方法,其特征在于,所述對所述目標文檔的已知的分類類庫中的分類項進行聚類,基于皮爾遜相關系數法去除類內相似項包括:

基于所有已知的分類類庫中的分類項,基于公式分別兩兩計算其相關系數Corr(X,Y),其中,n表示文檔詞總量,X和Y分別為文檔標識,x,y分別表示文檔X和Y的分詞之后的詞向量各個位置的分量;

在同一類里,對于與文檔a的詞頻向量相關系數超過指定(人為設定,不能太小)的閾值的一系列文檔{ai}詞頻向量,計算其重心,作為描述{ai}的新的詞頻特征向量。

5.根據權利要求1所述的方法,其特征在于,所述基于夾角余弦定理去除類內過離散項,生成新的文檔分類的類庫包括:

基于公式計算類內兩兩向量之間的向量間距,其中,X和Y分別表示兩個文檔所有詞組的詞頻組成的文檔詞頻特征向量;

基于上述公式計算出兩個文檔之間的詞頻向量夾角;

通過計算類內兩兩向量之間的夾角刪選間距值累計距離較大的向量。

6.一種基于SparkMLlib文檔分類的類庫構建系統,其特征在于,包括:

獲取模塊,用于獲取所述SparkMLlib的運行參數,其中,所述運行參數包括平滑參數和模型類型;

第一去除模塊,用于去除已分類目標文檔的類內高重復項;

第二去除模塊,用于對所述目標文檔的已知的分類類庫中的分類項進行聚類,去除類內相似項;

生成模塊,用于基于夾角余弦定理去除類內過離散項,生成新的文檔分類的類庫。

7.根據權利要求6所述的系統,其特征在于,還包括:

分類模塊,用于基于所述新的文檔分類的類庫對文檔進行分類。

8.根據權利要求6所述的系統,其特征在于,所述第二去除模塊具體用于:

對所述目標文檔的已知的分類類庫中的分類項進行聚類,基于皮爾遜相關系數法去除類內相似項。

9.根據權利要求8所述的系統,其特征在于,所述第二去除模塊具體用于:

基于所有已知的分類類庫中的分類項,基于公式分別兩兩計算其相關系數Corr(X,Y),其中,n表示文檔詞總量,X和Y分別為文檔標識,x,y分別表示文檔X和Y的分詞之后的詞向量各個位置的分量;

在同一類里,對于與文檔a的詞頻向量相關系數超過指定的閾值的一系列文檔{ai}詞頻向量,計算其重心,作為描述{ai}的新的詞頻特征向量。

10.根據權利要求6所述的系統,其特征在于,所述生成模塊具體用于:

基于公式計算類內兩兩向量之間的向量間距,其中,X和Y分別表示兩個文檔所有詞組的詞頻組成的文檔詞頻特征向量;

基于上述公式計算出兩個文檔之間的詞頻向量夾角;

通過計算類內兩兩向量之間的夾角刪選間距值累計距離較大的向量。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京北信源軟件股份有限公司,未經北京北信源軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201710639999.8/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 午夜电影一区二区三区| 国产香蕉97碰碰久久人人| 婷婷嫩草国产精品一区二区三区| 欧美精品一区免费| 国产一卡二卡在线播放| 午夜爽爽视频| 国产呻吟久久久久久久92| 日韩精品久久一区二区三区| 欧美一区二区三区高清视频| 精品一区电影国产| 国产精品亚洲精品| 国产黄一区二区毛片免下载| 午夜影院毛片| 香港三日本8a三级少妇三级99| 精品99免费视频| 午夜三级电影院| 国产欧美亚洲一区二区| 国产91丝袜在线播放动漫| 伊人久久婷婷色综合98网| 亚洲欧美国产精品va在线观看| 欧洲亚洲国产一区二区三区| 九九精品久久| 欧美freesex极品少妇| 久久精品com| 国产精品黑色丝袜的老师| 国产精品久久久久久久综合| 国产农村妇女精品一区二区| 久久国产精品免费视频| 国产91久久久久久久免费| 久久99精品久久久大学生| 国产精品久久99| 性刺激久久久久久久久九色| 日韩久久影院| 国产福利一区在线观看| 国产一区第一页| 国产伦理久久精品久久久久| 欧美777精品久久久久网| 国产二区精品视频| 久久精品爱爱视频| xxxx在线视频| 亚洲精品一区二区三区98年| 天堂av色婷婷一区二区三区| 日韩av在线网址| 国产清纯白嫩初高生在线播放性色 | 国产精品视频久久久久久| 国产日韩欧美另类| 免费看性生活片| 亚洲国产日韩综合久久精品| 理论片午午伦夜理片在线播放 | 国产片91| 香港三日本三级三级三级| 欧美精品一区二区三区久久久竹菊| 99精品久久久久久久婷婷| 97精品国产97久久久久久粉红| 91精品国产综合久久福利软件| 91精品一区| 狠狠色狠狠色综合日日2019| 国产资源一区二区| 久久噜噜少妇网站| 国产区二区| 国产精品尤物麻豆一区二区三区| 国产99网站| 国产va亚洲va在线va| 日本午夜久久| 中文字幕一区二区在线播放| 日本激情视频一区二区三区| 亚洲欧美国产日韩色伦| 国产精品亚洲精品一区二区三区| 午夜激情影院| 午夜av男人的天堂| 国久久久久久| 88国产精品欧美一区二区三区三| 精品a在线| 日韩在线一区视频| 国产91在线拍偷自揄拍| 欧美一区二区三区视频在线观看| 日韩中文字幕亚洲精品欧美| 国产一区二区三区在线电影| 精品特级毛片| 91精品综合在线观看| 精品久久9999| 国产精品久久久久久久久久久新郎 |