[發明專利]一種用于分析社交網絡信息的高質量信息獲取方法和系統在審
| 申請號: | 202010713830.4 | 申請日: | 2020-07-22 |
| 公開(公告)號: | CN111858674A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 于霄 | 申請(專利權)人: | 北京宏博知微科技有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06F16/9536;G06Q50/00 |
| 代理公司: | 北京卓唐知識產權代理有限公司 11541 | 代理人: | 卜榮麗 |
| 地址: | 100000 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 分析 社交 網絡 信息 質量 獲取 方法 系統 | ||
1.一種用于分析社交網絡信息的高質量信息獲取方法,其特征在于,包括如下步驟:
S1、預設數據流閥值和單信息重復閥值;
S2、根據數據流閥值和單信息重復閥值,獲取社交網絡信息數據流;
S3、對所獲取的社交網絡信息數據流進行特征量提取,并生成特征量集合;
S4、根據特征量集合,計算獲取社交網絡信息數據流的質量評分、重復規避評分和獨立評分;
S5、根據質量評分、重復規避評分和獨立評分,計算獲取社交網絡信息數據流的有效性評分,獲取高質量的社交網絡信息數據流。
2.如權利要求1所述的一種用于分析社交網絡信息的高質量信息獲取方法,其特征在于,所述預設數據流閥值和單信息重復閥值,具體為:
設定數據流閥值G,截取超過G值的社交網絡信息數據流;
設定單信息重復閥值β,過濾剔除超過β值的單信息重復數據流。
3.如權利要求1或2所述的一種用于分析社交網絡信息的高質量信息獲取方法,其特征在于,所述根據數據流閥值和單信息重復閥值,獲取社交網絡信息數據流,具體為:
截取超過G值的社交網絡信息數據流,根據所設定單信息重復閥值β,過濾剔除超過β值的重復數據流,留下滿足單信息狀態的社交網絡信息數據流;
其中,G范圍為大于或等于800的整數,β范圍為0-0.005;
獲取G個關于社交網絡信息的轉發及評論的記錄信息,記錄為Pk;
Pk表示第k個社交網絡信息的轉發及評論的記錄信息。
4.如權利要求3所述的一種用于分析社交網絡信息的高質量信息獲取方法,其特征在于,所述Pk包括對第k個社交網絡信息進行轉發及評論的用戶的id、用戶所評論的文字內容、用戶的關注總人數、用戶的粉絲總人數以及用戶自發布的社交網絡信息總量,分別記錄為idk,ctk,prgk,prfk,prwk,記錄Pk={idk,ctk,prgk,prfk,prwk};
其中,k=1,2,3......G。
5.如權利要求1或4所述的一種用于分析社交網絡信息的高質量信息獲取方法,其特征在于,所述對所獲取的社交網絡信息數據流進行特征量提取,并生成特征量集合,具體為:
提取k個記錄信息的特征量集合,記錄為PFk(l),所述PFk(l)表示第k個轉發記錄的第l個特征量;
其中,l=1,2,3,4;
所述PFk(l)具體為:
根據獲取的G個關于社交網絡信息的轉發及評論的記錄信息,記錄G個記錄信息的特征量集合,記錄為PFp,p=1,2,3......G。
6.如權利要求5所述的一種用于分析社交網絡信息的高質量信息獲取方法,其特征在于,所述根據特征量集合,計算獲取社交網絡信息數據流的質量評分,具體為:
根據PFp,對記錄信息進行質量判定,得出質量評分,記錄為Sc(p),其中,p=1,2,3......G;
計算Pk的質量得分,記錄為Sc(k):
7.如權利要求6所述的一種用于分析社交網絡信息的高質量信息獲取方法,其特征在于,所述根據特征量集合,計算獲取社交網絡信息數據流的重復規避評分,具體為:
根據PFp,以及用戶的id,對G個記錄信息進行重復規避判定,分析各記錄的重復規避評分,記錄為Ss(p),其中,p=1,2,3......G;
計算Pk的重復規避評分,記錄為Ss(k):
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京宏博知微科技有限公司,未經北京宏博知微科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010713830.4/1.html,轉載請聲明來源鉆瓜專利網。





