[發明專利]一種互聯網大數據分析提取方法在審
| 申請號: | 201710897053.1 | 申請日: | 2017-09-28 |
| 公開(公告)號: | CN107657032A | 公開(公告)日: | 2018-02-02 |
| 發明(設計)人: | 馮煥霞;張劍;彭金祥;李正淳 | 申請(專利權)人: | 佛山市南方數據科學研究院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙)11350 | 代理人: | 湯東鳳 |
| 地址: | 528000 廣東省佛山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 數據 分析 提取 方法 | ||
1.一種互聯網大數據分析提取方法,其特征在于,所述互聯網大數據分析提取方法包括以下步驟:
步驟一,確定提取的基本要素;具體包括:
1)開發樣本抽樣,通過人工判讀對樣本進行標注,生成開發語料:
根據具體業務需求確定抽樣數據源;確定抽樣規則、抽樣數據量,抽樣算法使數據均勻覆蓋;開發實現抽樣算法,將數據抽取到本地文件或者臨時數據庫供后續標注和建模工作使用;人工標注樣本的上下文屬于哪一個文本分類;
2)針對開發語料進行規則開發,生成規則模型:規則模型開發人員根據開發語料提取文本數據規則,所述文本數據規則包括:實體、概念、句式;開發實現規則模型源碼或者腳本;編譯規則模型源碼,生成二進制模型文件,供后續模型執行平臺調用;
3)、對模型進行調試,若需調整分類,則重新調整分類樹,回到1):在開發測試環境編譯、執行規則模型;查看規則模型執行結果,優化規則模型源碼或者腳本;根據具體業務需求,分析分類模型是否合理,若不合理,則修改分類模型;若修改了分類模型,則重復1),按照新的分類重新抽樣,并進行樣本標注;
4)、重復執行1)至3),直至輸出最優的規則模型;
5)、測試樣本抽樣,通過人工判讀對樣本進行標注,生成測試語料;
6)、模型測試人員針對測試語料進行模型測試;
7)、對模型進行優化,若需調整分類,則重新調整分類樹,回到5);其中,對模型進行優化的迭代處理模型為:
其中,X為所述目標分類數據,M為系統矩陣,G為所述輸入分類數據,i表示迭代次數,Xi表示第i次迭代后得到的迭代結果;λ表示收斂系數,且λ∈(0,1),MT表示對矩陣M的轉置;
8)、重復執行5)至7),直至輸出最優的規則模型;
9)、模型上線,定期使用測試語料對模型進行測試,并對測試結果進行分析,若對于實時數據,模型不再準確,則重復1)至8)對模型進行優化;
步驟二,獲取相關的數據信息;具體包括:
(1)初始化已選文本分類集合為空集,候選文本分類集合為文本分類全集,隨著調度過程的進行,已選文本分類集合和候選文本分類集合的元素不斷更新,和分別為在第n次迭代結束時候選和已選文本分類集合,n=1,…,NT為迭代的次數,初始化n=1;
(2)互聯網基站對文本分類k反饋的信道信息矩陣Hk進行奇異值分解其中,λk,1表示第k個文本分類的信道矩陣的奇異值,表示維度1×(NT-1)的零向量,和分別由與非零奇異值λk,1和零奇異值對應的右奇異值向量構成,因為rank(Hk)=1,所以vi,1為Vi的第一個列向量,其中,rank(·)表示求矩陣的秩;
(3)互聯網基站根據分解后的矩陣構造中間矩陣和以及其中,diag(·)表示對角化操作;
(4)互聯網基站構造相關矩陣R,R為L×L方陣,第i行第j列的元素為其中,|·|表示求模運算;
(5)從R中選擇出與已經調度的n-1個文本分類對應的n-1列,構成矩陣將剩余的部分分別對行元素進行升序排列,得到矩陣即
(6)計算文本分類的相關因子即對Rn中每一行的前ξ個元素分別求和并取倒數,等效于簡化得到列向量ψn=[ψ1,n … ψL,n]Η;
(7)按照公式選擇第n個文本分類;
(8)若n<NT,返回(5);否則調度完成,根據被調度的文本分類受到的實際干擾計算相關因子ψk;若文本分類未被調度ψk=0,并按照公式更新文本分類k,k∈{1,…,L}平均相關因子,用于計算下一個傳輸周期中的文本分類調度權重,調度完成后,基站通知激活文本分類并進行下行數據通信,在下一個傳輸周期(t+1)的開銷時隙階段,重復執行(1)~(7);
在(6)中綜合考慮候選文本分類受到已選文本分類以及潛在的可能被調度的文本分類的影響根據式(1)計算文本分類的相關因子即對Rn中每一行的前ξ個元素分別求和并取倒數,等效于簡化式(2);
得到列向量ψn=[ψ1,n … ψL,n]Η,其中,表示潛在的、后續可能被選擇的文本分類集合,card(·)表示集合中的元素的個數;
在(7)中按照公式選擇第n個文本分類;
sn表示被選擇的文本分類的標號,是文本分類k的調度權重,是上一傳輸周期結束時文本分類k的平均相關因子,更新n=n+1;
對文本分類進行調度,隨著時間的推移,平均相關因子增大,權值μk隨之減小,調度優先級降低;
在(8)中更新文本分類k的平均相關因子的公式為
其中,δc=0.99;
步驟三,獲取互聯網的網頁頁面;
步驟四,獲取網頁頁面對應的站點首頁或聯系頁;
步驟五,從站點首頁或聯系頁中提取興趣點名稱和對應的地址信息;
步驟六,將提取到的興趣點名稱與地址信息進行關聯,得到結構化信息;
步驟七,將獲取結構化信息數據、數據段分解正則表達式和與數據段分解正則表達式對應的數據項名稱列表;
步驟八,根據數據段分解正則表達式對待分析數據中的數據段進行數據分解,生成數據項值,并將數據項值與數據項名稱列表進行關聯,形成數據項名稱與數據項值對應的中間數據對;根據設定統計規則,對中間數據對進行統計分析,得到數據分析結果;
所述獲取站點首頁的方法包括:
從所述網頁頁面的網址中取出域名地址,對所述域名地址進行跳轉處理,得到該網頁頁面對應的站點首頁;
通過全網網頁頁面的網址中逐一取出域名地址,進行去重處理后添加到域名地址集合中,對所述域名地址集合中的所有域名地址進行跳轉處理,得到相對應的站點首頁;或者,利用站點的首頁樣本集合,統計分析其鏈接錨文本及網址樣式特征構造首頁分類器,利用所述首頁分類器對所述網頁頁面進行分析,得到所有的站點首頁;
所述獲取網頁頁面對應的聯系頁的方法包括:
利用站點的聯系頁樣本集合,統計分析其鏈接錨文本、頁面標題及網址樣式特征構造聯系頁分類器,利用所述聯系頁分類器對所述網頁頁面進行分析,得到所有站點的聯系信息頁;
所述對所述中間數據對進行統計分析,得到數據分析結果,包括:
獲取統計分析結果字段表中的結果字段,結果字段包括字段統計公式,所述統計分析結果字段表包括至少一個結果字段;根據字段統計公式,對所述中間數據對中的相應數據進行統計。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于佛山市南方數據科學研究院,未經佛山市南方數據科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710897053.1/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





