[發明專利]一種確定語料的來源的方法、設備及計算設備有效
| 申請號: | 201710153881.4 | 申請日: | 2017-03-15 |
| 公開(公告)號: | CN106874518B | 公開(公告)日: | 2020-05-12 |
| 發明(設計)人: | 馬東辰 | 申請(專利權)人: | 北京知道創宇信息技術股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/9535 |
| 代理公司: | 北京思睿峰知識產權代理有限公司 11396 | 代理人: | 謝建云;趙愛軍 |
| 地址: | 100102 北京市朝陽區阜*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 確定 語料 來源 方法 設備 計算 | ||
本發明公開了一種確定語料的來源的方法,適于在計算設備中執行,計算設備與語料樣本存儲設備相耦接,語料樣本存儲設備存儲來自至少一個來源的語料樣本,該方法包括步驟:從語料樣本存儲設備中獲取至少一個來源的語料樣本;對每個來源的語料樣本,將該語料樣本和要確定來源的語料組合在一起,并按照預定編碼算法進行數據壓縮,以生成一個壓縮文件;計算每個壓縮文件的壓縮率;以及將所獲得的至少一個壓縮文件中、壓縮率最高的一個壓縮文件所對應的來源確定為要確定來源的語料的來源。本發明還公開一種確定確定語料的來源的設備及計算設備。
技術領域
本發明涉及計算機技術領域,尤其涉及一種確定語料的來源的方法、設備及計算設備。
背景技術
隨著網絡通信技術的迅速發展、互聯網應用的持續深化、所承載信息的日益豐富,互聯網已成為人類社會重要的基礎設施。截至2016年6月,中國網民規模達7.10億,其中上半年新增網民2132萬人,增長率為3.1%?;ヂ摼W普及率達到51.7%,超過全球平均水平3.1個百分點。在這7.1億的網民中,每天都會有大量的匿名語料(例如匿名言論和匿名惡意代碼)產生,給社會的安定和諧以及群眾的信息安全造成了巨大的影響。因此,確定這些語料的來源十分必要。
通常地,可以通過查找發布語料的設備的IP地址和MAC地址來確定其來源。然而,此種方式成本較高,花費時間較長,同時難以查找到精心偽裝過的語料,比如發布者利用公共場所的網絡、再通過多層代理發布的匿名言論。
因此,迫切需要一種更先進的更有效的確定語料的來源的方案。
發明內容
為此,本發明提供一種確定語料的來源的方案,以力圖解決或者至少緩解上面存在的至少一個問題。
根據本發明的一個方面,提供了一種確定語料的來源的方法,適于在計算設備中執行,計算設備與語料樣本存儲設備相耦接,語料樣本存儲設備存儲來自至少一個來源的語料樣本,該方法包括步驟:從語料樣本存儲設備中獲取至少一個來源的語料樣本;對每個來源的語料樣本,將該語料樣本和要確定來源的語料組合在一起,并按照預定編碼算法進行數據壓縮,以生成一個壓縮文件;計算每個壓縮文件的壓縮率;以及將所獲得的至少一個壓縮文件中、壓縮率最高的一個壓縮文件所對應的來源確定為要確定來源的語料的來源。
根據本發明的另一方面,提供了一種確定語料的來源的設備,與語料樣本存儲設備相耦接,語料樣本存儲設備存儲來自至少一個來源的語料樣本,該確定語料的來源的設備包括:樣本獲取模塊,適于從語料樣本存儲設備中獲取至少一個來源的語料樣本;語料壓縮模塊,適于對每個來源的語料樣本,將該語料樣本和要確定來源的語料組合在一起,并按照預定編碼算法進行數據壓縮,以生成一個壓縮文件;比率計算模塊,適于對語料壓縮模塊生成的每個壓縮文件,計算該壓縮文件的壓縮率;以及來源確定模塊,適于將所獲得的至少一個壓縮文件中、壓縮率最高的一個壓縮文件所對應的來源確定為要確定來源的語料的來源。
根據本發明的還有一個方面,提供了一種計算設備,包括:至少一個處理器;以及包括計算機程序指令的至少一個存儲器;至少一個存儲器和計算機程序指令被配置為與至少一個處理器一起使得計算設備執行根據本發明的確定語料的來源的方法。
根據本發明的確定語料的來源的方案,通過將收集的已知來源的語料樣本與要確定來源的語料一齊壓縮并計算壓縮率,以壓縮率為依據來確定語料的來源。整個方案實現簡單快捷,同時準確率高,大大提高了用戶的操作體驗。
附圖說明
為了實現上述以及相關目的,本文結合下面的描述和附圖來描述某些說明性方面,這些方面指示了可以實踐本文所公開的原理的各種方式,并且所有方面及其等效方面旨在落入所要求保護的主題的范圍內。通過結合附圖閱讀下面的詳細描述,本公開的上述以及其它目的、特征和優勢將變得更加明顯。遍及本公開,相同的附圖標記通常指代相同的部件或元素。
圖1示出了根據本發明的一個示例性實施方式的計算設備100的結構框圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京知道創宇信息技術股份有限公司,未經北京知道創宇信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710153881.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:矢量地圖服務的處理方法和裝置
- 下一篇:頁面展現方法和裝置





