[發(fā)明專利]一種基于互聯(lián)網(wǎng)公開信息的企業(yè)情報(bào)獲取的方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710664738.1 | 申請(qǐng)日: | 2017-08-07 |
| 公開(公告)號(hào): | CN107609019A | 公開(公告)日: | 2018-01-19 |
| 發(fā)明(設(shè)計(jì))人: | 李釗;崔丙鋒;叢海洋;李峰;王烈;胡囡;王信;王秋林;劉揚(yáng);閆麗飛;林耿;郭鑫 | 申請(qǐng)(專利權(quán))人: | 國(guó)網(wǎng)遼寧省電力有限公司;國(guó)網(wǎng)遼寧省電力有限公司電力科學(xué)研究院;福建億榕信息技術(shù)有限公司;國(guó)家電網(wǎng)公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 110006 遼*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 互聯(lián)網(wǎng) 公開 信息 企業(yè) 情報(bào) 獲取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)信息處理的技術(shù)領(lǐng)域,一種適用于企業(yè)的、基于互聯(lián)網(wǎng)公開信息的企業(yè)競(jìng)爭(zhēng)情報(bào)獲取的方法和系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)的不斷發(fā)展,互聯(lián)網(wǎng)輿論(博客、論壇、微博、微信公眾號(hào)等)已經(jīng)取代平面媒體,成為輿論的重要來源。針對(duì)互聯(lián)網(wǎng)的輿論分析對(duì)企業(yè)有重要作用,例如,在新產(chǎn)品的營(yíng)銷方面,通過收集互聯(lián)網(wǎng)上的競(jìng)爭(zhēng)情報(bào)并進(jìn)行分析,企業(yè)可以進(jìn)行更全面的客戶體驗(yàn)管理和公司反饋管理,了解群眾的需求,為公司更好地完善自己的產(chǎn)品,指定更符合用戶的生產(chǎn)策略提供幫助,為用戶提供更好的服務(wù)。一套完整的情報(bào)獲取方法主要包括互聯(lián)網(wǎng)信息采集、相關(guān)性判斷、自動(dòng)分類分析、可視化展示四個(gè)主要步驟,其中如何針對(duì)競(jìng)爭(zhēng)情報(bào)進(jìn)行自動(dòng)分類,從海量文本中識(shí)別出少量符合特定模式的文本,是該領(lǐng)域的關(guān)鍵難點(diǎn)。針對(duì)該需求,現(xiàn)有技術(shù)方案主要包括“關(guān)鍵詞匹配法”和“機(jī)器學(xué)習(xí)分類法”兩種,但存在“需要維護(hù)詞典,且由于詞典更新無(wú)法滿足時(shí)效而導(dǎo)致誤判和漏判”以及“正面語(yǔ)料占比小,傳統(tǒng)機(jī)器學(xué)習(xí)算法直接應(yīng)用容易產(chǎn)生過擬合”等缺陷,不能很好解決少量信息的自動(dòng)模式分類問題。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)中存在的缺點(diǎn),本發(fā)明目的在于提出一種基于互聯(lián)網(wǎng)公開信息的企業(yè)情報(bào)獲取的方法,其原有的操作流程包括:互聯(lián)網(wǎng)信息采集、相關(guān)性判斷、自動(dòng)分類分析、可視化展示五個(gè)步驟,本發(fā)明針對(duì)其自動(dòng)分類分析過程中存在的技術(shù)缺陷,通過采用集成分析方法替代單個(gè)分析分析算法和針對(duì)模型訓(xùn)練采用的“過采樣”技術(shù),對(duì)其進(jìn)行改進(jìn),其目的為提供一種對(duì)機(jī)器學(xué)習(xí)自動(dòng)分類的核心過程進(jìn)行改進(jìn),使之更適用于互聯(lián)網(wǎng)情報(bào)的模式分類。本發(fā)明包括以下五個(gè)步驟:
步驟一:互聯(lián)網(wǎng)信息采集,通過網(wǎng)絡(luò)爬蟲,從指定的新聞門戶、論壇、博客、微博等站點(diǎn)抓取最新的互聯(lián)網(wǎng)情報(bào)信息,相關(guān)性判斷,對(duì)采集到的情報(bào)進(jìn)行相關(guān)性判斷,將不相關(guān)的信息進(jìn)行丟棄處理;
步驟二:自動(dòng)分類分析,對(duì)目標(biāo)組織相關(guān)的互聯(lián)網(wǎng)情報(bào),進(jìn)行自動(dòng)分類分析,將制定模式的文本歸屬特定類別,本發(fā)明將針對(duì)自動(dòng)分類分析階段進(jìn)行改進(jìn),對(duì)其機(jī)器學(xué)習(xí)自動(dòng)分類的核心過程進(jìn)行改進(jìn),第一個(gè)改進(jìn),采用集成分析方法代替單個(gè)分析算法,其內(nèi)容在于在模型訓(xùn)練階段,聯(lián)合使用SVM、Ridge、Native Bayes、Decision-Tree和RandomForest五種機(jī)器學(xué)習(xí)算法,組成構(gòu)建“集成學(xué)習(xí)”算法,進(jìn)一步地,經(jīng)過一下步驟:a、準(zhǔn)備訓(xùn)練數(shù)據(jù);b、構(gòu)建分析模型;c、評(píng)估分析模型;d、調(diào)整訓(xùn)練數(shù)據(jù)權(quán)重,重新運(yùn)算;e、組合形成“集成分析算法”,最終完成集成分析,構(gòu)建出更高效的分析模型;
第二個(gè)改進(jìn),應(yīng)用“過采樣”技術(shù),其內(nèi)容在于在模式評(píng)估和部署應(yīng)用階段,準(zhǔn)備一些歷史情報(bào)數(shù)據(jù),將上述情報(bào)額外加入到測(cè)試集中,認(rèn)為提高“測(cè)試集”中情報(bào)的占比,過采樣具體發(fā)揮在步驟四中的b、c兩個(gè)階段,在情報(bào)的分類和篩選中,首先識(shí)別出占比較小的分類,為其準(zhǔn)備較多的標(biāo)記數(shù)據(jù),而后,在訓(xùn)練過程中逐步加大該分類的訓(xùn)練語(yǔ)料在整體訓(xùn)練語(yǔ)料中的占比。在其它條件保持不變的基礎(chǔ)上,觀察增加后的模型訓(xùn)練效果,直到評(píng)估值最好為止;
步驟三:基礎(chǔ)設(shè)施配置,用于支持海量數(shù)據(jù)的臨時(shí)存儲(chǔ)與分布式計(jì)算。
步驟四:數(shù)據(jù)存儲(chǔ)模塊,對(duì)分析的結(jié)果(識(shí)別出的情報(bào)信息)進(jìn)行持久化存儲(chǔ)。
步驟五:可視化展示,將使用改進(jìn)機(jī)器學(xué)習(xí)自動(dòng)分類的核心過程后得出的監(jiān)測(cè)情報(bào)以表格、圖文、報(bào)表等方式進(jìn)行統(tǒng)計(jì)展示,供情報(bào)監(jiān)測(cè)工作人員使用。
附圖說明
圖1一種基于互聯(lián)網(wǎng)公開信息的企業(yè)情報(bào)獲取的方法
圖2應(yīng)用改進(jìn)后的機(jī)器學(xué)習(xí)進(jìn)行情報(bào)分析的基本流程圖
圖3集成分析方法操作流程
具體實(shí)施方式
下面對(duì)照附圖,通過對(duì)實(shí)施例的描述,本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)的說明,以幫助本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的發(fā)明構(gòu)思、技術(shù)方案有更完整、準(zhǔn)確和深入的理解。
本發(fā)明具體實(shí)施方式如圖1所示:
步驟一:互聯(lián)網(wǎng)情報(bào)采集模塊。通過網(wǎng)絡(luò)爬蟲技術(shù),對(duì)指定的互聯(lián)網(wǎng)站點(diǎn)進(jìn)行數(shù)據(jù)采集;
步驟二:互聯(lián)網(wǎng)情報(bào)分析模塊。基于機(jī)器學(xué)習(xí)等分本分析技術(shù),對(duì)采集到的互聯(lián)網(wǎng)情報(bào)文本進(jìn)行分析,識(shí)別情報(bào),如圖2所示,本發(fā)明針對(duì)此模塊的分析技術(shù)進(jìn)行改進(jìn)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)網(wǎng)遼寧省電力有限公司;國(guó)網(wǎng)遼寧省電力有限公司電力科學(xué)研究院;福建億榕信息技術(shù)有限公司;國(guó)家電網(wǎng)公司,未經(jīng)國(guó)網(wǎng)遼寧省電力有限公司;國(guó)網(wǎng)遼寧省電力有限公司電力科學(xué)研究院;福建億榕信息技術(shù)有限公司;國(guó)家電網(wǎng)公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710664738.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 基于網(wǎng)絡(luò)電視的互聯(lián)網(wǎng)業(yè)務(wù)處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務(wù)接入網(wǎng)關(guān)的實(shí)現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應(yīng)用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動(dòng)攝像終端進(jìn)行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡(luò)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護(hù)用于互聯(lián)網(wǎng)資源分配的事務(wù)
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務(wù)器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點(diǎn)中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





