[發(fā)明專利]一種提取智能家居行業(yè)動態(tài)信息的方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011344856.2 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112464668A | 公開(公告)日: | 2021-03-09 |
| 發(fā)明(設計)人: | 王元曉;蔣秋霞 | 申請(專利權)人: | 南京數(shù)脈動力信息技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/211;G06F16/35;G06F16/34;G06N3/04;G06N3/08 |
| 代理公司: | 北京衛(wèi)智暢科專利代理事務所(普通合伙) 11557 | 代理人: | 陳佳 |
| 地址: | 211800 江蘇省南京市江北新*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提取 智能家居 行業(yè)動態(tài) 信息 方法 系統(tǒng) | ||
本發(fā)明提出一種提取智能家居行業(yè)動態(tài)信息的方法和系統(tǒng),基于智能家居領域,在行業(yè)動態(tài)數(shù)據(jù)捕捉提取任務上,提出構建一套自動化行業(yè)動態(tài)趨勢捕捉并自動生成報告的方法。可以在文章結構化信息抽取上,基于智能家居行業(yè)背景提出一種結合行業(yè)先驗知識和自然語言處理序列標注的智能化行業(yè)動態(tài)數(shù)據(jù)提取方式,同時結合基于深度學習的文本分類模型和多類指標的段落摘要提取,自動生成行業(yè)研究報告。而且本發(fā)明是機器學習算法和智能家居行業(yè)業(yè)務特征深度結合,經(jīng)過大量實踐摸索研究的具有較好預測效果的自然語言分析業(yè)務流程,算法高效,針對性強,工序流程高度契合數(shù)據(jù)分析業(yè)務,抽取數(shù)據(jù)并生成報告成功率較高的流程。
技術領域
本發(fā)明涉及計算機技術領域,特別是涉及一種提取智能家居行業(yè)動態(tài)信息的方法和系統(tǒng)。
背景技術
智能家居行業(yè)作為互聯(lián)網(wǎng)時代的新興產(chǎn)業(yè),伴隨5G和物聯(lián)網(wǎng)技術的高速發(fā)展呈現(xiàn)出了更強的增長趨勢,如何基于市場最新發(fā)展動態(tài)及時做出反應和決策,成為抓住智能家居市場的關鍵。智能家居行業(yè)動態(tài)的主要來源是互聯(lián)網(wǎng)資訊文章,傳統(tǒng)的行業(yè)動態(tài)分析借助人工在龐大的文章報告中閱讀查找相關數(shù)據(jù),并進行整理記錄,例如通過人工翻閱各大新聞類網(wǎng)站和媒體,從中選取有用信息組成行業(yè)周報和行業(yè)月報,這個工作需要由專門的人員每周花費2-3個工作日進行資料查找、篩選、排版等工作,需要消耗大量人力資源。同時,用戶意圖識別的任務可以抽象為自然語言處理中的文本分類任務,可以使用相關算法實現(xiàn)自動意圖識別代替人工識別操作。文本分類是指對給定的非結構化文本,根據(jù)相應的分類算法或模型,得到文本對應的類別,用于相關判斷。而傳統(tǒng)的機器學習算法基于人工特征工程提取文本特征,在文本分類上的準確率和魯棒性上都存在一定局限,且基于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的深度學習算法對于訓練數(shù)據(jù)的質量要求也較高。
發(fā)明內容
鑒于以上所述現(xiàn)有技術的缺點,本發(fā)明的目的在于提供一種提取智能家居行業(yè)動態(tài)信息的方法和系統(tǒng),用于解決現(xiàn)有技術中存在的技術問題。
為實現(xiàn)上述目的及其他相關目的,本發(fā)明提供一種提取智能家居行業(yè)動態(tài)信息的方法,包括以下步驟:
通過網(wǎng)絡爬蟲自動獲取與智能家居行業(yè)關聯(lián)的資訊文章,并存儲至數(shù)據(jù)庫中;
對獲取的資訊文章進行清洗,并對清洗后的資訊文章進行詞性標注和命名實體識別;
在完成實體識別以及對資訊文章進行的詞性標注后,根據(jù)中文的詞性句法和知識庫中的先驗關系,從資訊文章中提取出結構化數(shù)據(jù)組合;
將歷史時刻智能家居行業(yè)研究報告中各個板塊的文章作為訓練數(shù)據(jù),訓練深度卷積神經(jīng)網(wǎng)絡文本分類模型,并利用訓練后的深度卷積神經(jīng)網(wǎng)絡文本分類模型確定清洗后的資訊文章是否屬于智能家居行業(yè)動態(tài)信息,以及確定清洗后的資訊文章屬于智能家居行業(yè)中哪個子板塊;
對清洗后的資訊文章進行打分,并從清洗后的資訊文章中選取目標段落作為智能家居行業(yè)研究報告中的文章摘要;
使用歷史時刻智能家居行業(yè)研究報告作為模板,根據(jù)所述結構化數(shù)據(jù)組合、各個子板塊動態(tài)資訊文章和文章摘要定期構建智能家居行業(yè)研究報告。
可選地,包括利用目標函數(shù)確定清洗后的資訊文章屬于智能家居行業(yè)中哪個子板塊;所述目標函數(shù)的表達式如下:
其中為資訊文章被預測為第t種智能家居子板塊種類的概率,γ表示權重的陡峭程度,α表示不同類別之間的比例。
可選地,若負樣本的很小,而正樣本的很大時,所述深度卷積神經(jīng)網(wǎng)絡文本分類模型開始集中關注正樣本。
可選地,所述結構化數(shù)據(jù)組合包括:時間、銷量、金額、增長、產(chǎn)品、機構和企業(yè)。
可選地,對清洗后的資訊文章進行打分,包括按照預先定制的評分標準對文章段落的位置、長度、數(shù)詞量、關鍵詞頻進行打分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京數(shù)脈動力信息技術有限公司,未經(jīng)南京數(shù)脈動力信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011344856.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





