[發明專利]一種提取智能家居行業動態信息的方法和系統在審
| 申請號: | 202011344856.2 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112464668A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 王元曉;蔣秋霞 | 申請(專利權)人: | 南京數脈動力信息技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/211;G06F16/35;G06F16/34;G06N3/04;G06N3/08 |
| 代理公司: | 北京衛智暢科專利代理事務所(普通合伙) 11557 | 代理人: | 陳佳 |
| 地址: | 211800 江蘇省南京市江北新*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提取 智能家居 行業動態 信息 方法 系統 | ||
1.一種提取智能家居行業動態信息的方法,其特征在于,包括以下步驟:
通過網絡爬蟲自動獲取與智能家居行業關聯的資訊文章,并存儲至數據庫中;
對獲取的資訊文章進行清洗,并對清洗后的資訊文章進行詞性標注和命名實體識別;
在完成實體識別以及對資訊文章進行的詞性標注后,根據中文的詞性句法和知識庫中的先驗關系,從資訊文章中提取出結構化數據組合;
將歷史時刻智能家居行業研究報告中各個板塊的文章作為訓練數據,訓練深度卷積神經網絡文本分類模型,并利用訓練后的深度卷積神經網絡文本分類模型確定清洗后的資訊文章是否屬于智能家居行業動態信息,以及確定清洗后的資訊文章屬于智能家居行業中哪個子板塊;
對清洗后的資訊文章進行打分,并從清洗后的資訊文章中選取目標段落作為智能家居行業研究報告中的文章摘要;
使用歷史時刻智能家居行業研究報告作為模板,根據所述結構化數據組合、各個子板塊動態資訊文章和文章摘要定期構建智能家居行業研究報告。
2.根據權利要求1所述的提取智能家居行業動態信息的方法,其特征在于,包括利用目標函數確定清洗后的資訊文章屬于智能家居行業中哪個子板塊;所述目標函數的表達式如下:
其中為資訊文章被預測為第t種智能家居子板塊種類的概率,γ表示權重的陡峭程度,α表示不同類別之間的比例。
3.根據權利要求2所述的提取智能家居行業動態信息的方法,其特征在于,若負樣本的很小,而正樣本的很大時,所述深度卷積神經網絡文本分類模型開始集中關注正樣本。
4.根據權利要求1所述的提取智能家居行業動態信息的方法,其特征在于,所述結構化數據組合包括:時間、銷量、金額、增長、產品、機構和企業。
5.根據權利要求1所述的提取智能家居行業動態信息的方法,其特征在于,對清洗后的資訊文章進行打分,包括按照預先定制的評分標準對文章段落的位置、長度、數詞量、關鍵詞頻進行打分。
6.根據權利要求1所述的提取智能家居行業動態信息的方法,其特征在于,所述資訊文章包括:智能家居行業門戶網站資訊、媒體新聞資訊文章、行業分析文章、互聯網新聞和微信公眾號文章。
7.根據權利要求1所述的提取智能家居行業動態信息的方法,其特征在于,對所述資訊文章清洗包括:對所述資訊文章進行停用詞篩選、去除所述資訊文章的網頁標簽和去除所述資訊文章的超鏈接。
8.根據權利要求1所述的提取智能家居行業動態信息的方法,其特征在于,對清洗后的資訊文章進行詞性標注和命名實體識別,包括:
使用訓練好的詞性標注模型BiGRU-CRF結合智能家居行業關鍵詞和對應產品的三元組對關系文章針對性進行詞性標注和命名實體識別。
9.一種提取智能家居行業動態信息的系統,其特征在于,包括有:
采集模塊,用于通過網絡爬蟲自動獲取與智能家居行業關聯的資訊文章,并存儲至數據庫中;
清洗模塊,用于對獲取的資訊文章進行清洗,并對清洗后的資訊文章進行詞性標注和命名實體識別;
結構化數據模塊,用于在完成實體識別以及對資訊文章進行的詞性標注后,根據中文的詞性句法和知識庫中的先驗關系,從資訊文章中提取出結構化數據組合;
分類模塊,用于將歷史時刻智能家居行業研究報告中各個板塊的文章作為訓練數據,訓練深度卷積神經網絡文本分類模型,并利用訓練后的深度卷積神經網絡文本分類模型確定清洗后的資訊文章是否屬于智能家居行業動態信息,以及確定清洗后的資訊文章屬于智能家居行業中哪個子板塊;
摘要提取模塊,用于對清洗后的資訊文章進行打分,并從清洗后的資訊文章中選取目標段落作為智能家居行業研究報告中的文章摘要;
報告構建模塊,用于使用歷史時刻智能家居行業研究報告作為模板,根據所述結構化數據組合、各個子板塊動態資訊文章和文章摘要定期構建智能家居行業研究報告。
10.根據權利要求9所述的提取智能家居行業動態信息的系統,其特征在于,包括利用目標函數確定清洗后的資訊文章屬于智能家居行業中哪個子板塊;所述目標函數的表達式如下:
其中為資訊文章被預測為第t種智能家居子板塊種類的概率,γ表示權重的陡峭程度,α表示不同類別之間的比例;
若負樣本的很小,而正樣本的很大時,所述深度卷積神經網絡文本分類模型開始集中關注正樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京數脈動力信息技術有限公司,未經南京數脈動力信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011344856.2/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





