[發明專利]一種科技研究熱點主題預測方法有效
| 申請號: | 201910961978.7 | 申請日: | 2019-10-11 |
| 公開(公告)號: | CN112650847B | 公開(公告)日: | 2023-05-09 |
| 發明(設計)人: | 謝能付;郝心寧;熊煒;徐倩;吳蕾;梁曉賀;吳賽賽 | 申請(專利權)人: | 中國農業科學院農業信息研究所 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06Q10/04 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 程江濤 |
| 地址: | 100081 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 科技 研究 熱點 主題 預測 方法 | ||
本發明公開一種科技研究熱點主題預測方法,根據與待測主題相關的科技研究主題詞表對學科文獻進行預處理,得到對應年份的分詞文檔,并將分詞文檔轉換為二進制向量矩陣;利用頻繁項集挖掘算法對二進制向量矩陣進行處理,得到頻繁主題集合;對頻繁主題集合進行過濾,得到熱點主題集合;將熱點主題集合轉換為時序序列數據,根據時序序列數據,訓練多個預測模型,并利用加權處理方法得到主題預測模型;根據主題預測模型預測待測主題出現的頻率。本發明文采用基于領域主題詞表的詞語過濾,較為完善的歸納了科技研究領域特性,采用頻繁項集算法對科技研究領域的熱點主題進行識別,能夠準確地預測未來時間內的熱點主題。
技術領域
本發明涉及信息處理領域,特別是涉及一種科技研究熱點主題預測方法。
背景技術
現有技術大部分采用聚類方法對科學熱點主題識別,部分預測方法只是利用關鍵的高頻進行,不能有效體對未來一段時間的學科熱點主題預測,熱點主題預測的準確性較低。
發明內容
本發明的目的是提供一種科技研究熱點主題預測方法,能夠準確預測熱點主題出現的頻率。
為實現上述目的,本發明提供了如下方案:
一種科技研究熱點主題預測方法,所述預測方法包括:
根據待測主題確定相應科技研究領域的資料庫,所述資料庫包括學科文獻、網絡資源和專家知識;
根據所述資料庫構建一維橫向量的主題詞表;
根據所述主題詞表,對每年的學科文獻進行預處理,得到對應年份的學科文獻分詞文檔;
利用所述主題詞表,根據所述學科文獻分詞文檔中的詞在所述主題詞表中的出現情況得到對應年份的二進制向量;所有年份的二進制向量構成二進制向量矩陣;
利用頻繁項集挖掘算法對所述二進制向量矩陣進行處理,得到頻繁主題集合;
對所述頻繁主題集合進行過濾,得到熱點主題集合;
將所述熱點主題集合轉換為時序序列數據;
根據所述時序序列數據,訓練多個預測模型,并利用加權處理方法得到主題預測模型;
利用所述主題預測模型預測所述待測主題出現的頻率。
可選的,所述根據所述主題詞表,對每年的學科文獻進行預處理,得到對應年份的學科文獻分詞文檔,具體包括:
針對每一年的科學文獻進行如下處理:
所述科學文獻進行句子劃分,得到對應的句子集合;
根據所述主題詞表,對所述句子集合進行分詞處理,形成對應年份的學科文獻分詞文檔。
可選的,若所述學科文獻分詞文檔中的詞出現在所述主題詞表中,則記為1,否則記為0,形成對應年份的二進制向量。
可選的,所述利用頻繁項集挖掘算法對所述二進制向量矩陣進行處理,得到頻繁主題集合,具體包括:
以任一年的分詞文檔對應的二進制向量為事務,將所述分詞文檔中的主題詞按照支持度由大到小的順序進行排列,并刪除頻繁1項集,得到更新后的事務數據集;
將所述事務數據集轉換為事務鏈表組,所述事務鏈表組的各項事務鏈表保存著頭元素相同的各事務的信息;
按頭元素支持度大小遞增排列順序,對所述事務鏈表組進行更新,得到更新后的事務鏈表組;
對所述更新后的事務鏈表組進行挖掘,獲得對應年份的頻繁主題集;
以最后一年的頻繁主題集為基準,對每個主題詞進行計算,如果該主題詞出現的年份數超過閾值,就保留,否則刪除,得到頻繁熱點主題集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國農業科學院農業信息研究所,未經中國農業科學院農業信息研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910961978.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:顆粒物植入裝置及爆珠植入設備
- 下一篇:一種漂染廢水凈化系統





