[發明專利]一種基于LDA的學術資源獲取方法在審
| 申請號: | 201611128684.9 | 申請日: | 2016-12-09 |
| 公開(公告)號: | CN106777043A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 劉柏嵩;費晨杰;王洋洋;尹麗玲;高元 | 申請(專利權)人: | 寧波大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 寧波奧圣專利代理事務所(普通合伙)33226 | 代理人: | 程曉明 |
| 地址: | 315211 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lda 學術 資源 獲取 方法 | ||
技術領域
本發明涉及機器學習、信息檢索和web網頁數據挖掘,尤其涉及一種基于LDA的學術資源獲取方法。
背景技術
隨著學術資源的電子化,從海量的學術資源中發現和挖掘研究者感興趣領域的學術資源漸漸成為一個研究的熱點。為了適應數字化的學術資源海量、多源異構的的特點,區別于傳統基于關鍵字詞頻的主題發現方法如共詞分析、引文分析等,一些基于機器學習和數據挖掘的新方法和模型不斷被應用到學術資源分類領域,比較典型的如潛在狄利克雷分配模型(latent Dirichlet allocation,LDA)、社會網絡分析(SNA)等,實踐發現這方法在學術資源主題發現方面取得了良好的效果。
網絡爬蟲是按照一定的規則,自動地抓取互聯網信息的程序或者腳本。主題爬蟲:是指選擇性地爬行那些與預先定義好的主題相關頁面的網絡爬蟲。主題是指某個定義好的專業領域或者興趣領域,例如航天航空,生物醫學,信息技術等,具體指一系列相關的詞所組成的集合。
LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構。所謂生成模型,就是說,我們認為一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程得到。文檔到主題服從多項式分布,主題到詞服從多項式分布。LDA是一種非監督機器學習技術,可以用來識別大規模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。它采用了詞袋(bag of words)的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉化為了易于建模的數字信息。但是詞袋方法沒有考慮詞與詞之間的順序,這簡化了問題的復雜性,同時也為模型的改進提供了契機。每一篇文檔代表了一些主題所構成的一個概率分布,而每一個主題又代表了很多單詞所構成的一個概率分布。LDA主題模型是自然語言處理中主題挖掘的典型模型,可以從文本語料中抽取潛在的主題,提供一個量化研究主題的方法,已經被廣泛的應用到學術資源的主題發現中,如研究熱點挖掘、研究主題演化、研究趨勢預測等,從而設計成基于LDA主題模型的網頁主題爬蟲。從LDA目前應用的情況來看,目前各種獲取數字化學術資源(期刊論文、專利、碩博論文)的現有技術手段均存在一定局限性。
學術研究、技術開發需要獲取現有學術資源、技術信息,一般都是由各學術研究團隊或技術開發團隊的相關人員各自搜取,大量的重復搜取現象嚴重,搜取工作往往占用相關人員的大量時間精力。隨著互聯網的快速發展,網頁數量快速增長,但由于計算資源、網絡工具資源和存儲資源的有限,傳統搜索技術已經很難覆蓋大眾用戶的不同需求了。因此,智能化、個性化、領域化的搜索引擎技術應運而生,垂直搜索引擎的研究成為了時下的熱點研究方向。在搭建垂直搜索引擎之前,最重要的環節是如何利用主題爬蟲從浩瀚的互聯網中抓取到相關主題領域的信息內容,獲取目標主題領域準確而全面的學術資源信息。互聯網信息是在快速更新的,各學科也不斷出現新名詞、新概念、新思想;如何使主題爬蟲具有自學習功能,以適應互聯網信息的快速更新呢。
對文獻信息服務機構來說,如大學的圖書館、科技情報站等,獲取網上文獻信息為相關人員推送對應專業相關的資源成為重要工作。目前利用基于LDA的主題爬蟲獲取資源的方法,都是針對某個學術研究團隊或技術開發團隊的需求,設計的主題爬蟲被定義只對某個學術領域或技術領域,或者說針對單一主題進行抓取。在主題爬蟲一次爬行的時間段內只能提供單一領域或者說單一主題的學術或技術資源。那么,如何使主題爬蟲一次爬行同時獲取多個學術領域或技術領域或者說多個主題的學術或技術資源,以同時為多個學術研究團隊或技術開發團隊提供各自所需的學術或技術資源,同時又能保證學術或技術資源的對應性與資源范圍廣度滿足多個學術研究團隊或技術開發團隊提供各自所需。
本發明正是為了解決上述技術問題。
發明內容
本發明所要解決的技術問題是針對上述技術現狀,提供一種基于LDA的學術資源獲取方法。本發明針對現有技術存在的不足,在學術資源獲取方法方面提出基于LDA的學術資源主題爬蟲,爬蟲主題相似度計算采用VSM和SSRM相結合的方法,以更精準有效地在海量學術資源中獲取科研用戶最感興趣主題的相關資料。
本發明解決上述技術問題所采用的技術方案為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于寧波大學,未經寧波大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611128684.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種條目提取方法和裝置
- 下一篇:圖片推送方法及裝置





