[發明專利]一種基于LDA的學術資源獲取方法在審
| 申請號: | 201611128684.9 | 申請日: | 2016-12-09 |
| 公開(公告)號: | CN106777043A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 劉柏嵩;費晨杰;王洋洋;尹麗玲;高元 | 申請(專利權)人: | 寧波大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 寧波奧圣專利代理事務所(普通合伙)33226 | 代理人: | 程曉明 |
| 地址: | 315211 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lda 學術 資源 獲取 方法 | ||
1.一種基于LDA的學術資源獲取方法,所述學術資源為公布在互聯網上的電子文獻,使用由電腦運行的主題爬蟲,實現從互聯網上獲取歸屬于目標學術主題的電子文獻,其特征在于,同時使用由電腦運行的LDA主題模型,為所述LDA主題模型配置一個語料庫,語料庫的語料供所述LDA主題模型訓練使用,通過LDA主題模型計算得到主題爬蟲本次爬行的主題文檔,主題文檔為主題關聯詞的集合;所述主題爬蟲在普通網絡爬蟲的基礎上進一步包括主題確定模塊、相似度計算模塊、URL優先級排序模塊;主題爬蟲爬行過程中,主題爬蟲的主題確定模塊確定目標主題及其主題文檔,用所述主題文檔指導主題相似度的計算,相似度計算模塊對所爬取的頁面上每個錨文本并結合該頁面內容進行主題相似度計算及判斷,剔除錨文本結合該頁面的主題相似度小于設定閾值的超鏈接,選取錨文本結合該頁面的主題相似度大于設定閾值的URL,由主題爬蟲維護一個由已訪問網頁的超鏈接所指的未訪問網頁的URL隊列,該URL隊列根據相似度高低降序排列,主題爬蟲按URL隊列的排列順序先后不斷地訪問各URL的網頁,爬取相應學術資源,并不斷地將所爬取的學術資源分類標簽后存入數據庫,針對本次爬行的主題文檔,直至未訪問隊列URL為空;并提供學術資源數據庫開放的API供展示調用。
2.如權利要求1所述的學術資源獲取方法,將所述主題爬蟲每次所爬取的學術資源作為LDA主題模型訓練用的新的語料;不斷重復如權利要求1所述的主題爬蟲爬行過程;使得各主題文檔的所集合的主題關聯詞不斷得以補充更新,所爬取的學術資源不斷得以補充更新,為目標學術主題所獲取學術資源的查準率與查全率不斷提升。
3.如權利要求1所述的學術資源獲取方法,實現同時從互聯網上為多個關注不同學術主題的學術資源需求者分別獲取相關學術資源,其特征在于,所述學術主題為人為設定的多個學術主題,根據知識經驗人為給定各學術主題該學術主題的關健詞在互聯網上的相關網站搜集其相關學術資源,以所搜集到的相關學術資源作為供所述LDA主題模型訓練的初始語料庫;所述主題爬蟲為按學術主題數分布的多個分布式爬蟲,每個分布式爬蟲對應一個學術主題,各分布式爬蟲同時獲得多個學術主題的學術資源。
4.如權利要求1所述的學術資源獲取方法,其特征在于,所述學術主題為經過LDA主題模型訓練而成的涵蓋所有學科的多個學術主題,根據對所有學術領域的分類細化程度的具體需要人為確定一個對所有學術領域的分類數,該分類數作為學術主題數,根據操作者的知識經驗在互聯網上的相關網站隨機搜集足夠數量的文本資源,作為供所述LDA主題模型訓練的初始語料庫,所述LDA主題模型訓練后得到經LDA主題模型歸類的涵蓋所有學科的與所述學術主題數相對應的多個學術主題的主題文檔,閱讀各主題文檔的關聯詞欄目,根據知識經驗人為命名主題名;所述主題爬蟲為按學術主題數分布的多個分布式爬蟲,每個分布式爬蟲對應一個學術主題,各分布式爬蟲同時獲得多個學術主題的學術資源。
5.如權利要求1至4任一項所述的學術資源獲取方法,所述公布在互聯網上的電子文獻包括論文、期刊、新聞、專利文獻,其特征在于,將學術資源的摘要作為訓練語料庫,通過LDA主題模型計算得到主題及主題文檔,主題文檔指導主題爬蟲爬行過程中主題相似度的計算,后將爬取的內容分類標簽后存儲到數據庫中,作為LDA訓練模型新的語料,最后提供學術資源數據庫開放的API供展示調用;具體步驟如下:
步驟一、下載并預處理現有的多個領域的學術資源的摘要,根據學術領域人為分成不同類別,分別作為LDA多個主題的訓練語料;
步驟二、輸入LDA主題模型參數,LDA主題模型參數包括K,α,β,其中K的值表示主題數,α的值表示各個主題在取樣之前的權重分布,β的值表示各個主題對詞的先驗分布,訓練得到多個主題更細分的主題及主題文檔,每個主題文檔用于指導一個爬蟲;
步驟三、每個爬蟲從選取的優質的種子URL開始,維護一個未訪問網頁的超鏈接隊列,通過不斷計算網頁中的文本與網頁中錨文本鏈接所指的文本與主題的相似度,根據相似度排序更新URL隊列,并抓取與主題最相關的網頁內容;
步驟四、主題爬蟲獲取的學術資源,打上對應主題標簽后,存儲到數據庫中,并作為訓練LDA的新語料,用于主題文檔更新;
步驟五、提供學術資源數據庫開放的API,供展示調用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于寧波大學,未經寧波大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611128684.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種條目提取方法和裝置
- 下一篇:圖片推送方法及裝置





