[發明專利]一種基于區域卷積神經網絡的問答社區標簽推薦方法有效
| 申請號: | 201811139465.X | 申請日: | 2018-09-28 |
| 公開(公告)號: | CN109086463B | 公開(公告)日: | 2022-04-29 |
| 發明(設計)人: | 劉進;周平義;儲瑋;李兵;崔曉暉;陳旭;施澤洋;彭新宇;趙發凱 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/9535;G06N3/04 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 區域 卷積 神經網絡 問答 社區 標簽 推薦 方法 | ||
本發明涉及一種基于區域卷積神經網絡的問答社區標簽推薦方法,具體是涉及對問答社區中的問題數據集先進行數據預處理,再通過建立詞典生成句向量,在卷積層中,對數據集中的每個問題中的每個單詞都進行詞嵌入處理,然后用區域卷積神經網絡模型對句向量進行訓練,最后利用訓練完成的模型對問答社區中的新問題進行標簽推薦。具有如下突出特點和優點:第一,引入雙向循環卷積層,結合單詞的上下文對單詞進行表示,可以更好的反應句子中單詞之間的聯系,雙向循環結構可以準確抓取單詞的上下文;第二,卷積神經網絡處理大型圖片的能力使得其可以處理較大的數據集;第三,卷積神經網絡在圖片處理中的遷移性,使得其用在標簽推薦中也能有很好的遷移性。
技術領域
本發明涉及一種基于區域卷積神經網絡的問答社區標簽推薦方法。
背景技術
隨著互聯網的快速發展,越來越多的IT愛好者在互聯網上尋求幫助,分享經驗,以及學習新技術知識,由此出現了各種開發者問答社區,像StackOverflow和Freeecode這樣的軟件信息站點可以為全世界的開發者提供信息共享和交流。
為了便于正確的分類和高效的搜索,開發者需要為他們的發布提供標簽。然而,標簽本質上是一個不協調的過程,不僅取決于開發者對自己帖子的理解,還取決于其他因素,包括開發者的英語技能和對現有帖子的了解。
因此,即使現有的標簽已經足夠,開發者也不斷創建新的標簽。最終的效果是,隨著時間的推移,越來越多的標簽具有嚴重的冗余性,并有更多的新標簽發布,從而導致任何基于標簽的算法效率和準確性都會降低。
目前國內外針對問答社區的標簽推薦,有基于模糊集合理論,考慮了系統的動態演化的標簽推薦方法,有包含多標簽排名組件,基于相似度的排名組件和基于標簽項的排名組件的標簽推薦方法,還有基于貝葉斯推理組件和頻率推理組件的標簽推薦方法。
上述基于模糊集合理論和相似度排名及貝葉斯推理的方法存在以下不足:
(1)它們應用限制在相對較小的數據集中;
(2)它們是不可擴展的,并且不能夠處理問答社區中的連續更新;
(3)它們的召回率和精度指標表現并不理想。
發明內容
本發明的目的在于針對目前問答社區標簽推薦方面的不足,提供一種基于區域卷積神經網絡的標簽推薦方法,對問答社區中的問題數據集先進行數據預處理,再通過建立詞典生成句向量,在卷積層中,對數據集中的每個問題中的每個單詞都進行詞嵌入處理,然后用區域卷積神經網絡模型對句向量進行訓練,最后利用訓練完成的模型對問答社區中的新問題進行標簽推薦。
為了達到上述的目的,本發明的構思如下:首先使用scrapy框架從StackOverflow等問答社區上獲取問題數據,并用腳本對數據進行清洗,然后對清洗后的數據建立詞典并利用詞典生成訓練集矩陣,利用Mikilovo方法將訓練集的矩陣變成三維矩陣,再用區域卷積神經網絡模型對句向量進行訓練以得到合適的模型參數,最后利用訓練得到的模型新問題進行標簽推薦。
根據以上構思,本發明采用的一個技術方案是:提供一種基于區域卷積神經網絡的問答社區標簽推薦方法,其特征在于:包括以下步驟:
步驟1、使用scrapy框架從問答社區上獲取問題數據集和標簽集;
步驟2、對每條問題數據進行數據清洗,去除問題中的標點符號,多余空格和代碼,只留下單詞,并將單詞全部轉化為小寫,得到清洗后的數據集data;
步驟3、將數據集data分為規模為n的訓練集train和規模為m的測試集test;
步驟4、對訓練集train建立詞典D:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811139465.X/2.html,轉載請聲明來源鉆瓜專利網。





