[發明專利]一種基于循環神經網絡的社區問答專家推薦方法有效
| 申請號: | 201711077790.3 | 申請日: | 2017-11-06 |
| 公開(公告)號: | CN108021616B | 公開(公告)日: | 2020-08-14 |
| 發明(設計)人: | 王健;孫吉慶;林鴻飛 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/284;G06F40/30;G06F40/253 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 王丹;李洪福 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 循環 神經網絡 社區 問答 專家 推薦 方法 | ||
1.一種基于循環神經網絡的社區問答專家推薦方法,其特征在于,包括如下步驟:
步驟1、獲取待處理問答社區所對應的一定時期內的Stack Overflow數據集中的數據并進行預處理;所述數據至少包括Stack Overflow數據集中標簽為R語言的語料;
步驟2、對所述問答社區所對應的全部用戶進行候選專家篩選,所述候選專家為待處理問答社區所對應的一定時期內的Stack Overflow數據集中其至少一個問題的回答被評選為最佳回答的用戶,所述篩選至少包括基于統計分析的方法,對所述用戶以其回答被評選為最佳回答的數量自多至少的順序進行排列后,按照所設定篩選數量依次選擇出相應的用戶作為候選專家;
步驟3、構建各所述候選專家所對應的專家用戶檔案即獲取每一所述候選專家回答過的問題中被選為最佳答案的全部的問題數據,并以所獲取的問題數據中的問題的標簽、問題的標題、問題的主體內容以及三者間的任意組合形式作為檔案標識組建對應的專家用戶檔案;
步驟4、基于特定領域知識的詞向量訓練獲得詞向量查找表;
步驟5、基于循環神經網絡模型進行特征表示學習并構建社區問答專家推薦模型;
利用循環神經網絡來自動訓練和學習專家用戶檔案中的特征并將所學習到的特征集F輸入softmax分類層以確定出社區問答專家推薦模型,其具體包括下述子步驟:
步驟51、獲取每個候選專家所對應的專家用戶檔案的單詞所組成的序列,并基于所述向量查找表將序列中的每個單詞映射成向量即詞向量;同時某一單詞若未能找到對應的詞向量,則采用隨機初始化的方式進行設定并以所得到的全部詞向量構建候選專家用戶檔案矩陣X,其中k表示詞向量的維度,n表示某一候選專家的專家用戶檔案中所含有的單詞數量,即為一個候選專家的用戶檔案的長度;
步驟52、將所獲得的候選專家用戶檔案矩陣X輸入到多種不同的循環神經網絡進行特征學習,確定出社區問答專家推薦模型;所述循環神經網絡至少包括LSTM循環神經網絡、GRU循環神經網絡、雙向LSTM循環神經網絡即Bi-LSTM、雙向GRU循環神經網絡即Bi-GRU、帶注意力機制的Bi-LSTM循環神經網絡和帶注意力機制的Bi-GRU循環神經網絡;
步驟6、基于構建社區問答專家推薦模型,確定待處理問答社區中的新的問題所對應的專家推薦順序。
2.根據權利要求1所述的方法,其特征在于,
步驟1中的數據預處理,具體包括以下子步驟:
步驟11、確定語料中所需關注的語料內容并進行抽取,所述語料內容至少包括回答問題的文本數據、回答問題的ID,最佳回答者的ID,回答問題的標簽,回答問題的標題以及回答問題的主體內容;
步驟12、若所述回答問題的主體內容中涉及代碼內容則對所述代碼內容進行去除處理;
步驟13、對所述回答問題的文本數據進行去除停用詞及標點符號處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711077790.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:顯示裝置及用于掃描顯示裝置的子像素陣列的方法
- 下一篇:冰箱





