[發明專利]一種基于循環神經網絡的社區問答專家推薦方法有效
| 申請號: | 201711077790.3 | 申請日: | 2017-11-06 |
| 公開(公告)號: | CN108021616B | 公開(公告)日: | 2020-08-14 |
| 發明(設計)人: | 王健;孫吉慶;林鴻飛 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/284;G06F40/30;G06F40/253 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 王丹;李洪福 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 循環 神經網絡 社區 問答 專家 推薦 方法 | ||
本發明公開了一種基于循環神經網絡的社區問答專家推薦方法,其包括:對數據進行預處理;對所述問答社區所對應的全部用戶進行候選專家篩選;構建各所述候選專家所對應的專家用戶檔案;基于特定領域知識的詞向量訓練獲得詞向量查找表;基于循環神經網絡模型進行特征表示學習并構建社區問答專家推薦模型;基于構建社區問答專家推薦模型,確定待處理問答社區中的新的問題所對應的專家推薦順序。本發明能有效地表示句子的語法和語義信息并且能夠挖掘句子級別的高層次特征,減少了人工干預,并能進行自動的訓練和學習。
技術領域
本發明涉及一種專家推薦方法,具體的說是涉及一種基于循環神經網絡的社區問答專家推薦方法。
背景技術
互聯網的快速發展改變了人們溝通的方式,更多的人越來越依賴他們的互聯網社區來獲取信息、咨詢專業知識,如公眾討論論壇,社區建設的百科全書(例如維基百科)和社區問答(CQA)網站。在所有這些互聯網服務中,利用CQA尋找自己所需的信息以及分享自己的專業知識最近在公眾中獲得了廣泛的普及。伴隨著社區問答網站上越來越多的問題得到解答,社區問答已經建立了一個大規模的、可以自由獲取知識的知識倉庫。它在滿足提問者的需求的同時,還可以為廣大的社會群體提供有價值的信息和知識。對于社區問答而言,從解答問題到構建知識倉庫這整個過程都可以從獲取高質量答案中獲利,所以得到高質量的回答對社區問答而言是一個非常重要的問題。為社區問答系統中新提出的問題推薦相應的專家能夠增強整個知識獲取的過程。目前關于專家推薦的方法有以下幾種:
一是基于詞共現的方法:在用戶給定問題之前,為每個在社區中注冊過的用戶建立用戶檔案,檔案中是用戶回答過的問題或者提問過的問題,當有其他用戶提問問題時,會根據用戶檔案預測最佳的回答者,對問題中的詞與出現過該詞的用戶檔案進行檢索并打分,這種方法需要包含用戶的查詢詞,比如:VSM模型、Language Model模型、BM25模型、布爾模型等等。這種方法雖然比較經典,但是它忽略了沒有共現詞、語義相關的用戶,不能很好地預測最佳回答者。
二是基于語義關聯方法:針對提問者提問的問題,可以利用問題的語義信息檢索用戶檔案,豐富查詢結果。這類方法主要有潛在語義模型(LSA)、概率潛在語義分析模型(PLSA),以及現在非常流行的文檔生成模型(LDA)等。這類方法在一定程度上提高了檢索的召回率,但是引入了大量噪音信息,降低了準確度。如何準確高效的預測最佳回答者成為社區問答亟待解決的問題。
發明內容
鑒于已有技術存在的缺陷,本發明的目的是要提供一種基于循環神經網絡的社區問答專家推薦方法,其能有效地表示句子的語法和語義信息并且能夠挖掘句子級別的高層次特征,減少了人工干預,并能進行自動的訓練和學習。
為了實現上述目的,本發明的技術方案:
一種基于循環神經網絡的社區問答專家推薦方法,其特征在于,包括如下步驟:
步驟1、獲取待處理問答社區所對應的一定時期內的Stack Overflow數據集中的數據并進行預處理;所述數據至少包括Stack Overflow數據集中標簽為R語言的語料;
步驟2、對所述問答社區所對應的全部用戶進行候選專家篩選,所述候選專家為待處理問答社區所對應的一定時期內的Stack Overflow數據集中其至少一個問題的回答被評選為最佳回答的用戶,所述篩選至少包括基于統計分析的方法,對所述用戶以其回答被評選為最佳回答的數量自多至少的順序進行排列后,按照所設定篩選數量依次選擇出相應的用戶作為候選專家;
步驟3、構建各所述候選專家所對應的專家用戶檔案即獲取每一所述候選專家回答過的問題中被選為最佳答案的全部的問題數據,并以所獲取的問題數據中的問題的標簽、問題的標題、問題的主體內容以及三者間的任意組合形式作為檔案對應的單詞組成的序列并組建對應的專家用戶檔案;
步驟4、基于特定領域知識的詞向量訓練獲得詞向量查找表;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711077790.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:顯示裝置及用于掃描顯示裝置的子像素陣列的方法
- 下一篇:冰箱





