[發明專利]一種通過深度卷積神經網絡進行社區問答網站問題質量預測的方法有效
| 申請號: | 201811013087.0 | 申請日: | 2018-08-31 |
| 公開(公告)號: | CN109165289B | 公開(公告)日: | 2022-08-16 |
| 發明(設計)人: | 魏筆凡;鄭元浩;劉均;張鐸;吳蓓;張玲玲;郭朝彤;吳科煒;李鴻軒 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/35 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 范巍 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通過 深度 卷積 神經網絡 進行 社區 問答 網站 問題 質量 預測 方法 | ||
1.一種通過深度卷積神經網絡進行社區問答網站問題質量預測的方法,其特征在于:
1)爬取社區問答網站中課程的問題網頁數據集
利用爬蟲程序從社區問答網站的動態網頁中獲取課程的問題頁面和提問者頁面,得到課程的問題網頁數據集;所述步驟1)中,首先通過HTML解析獲得主題頁面中指向問題頁面的超鏈接,并根據該超鏈接爬取問題頁面;然后,通過HTML解析獲得問題頁面中指向提問者頁面的超鏈接,并根據該超鏈接爬取提問者頁面;
所述步驟1)具體包括以下步驟:
1.1)根據課程的主題詞集合,將搜索鏈接和主題詞進行字符串拼接,從而得到主題頁面的超鏈接;
1.2)根據主題頁面的超鏈接,解析主題頁面中問題列表的HTML標簽,得到問題頁面的超鏈接;選擇出與主題相關性較高的問題頁面超鏈接,根據該超鏈接的集合爬取問題頁面,將爬取的問題頁面加入問題網頁數據集QP;
1.3)根據與主題相關性較高的問題頁面的超鏈接,解析該問題頁面中提問者的HTML標簽,得到提問者頁面的超鏈接,根據該超鏈接的集合爬取提問者頁面,將爬取的提問者頁面加入問題網頁數據集QP;
2)抽取問題網頁數據集中的問題特征集合
通過使用HTML解析工具分別對問題網頁數據集中的問題頁面和提問者頁面進行解析,將通過所述解析抽取的決定問題質量的相關特征構成問題特征集合,所述相關特征包括問題社區特征、問題文本特征和提問者特征;
3)定義多門課程的問題質量計算公式
通過分析社區問答網站對問題質量的定義,確定用于定義問題質量的問題社區特征,并基于問題社區特征之間的關系定義課程的問題質量,得到課程的問題質量計算公式;
4)構建深度卷積神經網絡進行問題質量的預測
通過向量化表示問題文本特征和提問者特征,得到問題特征矩陣,由問題特征的向量化表示輸入連接層,并進一步從全連接層輸出得到問題質量分類標簽集合;將問題特征矩陣與問題質量計算公式一起作為深度卷積神經網絡的輸入,從而訓練得到問題質量的分類器;
步驟4中,對于向量化表示問題文本特征集合中的問題標題qti和問題正文qci,問題標題qti表示為一個維度為20×200詞向量矩陣,問題正文qci表示為一個維度為200×200詞向量矩陣;針對問題標題qti設計的深度網絡包含2個卷積層和2個子采樣層,抽取問題標題qti中的高層語義特征;針對問題正文qci設計的深度網絡包含4個卷積層和4個子采樣層,抽取問題正文qci中的高層語義特征,高層語義特征與提問者特征在連接層進行結合,然后輸入到全連接層;
提問者特征為提問者的聲望值、回答數、問題數、瀏覽數、支持票數和反對票數。
2.根據權利要求1所述一種通過深度卷積神經網絡進行社區問答網站問題質量預測的方法,其特征在于:所述步驟2)中,通過設計問題頁面中問題社區特征的抽取規則,并使用該規則解析問題頁面側邊欄中的社區信息,得到問題社區特征,所述社區信息包括問題分數、問題回答數和問題瀏覽數;通過設計問題頁面中問題文本特征的抽取規則,并使用該規則解析問題頁面中的問題內容信息,得到問題文本特征,所述問題內容信息包括問題標題和問題正文;通過設計提問者頁面的抽取規則,并使用該規則解析提問者頁面的個人信息,得到提問者特征,所述個人信息包括提問者的聲望值、回答數、問題數、瀏覽數、支持票數和反對票數;基于解析得到的問題社區特征、問題文本特征和提問者特征,構建問題網頁數據集的問題特征集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811013087.0/1.html,轉載請聲明來源鉆瓜專利網。





