[發明專利]面向社區問答的問題分類方法及系統有效
| 申請號: | 202010122754.X | 申請日: | 2020-02-27 |
| 公開(公告)號: | CN111353032B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 陳羽中;張衍坤 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35;G06N3/08;G06N3/04 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 丘鴻超;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 社區 問答 問題 分類 方法 系統 | ||
本發明涉及一種面向社區問答的問題分類方法及系統,該方法包括以下步驟:步驟A:采集網絡問答社區中用戶所提問題以及對應的問題類別,構建問題分類訓練集
技術領域
本發明屬于自然語言處理與智能問答應用領域,具體涉及一種面向社區問答的問題分類方法及系統。
背景技術
問答(Question Answering,QA)系統起源于圖靈測試,隨著時間的發展,問答系統領域也發生了重大變革。按照處理的數據格式不同,問答系統分別經歷了結構化知識庫階段、無結構文本階段、基于問題.答案數據階段。隨著互聯網的普及,網上出現了大量的文本和各種大型論壇,這為智能問答系統的興起奠定了基礎。在問答系統中,問題分類逐漸成了問答系統的一個重要研究分支。
在早期,一些問題分類的方法主要在特定領域下采用模板或者規則來對問題進行分類,如依照一些特定的疑問詞使用模板進行匹配,在一些問題分類任務上取得了一定的成果。除此之外,Yu等人通過半監督學習來進行問題分類,在數據集中協同使用未標注和已標注的數據,通過詞間的語義相似性作為特征分類,實驗結果得到較大的提高。 Xu等人基于樸素貝葉斯來使用漢語依存語法提取問題文本的句法特征進行問題分類,有效提高了問題分類的精度。
深度學習理論在答案抽取和排序任務上也有一定應用。Zhou等人將輸入序列先輸入CNN后,再輸入LSTM來得問題句子的表征向量,輸入到softmax中進行問題分類。 Wang等人則先使用LSTM來得到輸入問題文本序列的隱藏序列,再利用CNN模型來得到最終的表征向量,最后進行問題分類。
傳統CQA系統使用有監督學習,訓練問題分類模型,但該方法需要抽取復雜的文本特征,特征工程需要較多的工程經驗,很難在特征構造上做到最優,并且該方法在新的數據集上泛化性能較差,對新數據集往往需求重新進行特征抽取和特征工程。目前基于深度學習的方法通?;趩我坏木矸e神經網絡或循環神經網絡,或者串行結合卷積神經網絡和循環神經網絡,無法全面準確地提取影響問題分類精度的各項特征。
發明內容
本發明的目的在于提供一種面向社區問答的問題分類方法及系統,該方法及系統有利于提高社區問答中問題分類的準確性。
為實現上述目的,本發明采用的技術方案是:一種面向社區問答的問題分類方法,包括以下步驟:
步驟A:采集網絡問答社區中用戶所提問題以及對應的問題類別,構建問題分類訓練集TS;
步驟B:對問題分類訓練集TS中的問題進行字符級編碼和詞語級編碼,得到問題的表征向量,以此訓練基于雙通道神經網絡的深度學習網絡模型;
步驟C:問題分類系統接受用戶提交的問題,將問題輸入到訓練好的深度學習網絡模型中,輸出模型劃分的問題所述類別。
進一步地,所述步驟B具體包括以下步驟:
步驟B1:遍歷問題分類訓練集TS,TS中的每個訓練樣本表示為(q,y),其中q表示問題,y=c∈C表示問題q所屬的問題類別,C={1,2,...,L}為問題類別集合,1≤c≤L, L表示問題類別數;將問題q輸入深度學習網絡模型的字符級編碼模塊,得到問題q的字符向量序列
步驟B2:將問題q的字符向量序列輸入深度學習網絡模型的雙層Bi-LSTM網絡模塊,再輸入注意力模塊,得到問題q的表征向量
步驟B3:將問題q輸入深度學習網絡模型的詞語級編碼模塊,得到問題q的詞語級表征向量
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010122754.X/2.html,轉載請聲明來源鉆瓜專利網。





