[發明專利]基于人工智能自動識別社區問答論壇中的正確回答的方法在審
| 申請號: | 201911058818.8 | 申請日: | 2019-11-01 |
| 公開(公告)號: | CN110825930A | 公開(公告)日: | 2020-02-21 |
| 發明(設計)人: | 孫海峰;王晶;戚琦;王敬宇;郭令奇;馬兵;杜純寧 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/9032 | 分類號: | G06F16/9032;G06F16/906;G06F16/951 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 人工智能 自動識別 社區 問答 論壇 中的 正確 回答 方法 | ||
1.基于人工智能自動識別社區問答論壇中的正確回答的方法,其特征在于:所述方法包括下列操作步驟:
(1)數據集建立的過程,具體內容是:先用爬蟲軟件爬取大量的問答貼內容;在爬取后,將所述問答貼內容以提問和單個回答組成的文本對的形式進行數據存儲;然后對前述存儲的數據進行數據清洗,再進行人工標注,建立數據集;
(2)使用深度學習的方法抽取文本對的信息特征,具體內容是:將步驟(1)中獲得的數據集作為訓練集訓練深度學習模型,然后用所述的深度學習模型提取文本對的語氣,關鍵詞,語法結構等特征;
(3)使用規則提取提問和回答的其他特征,具體內容是:計算提問與回答發布的天數差、利用TF-IDF計算單個回答與當前提問的相似程度、利用TF-IDF計算單個回答與當前提問的其他回答的相似程度等特征,將這些特征與步驟(2)中得到的特征拼接成特征向量;
(4)訓練機器學習分類模型并預測新帖,具體內容是:將步驟(3)獲得的特征向量對機器學習分類模型進行訓練;訓練完成后對新帖進行預測,先用爬蟲爬取新帖的全部內容并存儲,之后按照步驟(2)和步驟(3)抽取特征組成向量再用所述的機器學習分類模型進行預測,選取概率最高的前n個回答,n為自然數,n不大于回答的總個數。
2.根據權利要求1所述的基于人工智能自動識別社區問答論壇中的正確回答的方法,其特征在于:所述步驟(1)的具體內容包括如下操作步驟:
(11)使用爬蟲爬取網站的信息,將帖子提問,回答,提問用戶,回答用戶,發帖時間等信息存儲,也可以從其他類似數據集中獲得數據,一并進行整理;
(12)遍歷并用“NULL”填充為空的屬性,統一文本的最大長度,清洗干擾數據;
(13)將上一步驟中獲得的數據以問題和單個回答以文本對的形式存儲,進行人工標注。
3.根據權利要求1所述的基于人工智能自動識別社區問答論壇中的正確回答的方法,其特征在于:所述步驟(2)的具體內容包括如下操作步驟:
(21)使用BERT模型并根據步驟(1)中得到的數據進行微調訓練;BERT模型將輸入的文本內容進行字節編碼、片段編碼和位置編碼;在微調訓練結束后,將微調后的模型存儲;
(22)將步驟(21)中得到的三個編碼層的向量相加后進行分類,獲得單個提問和單個回答的分類結果,所述分類結果中含有BERT模型學習到文本中的語氣,關鍵詞等文本特征。
4.根據權利要求1所述的基于人工智能自動識別社區問答論壇中的正確回答的方法,其特征在于:所述步驟(3)的具體內容包括如下操作步驟:
(31)在所述數據集中讀取當前提問和其回答的時間,計算天數差,即天數差=提問的時間-回答提問的時間,使用TF-IDF詞頻-逆文件頻率算法來計算單個回答和提問的相似度;
(32)根據步驟(2)中所得到對所有回答的分類結果,計算每個回答與它當前提問的概率最高的回答之間的相似度,具體方法是使用TF-IDF詞頻-逆文件頻率算法來計算所述相似度,所述概率最高的回答即優秀回答;
(33)將前述獲得的天數差特征、相似度特征和步驟(2)中獲得的特征值拼接成特征向量,所述特征向量的格式為[BERT預測概率,當前回答和優秀回答的相似度,回答和提問的相似度,天數差]。
5.根據權利要求1所述的基于人工智能自動識別社區問答論壇中的正確回答的方法,其特征在于:所述步驟(4)的具體內容包括如下操作步驟:
(41)選取SVM模型作為機器學習分類模型,根據步驟(3)獲得的特征向量對所述機器學習分類模型進行訓練;
(42)獲得目標帖的相關信息,包括但不限于提問內容、回答內容、發帖時間,按照步驟(1)的存儲格式,將提問和單個回答以文本對的形式存儲;
(43)根據上一步驟獲得的文本數據,使用在步驟(2)中微調好的BERT模型對所述目標貼進行預測,再按照步驟(3)的方法計算天數差、相似度等特征之后組合成特征向量,特征向量格式與步驟(3)中組成的特征向量格式相同,特征向量的個數與回答個數相等;
(44)使用步驟(41)中訓練好的機器學習分類模型對所述特征向量進行預測,輸出前n個概率最高的回答供用戶參考,n為自然數,n不大于回答的總個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911058818.8/1.html,轉載請聲明來源鉆瓜專利網。





