[發(fā)明專利]基于人工智能自動識別社區(qū)問答論壇中的正確回答的方法在審
| 申請?zhí)枺?/td> | 201911058818.8 | 申請日: | 2019-11-01 |
| 公開(公告)號: | CN110825930A | 公開(公告)日: | 2020-02-21 |
| 發(fā)明(設(shè)計)人: | 孫海峰;王晶;戚琦;王敬宇;郭令奇;馬兵;杜純寧 | 申請(專利權(quán))人: | 北京郵電大學(xué) |
| 主分類號: | G06F16/9032 | 分類號: | G06F16/9032;G06F16/906;G06F16/951 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 人工智能 自動識別 社區(qū) 問答 論壇 中的 正確 回答 方法 | ||
基于人工智能自動識別社區(qū)問答論壇中的正確回答的方法,包括下列操作步驟:(1)數(shù)據(jù)集建立的過程;(2)使用深度學(xué)習(xí)的方法抽取文本對的信息特征;(3)使用規(guī)則提取提問和回答的其他特征,將這些特征與步驟(2)中得到的特征拼接成特征向量,特征向量的格式為[BERT預(yù)測概率,當前回答和優(yōu)秀回答的相似度,回答和提問的相似度,天數(shù)差];(4)訓(xùn)練機器學(xué)習(xí)分類模型并預(yù)測新帖。本發(fā)明的方法能夠快速、準確的判斷出一個帖子下可能為正確答案的回答,省時省力。
技術(shù)領(lǐng)域
本發(fā)明涉及基于人工智能自動識別社區(qū)問答論壇中的正確回答的方法,屬于自然語言處理技術(shù)領(lǐng)域,特別是屬于基于人工智能的自然語言處理的論壇問答技術(shù)領(lǐng)域。
背景技術(shù)
隨著眾多社區(qū)論壇的出現(xiàn),與之相關(guān)的任務(wù)在最近變得越來越重要。隨著這些論壇每天涌入很多新問題,與這些新問題相關(guān)的留言大部分有一定的錯誤,對他人造成了一定的誤導(dǎo)作用。這些錯誤的留言如果用人工鑒別的話,不光需要某些領(lǐng)域比較權(quán)威的專家,還費時費力。因此,如何快速有效的判別新問題下的答案是否對解決該問題有幫助,是解決論壇為解決問題不斷增多的有效途徑。
人工智能技術(shù)和自然語言處理技術(shù)在近幾年獲得很大的發(fā)展,如何利用人工智能技術(shù)和自然語言處理技術(shù)來實現(xiàn)對回答的好壞進行甄別成了亟需解決的一個技術(shù)難題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是發(fā)明一種基于人工智能自動識別社區(qū)問答論壇中的正確回答的方法,實現(xiàn)對問答貼中的回答進行辨別,選擇出優(yōu)秀的答案留給他人參考。
為了達到上述目的,本發(fā)明提出了基于人工智能自動識別社區(qū)問答論壇中的正確回答的方法,所述方法包括下列操作步驟:
(1)數(shù)據(jù)集建立的過程,具體內(nèi)容是:先用爬蟲軟件爬取大量的問答貼內(nèi)容;在爬取后,將所述問答貼內(nèi)容以提問和單個回答組成的文本對的形式進行數(shù)據(jù)存儲;然后對前述存儲的數(shù)據(jù)進行數(shù)據(jù)清洗,再進行人工標注,建立數(shù)據(jù)集;
(2)使用深度學(xué)習(xí)的方法抽取文本對的信息特征,具體內(nèi)容是:將步驟(1)中獲得的數(shù)據(jù)集作為訓(xùn)練集訓(xùn)練深度學(xué)習(xí)模型,然后用所述的深度學(xué)習(xí)模型提取文本對的語氣,關(guān)鍵詞,語法結(jié)構(gòu)等特征;
(3)使用規(guī)則提取提問和回答的其他特征,具體內(nèi)容是:計算提問與回答發(fā)布的天數(shù)差、利用TF-IDF計算單個回答與當前提問的相似程度、利用TF-IDF計算單個回答與當前提問的其他回答的相似程度等特征,將這些特征與步驟(2)中得到的特征拼接成特征向量;
(4)訓(xùn)練機器學(xué)習(xí)分類模型并預(yù)測新帖,具體內(nèi)容是:將步驟(3)獲得的特征向量對機器學(xué)習(xí)分類模型進行訓(xùn)練;訓(xùn)練完成后對新帖進行預(yù)測,先用爬蟲爬取新帖的全部內(nèi)容并存儲,之后按照步驟(2)和步驟(3)抽取特征組成向量再用所述的機器學(xué)習(xí)分類模型進行預(yù)測,選取概率最高的前n個回答,n為自然數(shù),n不大于回答的總個數(shù)。
所述步驟(1)的具體內(nèi)容包括如下操作步驟:
(11)使用爬蟲爬取網(wǎng)站的信息,將帖子提問,回答,提問用戶,回答用戶,發(fā)帖時間等信息存儲,也可以從其他類似數(shù)據(jù)集中獲得數(shù)據(jù),一并進行整理;
(12)遍歷并用“NULL”填充為空的屬性,統(tǒng)一文本的最大長度,清洗干擾數(shù)據(jù);
(13)將上一步驟中獲得的數(shù)據(jù)以問題和單個回答以文本對的形式存儲,進行人工標注。
所述步驟(2)的具體內(nèi)容包括如下操作步驟:
(21)使用BERT模型并根據(jù)步驟(1)中得到的數(shù)據(jù)進行微調(diào)訓(xùn)練;BERT模型將輸入的文本內(nèi)容進行字節(jié)編碼、片段編碼和位置編碼;在微調(diào)訓(xùn)練結(jié)束后,將微調(diào)后的模型存儲。
(22)將步驟(21)中得到的三個編碼層的向量相加后進行分類,獲得單個提問和單個回答的分類結(jié)果,所述分類結(jié)果中含有BERT模型學(xué)習(xí)到文本中的語氣,關(guān)鍵詞等文本特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué),未經(jīng)北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911058818.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 使用基于云端的度量迭代訓(xùn)練人工智能的系統(tǒng)
- 一種人工智能轉(zhuǎn)人工智能再轉(zhuǎn)人工方案
- O-RAN系統(tǒng)中的人工智能模型處理方法和裝置
- 人工智能傷口評估方法及智能終端
- 人工智能倫理風(fēng)險與防范虛擬仿真方法、系統(tǒng)和機器人
- 一種基于人工智能基礎(chǔ)資源與技術(shù)調(diào)控系統(tǒng)及方法
- 基于人工智能倫理備選規(guī)則的人工智能倫理風(fēng)險防范方法
- 人工智能倫理風(fēng)險辨識防范虛擬仿真實驗方法和機器人
- 基于人工智能體決策的人工智能倫理風(fēng)險辨識和防范方法
- 基于算法選擇的人工智能倫理風(fēng)險辨識防范方法和機器人





