[發(fā)明專利]智能問答方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201610125795.8 | 申請(qǐng)日: | 2016-03-04 |
| 公開(公告)號(hào): | CN107153639A | 公開(公告)日: | 2017-09-12 |
| 發(fā)明(設(shè)計(jì))人: | 盧菁;馬佳樂;葉茂;湯幟;黃肖俊;徐劍波 | 申請(qǐng)(專利權(quán))人: | 北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 北京路浩知識(shí)產(chǎn)權(quán)代理有限公司11002 | 代理人: | 李相雨 |
| 地址: | 100871 北京*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 智能 問答 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,尤其涉及一種智能問答方法及系統(tǒng)。
背景技術(shù)
智能問答系統(tǒng)是基于海量互聯(lián)網(wǎng)數(shù)據(jù)推理和對(duì)語言深度語義理解的智能系統(tǒng)。智能問答機(jī)器系統(tǒng)不僅可以回答知識(shí)類的問題,還可用于醫(yī)療、教育、生活、科技等各種與人們生活息息相關(guān)的領(lǐng)域,大幅提升人們獲取信息的效率。
現(xiàn)有的智能問答系統(tǒng)主要是基于社區(qū)的問答,通過對(duì)歷史用戶問題/回答數(shù)據(jù)進(jìn)行挖掘,計(jì)算用戶問題與問答站點(diǎn)中已有的問題之間的相似度,返回相似度高的用戶回答。
上述智能問答系統(tǒng)存在的缺陷在于:語句被當(dāng)成詞袋模型進(jìn)行處理,導(dǎo)致缺乏對(duì)句法結(jié)構(gòu)的理解;對(duì)一些特殊情況缺乏有效的處理能力,使得系統(tǒng)缺乏魯棒性。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供一種智能問答方法及系統(tǒng),通過對(duì)字詞進(jìn)行處理可以提高對(duì)特殊情況的處理能力,提高方法的魯棒性。
第一方面,本發(fā)明提供了一種智能問答方法,包括:
從用戶終端獲取用戶輸入的問題并使用分詞器對(duì)其分詞;
將分詞后的用戶輸入的問題與問答庫(kù)中的每個(gè)問題依次比較,以獲取所述問答庫(kù)中的每個(gè)問題的相似度;所述問答庫(kù)通過選取預(yù)設(shè)數(shù)量的由一一對(duì)應(yīng)的問題與答案構(gòu)成的問答對(duì)構(gòu)建;
對(duì)所述問答庫(kù)中的每個(gè)問題的相似度進(jìn)行排序,將相似度排序靠前的N個(gè)問答對(duì)傳輸至所述用戶終端,N為正整數(shù)。
可選地,所述相似度是通過對(duì)詞義相似度、語序相似度和句子長(zhǎng)度維數(shù)加權(quán)求和所得到的數(shù)值。
可選地,所述將分詞后的用戶輸入的問題與問答庫(kù)中的每個(gè)問題依次比較,以獲取所述問答庫(kù)中的每個(gè)問題的相似度的步驟包括:
根據(jù)所述分詞在所述問答庫(kù)中檢索候選問題,并對(duì)所述候選問題進(jìn)行排序;
從排序后的候選問題中取前M個(gè)問答對(duì)與所輸入的問題進(jìn)行相似度計(jì)算,M>N。
可選地,使用分詞器對(duì)所述輸入的問題進(jìn)行分詞的步驟之后,所述方法還包括:
將所述輸入的問題的分詞與停用表進(jìn)行匹配,去除上述分詞中的停用詞。
可選地,采用TF-IDF算法檢索候選問答對(duì)并對(duì)候選問答對(duì)進(jìn)行排序。
可選地,所述從排序后的候選問題中取前M個(gè)問答對(duì)與所輸入的問題進(jìn)行相似度計(jì)算的步驟包括:
從輸入的問題與問答庫(kù)中每個(gè)問題選擇連續(xù)出現(xiàn)的至少兩個(gè)分詞;
計(jì)算所述至少兩個(gè)分詞的內(nèi)聚程度;所述內(nèi)聚程度InnerLevel通過以下公式計(jì)算:
式中,P(A)表示分詞A出現(xiàn)的概率;P(B)表示分詞B出現(xiàn)的概率;P(AB)表示分詞A與分詞B同時(shí)出現(xiàn)的概率;
將內(nèi)聚程度超過預(yù)設(shè)內(nèi)聚程度值的分詞進(jìn)行合并。
可選地,所述將內(nèi)聚程度超過預(yù)設(shè)內(nèi)聚程度值的分詞進(jìn)行合并的步驟之后,所述方法還包括:
采用TF-IDF算法對(duì)M個(gè)問答對(duì)進(jìn)行排序,并且每個(gè)分詞的得分作為詞語相似度權(quán)重。
可選地,本發(fā)明實(shí)施例提供的智能問答方法還包括:
當(dāng)從所述問題庫(kù)中找到的候選問答對(duì)為N1個(gè)時(shí),N1<N,采用拒絕算法對(duì)該N1個(gè)問答對(duì)進(jìn)行剔除;
所述拒絕算法為:
除去形容詞與副詞后,若第一候選問答對(duì)中不包含詞語動(dòng)態(tài)權(quán)重排序靠前的前N2個(gè)分詞及其擴(kuò)展詞時(shí),拒絕該問答對(duì);
或者,
計(jì)算該N1個(gè)候選問答對(duì)中前面一個(gè)與后面一個(gè)候選問答對(duì)的得分差值百分比;
當(dāng)該得分差值百分比小于預(yù)設(shè)得分差值百分比時(shí),則拒絕后面一個(gè)候選問答對(duì)以其之后的所有問答對(duì)。
第二方面,本發(fā)明實(shí)施例還提供了一種智能問答系統(tǒng),基于上文所述的智能問答方法實(shí)現(xiàn),所述系統(tǒng)包括:
問答庫(kù)構(gòu)建模塊,用于選取預(yù)設(shè)數(shù)量的由一一對(duì)應(yīng)的問題與答案構(gòu)成的問答對(duì)構(gòu)建問答庫(kù);
分詞獲取模塊,用于從用戶終端獲取用戶輸入的問題并使用分詞器對(duì)其分詞;
相似度計(jì)算模塊,用于將分詞后的用戶輸入的問題與問答庫(kù)中的每個(gè)問題依次比較,以獲取所述問答庫(kù)中的每個(gè)問題的相似度;
問答對(duì)返回模塊,用于對(duì)所述問答庫(kù)中的每個(gè)問題的相似度進(jìn)行排序,將相似度排序靠前的N個(gè)問答對(duì)傳輸至所述用戶終端。
可選地,所述相似度計(jì)算模塊用于執(zhí)行以下步驟:
根據(jù)所述分詞在所述問答庫(kù)中檢索候選問題,并對(duì)所述候選問題進(jìn)行排序;
從排序后的候選問題中取前M個(gè)問答對(duì)與所輸入的問題進(jìn)行相似度計(jì)算,M<N。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司,未經(jīng)北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610125795.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 用于生成動(dòng)態(tài)幫助文檔的方法和系統(tǒng)
- 建立問答文本評(píng)價(jià)模型與評(píng)價(jià)問答文本的方法、裝置
- 基于學(xué)生問答方式的在線教育系統(tǒng)
- 一種問答輸入的智能提示方法、裝置和終端設(shè)備
- 一種通用的智能問答自動(dòng)化運(yùn)維系統(tǒng)及方法
- 自動(dòng)問答方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種基于知識(shí)圖譜的智能問答引擎及其實(shí)現(xiàn)方法
- 基于人工智能技術(shù)的類腦問答系統(tǒng)
- 一種基于語義分析技術(shù)的專業(yè)制度檔案問答機(jī)器人系統(tǒng)
- 一種視覺問答方法、系統(tǒng)及服務(wù)器
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





