[發(fā)明專利]一種基于PGM的問(wèn)題分類方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710662820.0 | 申請(qǐng)日: | 2017-08-04 |
| 公開(kāi)(公告)號(hào): | CN107423438A | 公開(kāi)(公告)日: | 2017-12-01 |
| 發(fā)明(設(shè)計(jì))人: | 王春輝 | 申請(qǐng)(專利權(quán))人: | 逸途(北京)科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京國(guó)坤專利代理事務(wù)所(普通合伙)11491 | 代理人: | 趙紅霞 |
| 地址: | 100015 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 pgm 問(wèn)題 分類 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種分類方法,具體為一種基于PGM的問(wèn)題分類方法,屬于計(jì)算機(jī)軟件領(lǐng)域。
背景技術(shù)
隨著信息技術(shù)突飛猛進(jìn)的發(fā)展,信息檢索的形式從原始的關(guān)鍵詞檢索發(fā)展到基于問(wèn)答形式的檢索,相應(yīng)的應(yīng)用比如百度知道、搜搜問(wèn)問(wèn)、知乎等問(wèn)答社區(qū)發(fā)展迅速,問(wèn)答系統(tǒng)以用戶自然語(yǔ)言作為輸入,根據(jù)一定規(guī)則,從大規(guī)模文檔集合中提取用戶所提問(wèn)題的可能答案,問(wèn)答系統(tǒng)具體涉及問(wèn)題分類、信息檢索和答案抽取三個(gè)部分,其中問(wèn)題分類負(fù)責(zé)限定答案空間、選擇答案策略;信息檢索根據(jù)問(wèn)題中的關(guān)鍵詞在文檔集合中搜索可能的結(jié)果;答案抽取根據(jù)問(wèn)題分類的限定和信息檢索的結(jié)果,尋找適合的答案作為問(wèn)答系統(tǒng)的響應(yīng)返回給用戶,其中的問(wèn)題分類過(guò)程對(duì)之后的答案抽取有重要的指導(dǎo)意義,好的問(wèn)題分類性能會(huì)使得問(wèn)答系統(tǒng)整體準(zhǔn)確性有很大幅度提升,與此相反,問(wèn)題分類性能不好,會(huì)直接影響后續(xù)答案抽取的結(jié)果,有文獻(xiàn)指出,問(wèn)答系統(tǒng)中36.4%的錯(cuò)誤來(lái)自于問(wèn)題分類過(guò)程。因此,對(duì)問(wèn)題分類的研究對(duì)問(wèn)答系統(tǒng)有重要價(jià)值。
問(wèn)題分類在一般意義上來(lái)說(shuō)屬于分類問(wèn)題,可以借鑒經(jīng)典的分類算法,例如最小距離分類器、K-means分類、樸素貝葉斯分類、支持向量機(jī)分類等,而問(wèn)題分類由于其特殊的應(yīng)用場(chǎng)景,又有別于普通分類問(wèn)題,對(duì)于問(wèn)題分類的現(xiàn)有研究主要基于兩種算法:基于規(guī)則的分類方法、基于機(jī)器學(xué)習(xí)的分類方法。
基于規(guī)則的問(wèn)題分類方法利用專家知識(shí)給每個(gè)問(wèn)題類型預(yù)設(shè)一組規(guī)則,當(dāng)待解決問(wèn)題符合這些規(guī)則時(shí),判定該問(wèn)題屬于該類別,該方法有較高的準(zhǔn)確性和針對(duì)性,解釋性強(qiáng),但主要缺點(diǎn)是人工建立和維護(hù)規(guī)則庫(kù)的工作量很大,依賴于專家知識(shí),靈活性差。
基于機(jī)器學(xué)習(xí)的問(wèn)題分類方法建立分類模型,并通過(guò)訓(xùn)練數(shù)據(jù)集訓(xùn)練得到模型參數(shù),進(jìn)而利用該模型對(duì)未知類型問(wèn)題進(jìn)行分類。該方法一般涉及SVM、樸素貝葉斯、最大熵等算法,方法具有很強(qiáng)的適應(yīng)性及很好的性能,是現(xiàn)在主流的問(wèn)題分類方法。
發(fā)明內(nèi)容
本發(fā)明的目的就在于為了解決上述問(wèn)題而提供一種基于PGM的問(wèn)題分類方法。
本發(fā)明通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)上述目的:一種基于PGM的問(wèn)題分類方法,包括建模和推理;所述建模通過(guò)手工分類訓(xùn)練數(shù)據(jù)集,并將已分類的標(biāo)記數(shù)據(jù)集帶入概率圖模型,構(gòu)建有向無(wú)環(huán)網(wǎng)(DAG)網(wǎng)絡(luò)結(jié)構(gòu),計(jì)算各觀測(cè)節(jié)點(diǎn)的先驗(yàn)概率和條件概率,得到模型條件概率分布(CPD),所述推理根據(jù)已有網(wǎng)絡(luò)結(jié)構(gòu)及CPD,基于Gibbs算法進(jìn)行貝葉斯推理,進(jìn)而得到問(wèn)題分類。
優(yōu)選的,步驟A,分詞并篩選,用中科院NLPIR漢語(yǔ)分詞系統(tǒng)對(duì)數(shù)據(jù)集中的語(yǔ)句進(jìn)行分詞處理,其分詞正確率可以達(dá)到97.58%,分詞后去除其中的助動(dòng)詞、語(yǔ)氣詞、連接詞等虛詞;
步驟B,問(wèn)題分類體系,根據(jù)對(duì)數(shù)據(jù)集中數(shù)據(jù)的分析,并結(jié)合現(xiàn)有分類方法的經(jīng)驗(yàn),將數(shù)據(jù)分為6個(gè)大類,73個(gè)小類;
步驟C,構(gòu)建概率圖模型,構(gòu)建概率圖G,其中G=<U,V>,U是節(jié)點(diǎn)的集合,每個(gè)節(jié)點(diǎn)代表一個(gè)詞語(yǔ)或者一個(gè)分類,V是邊的集合,每條有向邊代表一個(gè)句子中兩個(gè)詞的前后關(guān)系,邊上的值代表該邊對(duì)應(yīng)的前后關(guān)系組合出現(xiàn)的次數(shù);
步驟D,基于貝葉斯推理的分類方法,上述步驟利用訓(xùn)練數(shù)據(jù)集,構(gòu)建了概率圖模型DAG結(jié)構(gòu)并得到了條件概率分布CPD,至此完成了模型構(gòu)建階段任務(wù),將待分類數(shù)據(jù)代入概率圖模型并根據(jù)概率理論推測(cè)某種情況出現(xiàn)的概率,是推理階段需要完成的任務(wù)。
優(yōu)選的,所述步驟A中,避免將每個(gè)語(yǔ)句中的詞都加入概率圖中,對(duì)分詞之后的結(jié)果進(jìn)行計(jì)數(shù),計(jì)算每個(gè)詞的TF值,設(shè)定TF超過(guò)一定閾值的詞參與構(gòu)建概率圖網(wǎng)絡(luò)。
優(yōu)選的,所述步驟B中,具體分類過(guò)程進(jìn)行兩個(gè)概率圖模型的訓(xùn)練,一個(gè)是基于6個(gè)大類的概率圖模型,一個(gè)是基于73個(gè)小類的概率圖模型。
優(yōu)選的,所述步驟C中,根據(jù)訓(xùn)練數(shù)據(jù)集中標(biāo)記的分類結(jié)果,計(jì)算各個(gè)分類的先驗(yàn)概率,并且根據(jù)概率圖G中各個(gè)有向邊的連接關(guān)系和權(quán)值計(jì)算各詞對(duì)各個(gè)分類的條件概率以及詞之間的條件概率,從而得到概率圖模型的DAG結(jié)構(gòu)和條件概率分布CPD。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于逸途(北京)科技有限公司,未經(jīng)逸途(北京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710662820.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種交通工具座椅餐桌板
- 下一篇:一種智能化汽車用踏腳墊
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





