[發(fā)明專利]一種中文相似問題生成系統(tǒng)與方法有效
| 申請?zhí)枺?/td> | 201810065131.6 | 申請日: | 2018-01-23 |
| 公開(公告)號(hào): | CN108287822B | 公開(公告)日: | 2022-03-01 |
| 發(fā)明(設(shè)計(jì))人: | 孫昌勛;許志強(qiáng);王凱;曾國卿 | 申請(專利權(quán))人: | 北京容聯(lián)易通信息技術(shù)有限公司 |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06F40/30;G06F40/58;G06F16/332;G06F16/35;G06N20/00;G06N3/04 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 李丹 |
| 地址: | 100083 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 中文 相似 問題 生成 系統(tǒng) 方法 | ||
本發(fā)明公開了一種中文相似問題生成系統(tǒng)與方法,該系統(tǒng)包括:預(yù)處理模塊,用于接收給定的問題,并進(jìn)行預(yù)處理,所述預(yù)處理包括:分詞、去停用詞、對得到的分詞進(jìn)行詞性標(biāo)注;命名實(shí)體識(shí)別模塊,用于對給定的問題進(jìn)行識(shí)別,得到識(shí)別命名實(shí)體;問題分類模塊,用于對給定的問題按照語義進(jìn)行分類;相似語義問題生成模塊,用于針對給定的問題,生成語義相似的問題;所述相似語義問題生成模塊包括基于規(guī)則的相似語義問題生成子模塊和基于機(jī)器學(xué)習(xí)的相似語義問題生成子模塊。本發(fā)明能有效的提高生成的問題問句與原始問題的匹配程度和合理性。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù),尤其涉及一種中文相似問題生成系統(tǒng)與方法。
背景技術(shù)
自然語言處理(natural language processing)是研究人與計(jì)算機(jī)交互的語言問題的一門學(xué)科。處理自然語言的關(guān)鍵是要讓計(jì)算機(jī)“理解”自然語言,自然語言處理的關(guān)鍵技術(shù)包括自然語句的分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、指代消解、句法依存分析等。
問答技術(shù)(question answering),是信息檢索技術(shù)的一種高級(jí)形式,它能用準(zhǔn)確、簡潔的自然語言回答用戶的自然語言問題。自動(dòng)問答系統(tǒng)能夠自動(dòng)分析問題并給出相應(yīng)的候選答案,傳統(tǒng)的自動(dòng)問答系統(tǒng)主要由問題分析、信息檢索和答案生成等模塊構(gòu)成。
傳統(tǒng)的自動(dòng)問答主要是面向文本集合進(jìn)行的,包括分析問題中的關(guān)鍵詞,將關(guān)鍵詞提交到搜索引擎,從文本庫中檢索相關(guān)文檔,獲取返回結(jié)果中確信度最高的前若干文檔,再從中生成答案。但是隨著語義網(wǎng)技術(shù)的發(fā)展與逐漸普及,知識(shí)圖譜(knowledgegraph)、鏈接數(shù)據(jù)(linkeddata)等信息組織程度較高的結(jié)構(gòu)化知識(shí)庫興起,例如DBpedia和Freebase,使得新式基于結(jié)構(gòu)化知識(shí)庫實(shí)現(xiàn)自動(dòng)問答成為可能。在這種知識(shí)庫的基礎(chǔ)上進(jìn)行自動(dòng)問答,比傳統(tǒng)基于文本的自動(dòng)問答更為高效、準(zhǔn)確。如果用戶能夠使用查詢對知識(shí)庫進(jìn)行提問,無疑能夠精準(zhǔn)快速地獲得答案。但是在實(shí)際運(yùn)用自動(dòng)問答技術(shù)時(shí),大部分用戶并不能夠?qū)崿F(xiàn)這種“專業(yè)”的提問方式,而往往只會(huì)使用人類自然語言的形式進(jìn)行提問,因此基于自然語言問句的知識(shí)庫問答具有重要價(jià)值。在基于知識(shí)庫的自動(dòng)問答過程中,用戶輸入中文自然語言問句后,傳統(tǒng)方法對問句僅采取簡單處理得到關(guān)鍵詞,生成的查詢結(jié)構(gòu)化程度不高,不能實(shí)現(xiàn)對知識(shí)庫數(shù)據(jù)準(zhǔn)確高效的查詢。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于針對現(xiàn)有技術(shù)中的缺陷,提供一種中文相似問題生成系統(tǒng)與方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種中文相似問題生成系統(tǒng),包括:
預(yù)處理模塊,用于接收給定的問句,并進(jìn)行預(yù)處理,所述預(yù)處理包括:分詞、去停用詞、對得到的分詞進(jìn)行詞性標(biāo)注、給定問句進(jìn)行句法依存關(guān)系分析;
命名實(shí)體識(shí)別模塊,用于對給定的問句進(jìn)行識(shí)別,得到識(shí)別命名實(shí)體;
問題分類模塊,用于對給定的問句按照語義進(jìn)行分類,所述分類類別依據(jù)伊利諾伊大學(xué)厄巴納-香檳分校(University of Illinois at Urbana-Champaign,UIUC)提出的分類體系架構(gòu),主要分為七大類,其中包括:描述、人物、地點(diǎn)、時(shí)間、數(shù)字、實(shí)體、未知;
相似語義問題生成模塊,用于針對給定的問句,生成語義相似的問題;
所述相似語義問題生成模塊包括基于規(guī)則的相似語義問題生成子模塊和基于機(jī)器學(xué)習(xí)的相似語義問題生成子模塊;
所述基于規(guī)則的相似語義問題生成子模塊,用于根據(jù)詞性標(biāo)注的分詞并以命名實(shí)體識(shí)別模塊的識(shí)別結(jié)果和問題分類模塊的分類結(jié)果為輔助進(jìn)行語義詞擴(kuò)展,然后對替擴(kuò)展后的語義詞進(jìn)行重新組合,生成候選問題;
所述基于機(jī)器學(xué)習(xí)的相似語義問題生成子模塊,用于利用機(jī)器學(xué)習(xí)方法對問題建模,利用訓(xùn)練數(shù)據(jù)構(gòu)建模型進(jìn)行問題生成。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京容聯(lián)易通信息技術(shù)有限公司,未經(jīng)北京容聯(lián)易通信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810065131.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





