[發(fā)明專利]一種基于概念的智能中文問答系統(tǒng)無效
| 申請?zhí)枺?/td> | 200810047855.4 | 申請日: | 2008-05-28 |
| 公開(公告)號: | CN101286161A | 公開(公告)日: | 2008-10-15 |
| 發(fā)明(設(shè)計)人: | 張茂元;鄒春燕;楊付全;盧正鼎;趙冰心;余毅;劉明 | 申請(專利權(quán))人: | 華中科技大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 華中科技大學(xué)專利中心 | 代理人: | 曹葆青 |
| 地址: | 430074湖北*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 概念 智能 中文 問答 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明屬于信息檢索技術(shù),具體為一種基于概念的問答檢索系統(tǒng)。該問答系統(tǒng),是對信息檢索系統(tǒng)的改進(jìn),是信息檢索一種高級形式。它能用準(zhǔn)確、簡潔的語言回答用戶用自然語言提出的問題。
背景技術(shù)
21世紀(jì),人們已經(jīng)正式步入了信息時代,對網(wǎng)絡(luò)信息量的需求與日俱增。但網(wǎng)絡(luò)固有的大容量、異構(gòu)性、分布性和動態(tài)性,以及Web中大量缺乏組織的無效數(shù)據(jù),降低了人們對豐富信息資源的利用效率,出現(xiàn)“信息過載”現(xiàn)象。最近幾年,隨著網(wǎng)絡(luò)和信息技術(shù)的快速發(fā)展,同時人們想更快地獲取信息的愿望促進(jìn)了自動問答技術(shù)的發(fā)展。有越來越多的公司和科研院所參與自動問答技術(shù)的研究。比較著名的如Microsoft、IBM、MIT、University?of?Zurich等。美國著名的文本檢索會議TREC于1999年設(shè)立了QA?Track,為問答系統(tǒng)提供評測的平臺。目前,國外已經(jīng)開發(fā)出一些相對成熟的問答系統(tǒng)。國內(nèi)也有一些高校和研究機(jī)構(gòu)對自動問答系統(tǒng)進(jìn)行研究,中科院計算所、哈爾濱工業(yè)大學(xué)、復(fù)旦大學(xué)、北京理工大學(xué)、香港科技大學(xué)等。但是整體來說,參與中文自動問答技術(shù)研究的科研機(jī)構(gòu)比較少,而且基本沒有成型的中文自然語言問答系統(tǒng)。
問答系統(tǒng)(Question?Answering?System)是指能夠?qū)τ嬎銠C(jī)用戶輸入的使用自然語言描述的問句做出回答的計算機(jī)程序。問答系統(tǒng)集自然語言處理、信息檢索、知識表示為一體,正日益成為國際上研究的熱點(diǎn)。它既能夠讓用戶用自然語言提問,又能夠為用戶返回一個簡潔、準(zhǔn)確的答案,而不是一些相關(guān)的網(wǎng)頁。因此,問答系統(tǒng)和傳統(tǒng)的依靠關(guān)鍵字匹配的搜索引擎相比,能夠更好地滿足用戶的檢索需求,更準(zhǔn)確地找出用戶所需要的答案,具有方便、快捷、高效等特點(diǎn)。
自然語言問答系統(tǒng)的人機(jī)界面、精確性和實時性是漢語自然語言問答系統(tǒng)的三大研發(fā)目標(biāo)。其中,精確性是自然語言問答系統(tǒng)的首要目標(biāo)。為了達(dá)到這一目標(biāo),在用戶問句處理方面,需要對用戶輸入的問句進(jìn)行正確的分詞和詞性標(biāo)注、同義詞擴(kuò)充、名實體標(biāo)注、句法分析、答案類型標(biāo)注等等處理,對于基于常問問題庫的問答系統(tǒng),用戶輸入問句與問題庫問句之間的相似度計算是系統(tǒng)的核心所在,其計算方法的精確性和高效性關(guān)系到整個系統(tǒng)的精確性和效率。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于概念的智能中文問答系統(tǒng),該系統(tǒng)具有更高的查全率和查準(zhǔn)率。
本發(fā)明提供的基于概念的智能中文問答系統(tǒng),其結(jié)構(gòu)為包括數(shù)據(jù)服務(wù)器、輸入模塊、顯示模塊,其特征在于:它還包括問題預(yù)處理模塊、候選問題集提取模塊、問句相似度計算模塊;
數(shù)據(jù)服務(wù)器用于存儲語料庫、索引庫,XML文檔和問題庫;
輸入模塊用于接收用戶輸入的問題,檢查輸入問句的規(guī)范性,將正確格式的問句提交到問題預(yù)處理模塊;
問題預(yù)處理模塊用于接收輸入模塊傳遞的問句,調(diào)用數(shù)據(jù)服務(wù)器中的知識庫和規(guī)則庫對其進(jìn)行預(yù)處理,并將處理后的結(jié)果分別傳遞給候選問題集模塊和問句相似度計算模塊;
候選問題集提取模塊用于從問題預(yù)處理模塊提供的預(yù)處理結(jié)果中快速提取候選問題集,為問句相似度計算模塊提供計算對象;
問句相似度計算模塊用于求解檢索問句與候選問題集中問句的相似度,中文句子相似度計算通過對檢索問句的關(guān)鍵詞串進(jìn)行同義擴(kuò)展,利用擴(kuò)展結(jié)果,調(diào)用詞形相似度計算方法,再調(diào)用詞序相似度計算方法和詞長相似度計算方法,分別計算詞形相似度、詞序相似度、詞長相似度;然后,將三項加權(quán),計算問句最終的相似度;
顯示模塊根據(jù)問句相似度計算模塊的處理結(jié)果,將對應(yīng)于問題庫中的問題答案及相關(guān)信息,返回給提交檢索問句的用戶。
本發(fā)明系統(tǒng)能從概念層次上理解用戶輸入的中文問句,對問句中的關(guān)鍵詞進(jìn)行同義擴(kuò)展,來支持自然語言描述的問句的檢索,提高了問答系統(tǒng)的查全率。并且,系統(tǒng)綜合考慮問句的詞形,詞序,及詞長三方面,提高了問句檢索的查準(zhǔn)率。其次,系統(tǒng)采用高效檢索技術(shù)從問題庫中快速提取出候選問題集,計算問題集與用戶輸入的問句之間相似度,并基于相似度對問題集快速排序,將排好序的問題及其答案返回給用戶。通過以上創(chuàng)新方法,保證了能夠快速地返回一個簡潔、準(zhǔn)確的答案。本發(fā)明系統(tǒng)針對精確性和實時性的要求,分別以查準(zhǔn)率、檢索效率、查全率等方面為主要指標(biāo),進(jìn)行開發(fā),實現(xiàn)。實驗結(jié)果表明,達(dá)到了預(yù)期的效果。具體分析,本發(fā)明具有如下優(yōu)點(diǎn):
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中科技大學(xué),未經(jīng)華中科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810047855.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





