[發明專利]一種基于問答系統的信息匹配方法及系統無效
| 申請號: | 201010166275.4 | 申請日: | 2010-04-28 |
| 公開(公告)號: | CN102236677A | 公開(公告)日: | 2011-11-09 |
| 發明(設計)人: | 徐伯星;盧佳;杭誠方;于雅潔;叢鵬飛 | 申請(專利權)人: | 北京大學深圳研究生院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳鼎合誠知識產權代理有限公司 44281 | 代理人: | 宋鷹武 |
| 地址: | 518055 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 問答 系統 信息 匹配 方法 | ||
技術領域
本發明涉及搜索引擎技術,具體的說,涉及一種基于問答系統的信息匹配方法及系統。
背景技術
有研究表明,面對互聯網的海量用戶信息,大多數用戶都將搜索引擎作為訪問互聯網以獲取信息的起點。傳統搜索引擎以網頁搜索為主,大多采用關鍵字匹配的方式返回包含所搜索關鍵詞的網頁列表,由用戶點擊網頁后查看。隨著科技的不斷發展,手機、PDA(個人數據助理)等手持設備逐漸普及,越來越多的用戶通過手持設備訪問互聯網,傳統搜索引擎的弊端也開始顯現。手持設備的屏幕大小和通信效率對信息容量的限制,使得傳統搜索引擎所返回的網頁列表不適用于展示給用戶。問答系統是解決這一矛盾的方案之一。
問答系統和傳統網頁搜索的區別在于,用戶可以以自然語言形式的句子向系統提問,系統分析用戶問題后,精確的返回用戶問題的答案。例如,用戶希望搜索問題:“中國最長的河是哪條?”傳統網頁搜索返回的可能是包含“中國”、“最長”、“河”、“哪里”等關鍵字的網頁地址,用戶需要點擊網頁后自己查找答案。而利用問答系統,將直接返回用戶答案“長江”。避免了二次瀏覽,提高了用戶體驗。
目前的問答系統不管采用何種方法進行答案檢索,大都會配備問答知識庫,該知識庫往往存儲一些常用問題,問題的答案采用自動爬取或專家維護的方式得到。在用戶提問的時候,如果問題和知識庫中的問題匹配成功,則直接返回知識庫中的答案。知識庫的結構多為一對一的問答對形式,即例如:問題是“中國最長的河是哪條”,答案是“長江”,這樣的一組問答作為知識庫中的一組問答對,知識庫中存儲有多組這樣的常問問題的問答對。問答系統根據用戶的提問在知識庫中搜索與用戶提問最匹配的知識庫中的問題形式,進而給出該問題的答案。
在基于知識庫的問句匹配方法里,從排序上來說,已有的方法集中在語義、語法及傳統信息論排序方法等三個方面。傳統的信息論排序方法,如在網頁搜索中常用的TF-IDF值排序方法在問句匹配中作用有限。由于問答系統的問句往往比較短,詞頻信息在問句中比較集中也比較少,多是1-2次,因此很難體現出TF-IDF在詞頻信息上所包含的意義。
利用語義匹配度的排序方法(包括利用語義信息計算距離的向量空間方法)一般需要遍歷候選集,存在時間復雜度高的問題。且語義距離信息目前為止質量并不高,可靠性和覆蓋性限制了適用范圍。
基于語法信息匹配度的排序方法,由于漢語的靈活性和語法不嚴格性,往往是對前兩種方法的補充,提取1-2個明顯的語法特征用于計算排序,并不能單獨用于排序方法,且同樣存在計算復雜和精度不高的問題,會直接影響排序結果。
綜上,現有技術中,問答系統中的信息匹配,具體說,問句信息的匹配方法仍然存在不少的缺陷,匹配精度和匹配效率都有待提高。
發明內容
本發明所要解決的技術問題是,提供一種基于問答系統的信息匹配方法及系統,能夠高效準確的實現基于問答系統的信息匹配。
為解決上述技術問題,本發明采用了以下技術方案:
一種基于問答系統的信息匹配方法,包括:
為問答系統知識庫中的問答對配置用戶交互行為表征參數,并根據用戶交互行為反饋信息對所述用戶交互行為表征參數進行動態更新,所述用戶交互行為反饋信息為對問答系統的提問信息響應的反饋;
根據用戶輸入的提問信息在問答系統知識庫中獲取問題候選集,以所述問題候選集中的各條問題信息的用戶交互行為表征參數為索引,對所述問題候選集中的各條問題信息進行排序,向用戶返回排序在前的預定數量的問題信息。
在本發明的一種實施例中,按照如下方式更新所述用戶交互行為表征參數:如果用戶交互行為反饋信息為正反饋,提高用戶交互行為表征參數;如果用戶交互行為反饋信息為負反饋,降低用戶交互行為表征參數。
在本發明的一種實施例中,還包括:設置懲罰因子,以加權用戶交互行為反饋信息對用戶交互行為表征參數的降低程度。
在本發明的一種實施例中,根據用戶輸入的提問信息在問答系統知識庫中獲取問題候選集通過如下方式進行:
利用自然語言技術對用戶提問信息進行語法分析,按照語法分析從用戶提問信息中提取出關鍵詞;
在問答系統知識庫中檢索包含所述關鍵詞的問題信息,按照預設的關鍵詞覆蓋率閾值,將達到或超過所述關鍵詞覆蓋率閾值的問題信息選出形成所述問題候選集。
在本發明的一種實施例中,所述用戶交互行為表征參數為全局頻率與關鍵詞覆蓋率的乘積。
在本發明的一種實施例中,所述用戶交互行為表征參數通過網頁、WAP網頁、或手機短信傳遞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學深圳研究生院,未經北京大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010166275.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種帶有照明和保護功能的掏耳器
- 下一篇:一種電熱座套
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





