[發明專利]一種信息查詢方法和系統在審
| 申請號: | 201410352847.6 | 申請日: | 2014-07-23 |
| 公開(公告)號: | CN104199825A | 公開(公告)日: | 2014-12-10 |
| 發明(設計)人: | 王東;王曉曦;趙芳;劉榮;游世學 | 申請(專利權)人: | 清華大學;北京中科匯聯信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘭淑鐸 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 信息 查詢 方法 系統 | ||
技術領域
本申請涉及信息技術領域,特別是涉及一種信息查詢方法和系統。
背景技術
近年來,隨著自然語言處理技術的發展,智能問答系統受到了極大的關注,從聊天軟件‘小黃雞’的風靡,到流行于各大網絡平臺的應答機器人,智能問答系統在眾多領域得到應用。一個優質的問答系統解決客戶常見的問題,降低人工開銷,并能提供24小時無間斷服務。
然而,大多數問答系統都是以文本鍵入的形式作為問答系統的輸入,繁瑣費時,特別是在移動終端(如手機)等無鍵盤設備上,或對于老年人、殘疾人等操作困難人群,文本輸入變得異常困難。
因此,基于語音輸入的問答系統應運而生。雖然,基于語音的智能問答系統具有快捷、方便、適用設備和人群廣泛的優點。然而,將語音作為輸入方式也帶來了新的問題:
語音輸入的方便性帶來更大的隨意性,因此,相應的系統模板的數量和樣式需要隨著這種隨意性的增加而增加。傳統基于模板匹配的搜索方法隨著系統模板數量和樣式的增加,處理邏輯越來越復雜,搜索效率降低,需要消耗大量時間進行匹配,增加了用戶等待時間,用戶體驗較差,同時也增加了設備和系統的處理負擔。
發明內容
本申請提供了一種信息查詢方法和系統,以解決傳統基于模板匹配的搜索方法搜索效率降低、耗時久的問題,以及由此帶來的設備和系統處理負擔重的問題。
本申請公開了一種信息查詢方法,包括:
將輸入的語音信號識別成文字符號輸出,得到待查詢字符串;
將所述待查詢字符串按照設定匹配規則分別與模板集下的多個壓縮模板進行匹配,得到與所述待查詢字符串相匹配的壓縮模板中的第一模板;其中,所述模板集下包括多個模板,所述多個模板按照有向圖壓縮進行共享合并,得到一個或多個壓縮模板;
從知識庫中查詢得到所述第一模板對應的應答信息;
通過語音和/或文字輸出所述應答信息。
可選地,所述多個模板通過以下方式按照有向圖壓縮進行共享合并,得到一個或多個壓縮模板:
采集多個樣本數據,將所述多個樣本數據以字為單位進行數據拆分;
按照所述多個樣本數據各自的語義順序,將拆分后得到的字按圖結構形式排列,得到所述多個模板;其中,所述多個模板的數據結構為圖結構;
按照圖結構的可共享子結構模式,分別對滿足上下文無關文法的多個模板進行共享合并,得到所述一個或多個壓縮模板。
可選地,所述按照圖結構的可共享子結構模式,分別對滿足上下文無關文法的多個模板進行共享合并,得到所述一個或多個壓縮模板,包括:
按照圖結構的可共享子結構模式,分別將滿足上下文無關文法的多個模板中的相同字和/或不同字進行共享合并,得到所述一個或多個壓縮模板;其中,所述壓縮模板的數據結構為有向圖壓縮;
其中,
當所述滿足上下文無關文法的多個模板,在各自對應的圖結構的相同位置處的字相同時,以共享形式合并相同字;
當所述滿足上下文無關文法的多個模板,在各自對應的圖結構的相同位置處的字不同時,以分裂形式保留不同字。
可選地,所述將所述待查詢字符串按照設定匹配規則分別與模板集下的多個壓縮模板進行匹配,得到與所述待查詢字符串相匹配的壓縮模板中的第一模板,包括:
將所述待查詢字符串以字為單位進行數據拆分,并將拆分后得到的字按圖結構形式進行排列;
分別獲取排列后的待查詢字符串對應的待查詢集合,和,所述多個壓縮模板對應的多個壓縮模板集合;
分別計算所述待查詢集合與所述多個壓縮模板集合之間的匹配路徑;
從所述多個壓縮模板集合下獲取一條與所述待查詢集合之間匹配路徑最小的路徑;
將獲取的最小的路徑指示的模板確定為所述第一模板。
可選地,所述分別計算所述待查詢集合與所述多個壓縮模板集合之間的匹配路徑,包括:
定義一個Token,所述Token對應集合v(i,j,h,s),其中,i,j分別為所述集合v在集合I和集合J中的狀態;h為所述集合v在集合I和集合J中經過的歷史路徑,s為所述歷史路徑的匹配距離;其中,所述集合I為壓縮模板對應的集合,所述集合J為所述待查詢字符串對應的集合;
在所述集合I和所述集合J的每一個狀態中加入一條自動循環邊;
對加入循環邊后的集合I和集合J進行圖擴展搜索,得到累積搜索歷史和匹配距離;并,獲取距離度量;
對所述累積搜索歷史、匹配距離和所述距離度量求和,得到所述匹配路徑。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學;北京中科匯聯信息技術有限公司;,未經清華大學;北京中科匯聯信息技術有限公司;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410352847.6/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





