[發明專利]一種對話式的自然語言處理方法和裝置有效
| 申請號: | 201410536259.8 | 申請日: | 2014-10-13 |
| 公開(公告)號: | CN105488035A | 公開(公告)日: | 2016-04-13 |
| 發明(設計)人: | 姜蓓;陳伯妤 | 申請(專利權)人: | 陳伯妤 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100022 北京市朝陽區廣渠*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 對話 自然語言 處理 方法 裝置 | ||
技術領域
本發明涉及自然語言處理和/或搜索領域。更具體地,涉及一種對話式 的自然語言處理方法和裝置。
背景技術
自然語言處理(InformationRetrieval)是指信息按一定的方式組織起來, 并根據信息用戶的需要找出有關的信息的過程和技術。狹義的自然語言處理 就是自然語言處理過程的后半部分,即從信息集合中找出所需要的信息的過 程,也就是我們常說的信息查尋(InformationSearch或InformationSeek)。
目前常用的自然語言處理方法通常包括:普通法、追溯法和分段法等。 普通法是利用書目、文摘、索引等檢索工具進行文獻資料查找的方法。運用 這種方法的關鍵在于熟悉各種檢索工具的性質、特點和查找過程,從不同角 度查找。普通法又可分為順檢法和倒檢法。順檢法是從過去到現在按時間順 序檢索,費用多、效率低;倒檢法是逆時間順序從近期向遠期檢索,它強調 近期資料,重視當前的信息,主動性強,效果較好。追溯法是利用已有文獻 所附的參考文獻不斷追蹤查找的方法,在沒有檢索工具或檢索工具不全時, 此法可獲得針對性很強。
步入21世紀以來,隨著國際互聯網(Internet)的迅猛發展和世界經濟 一體化的加速,網絡信息急劇膨脹,國際交流日益頻繁,通過網絡來檢索信 息以協助人們快速獲取信息,已經成為必然的趨勢。
目前常用的計算機識別技術是將信息轉化成二進制的代碼機械地匹配, 計算機并不了解其信息背后的真實意圖。比如,傳統的全文檢索技術基于關 鍵詞匹配進行檢索,往往存在查不全、查不準、檢索質量不高的現象。特別 是在網絡信息時代,利用關鍵詞匹配很難滿足人們檢索的要求。舉例說明, 假如用戶輸入“蘋果”的關鍵字,那究竟用戶是指水果還是某種知名電腦品 牌,基于傳統的關鍵字匹配檢索技術則無法精確區分,從而無法高效、準確 地反饋給用戶最需要的信息。
發明內容
本發明提出一種對話式的自然語言處理方法和系統,以準確地向用戶反 饋所需要的信息。
本發明的技術方案是這樣實現的:一種對話式的自然語言處理方法,該 方法包括:
將篇章級的詞語利用符號切分為字符串,從切出的字符串中提取出語言線 性結構和語塊;分別對提取出的語言線性結構以及語塊進行倒排;創建語言線 性結構子索引以及語塊子索引,并將語言線性結構子索引和語塊子索引予以合 并,以形成整體索引;
提供對話式界面,基于所述對話式界面接收用戶的檢索輸入字符串;
從所述檢索輸入字符串中提取出該檢索輸入字符串的語言線性結構和語 塊,并從該提取出的語塊中確定預先設定的興趣詞;
根據所述整體索引檢索出與從用戶的檢索輸入字符串中提取出的語言線性 結構和語塊相匹配的回復信息,并在所述對話式界面中以對話形式向用戶反饋 所述回復信息,所述回復信息中包含所述興趣詞的第一關聯解釋項,其中所述 對話式界面設置有將所述回復信息中的第一關聯解釋項修改為另外關聯解釋項 的觸發控件;
當所述觸發控件不被觸發時,所述回復信息中的第一關聯解釋項不被修改, 而且當基于所述對話式界面接收的下一輪檢索輸入字符串中仍然包含興趣詞 時,在位于所述對話式界面中的、對應于所述下一輪檢索輸入字符串的下一輪 回復信息中,所述興趣詞繼續被確定為所述第一關聯解釋項;
當所述觸發控件被觸發時,所述回復信息中的第一關聯解釋項被修改為另 外關聯解釋項,而且當基于所述對話式界面接收的下一輪檢索輸入字符串中仍 然包含興趣詞時,在位于所述對話式界面中的、對應于所述下一輪檢索輸入字 符串的下一輪回復信息中,所述興趣詞被確定為所述另外關聯解釋項。
所述向用戶反饋回復信息包括:依據語言線性結構和語塊的匹配程度由高 到低的順序,向用戶反饋與從所述檢索輸入字符串中提取出的語言線性結構和 語塊相匹配的回復信息;其中當從所述檢索輸入字符串中提取出的語言線性結 構與整體索引中的語言線性結構的重復字數越多時,所述匹配程度越高。
預先設置語言線性結構重復權重和語塊重復權重;
基于所述語言線性結構重復權重計算從所述檢索輸入字符串中提取出的語 言線性結構與整體索引中的語言線性結構的第一重疊指數,并基于語塊重復權 重計算從所述檢索輸入字符串中提取出的語塊與整體索引中的語塊的第二重疊 指數;當所述第一重疊指數與第二重疊指數的和越高,所述匹配程度越高。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于陳伯妤,未經陳伯妤許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410536259.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可長年制水的空氣制水機
- 下一篇:熱浸鍍鋅連續生產線





