[發明專利]一種對話式的自然語言處理方法和裝置有效

申請號：	201410536259.8	申請日：	2014-10-13
公開（公告）號：	CN105488035A	公開（公告）日：	2016-04-13
發明（設計）人：	姜蓓;陳伯妤	申請（專利權）人：	陳伯妤
主分類號：	G06F17/28	分類號：	G06F17/28;G06F17/30
代理公司：	暫無信息	代理人：	暫無信息
地址：	100022 北京市朝陽區廣渠***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種對話自然語言處理方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及自然語言處理和/或搜索領域。更具體地，涉及一種對話式的自然語言處理方法和裝置。

背景技術

自然語言處理(InformationRetrieval)是指信息按一定的方式組織起來，并根據信息用戶的需要找出有關的信息的過程和技術。狹義的自然語言處理就是自然語言處理過程的后半部分，即從信息集合中找出所需要的信息的過程，也就是我們常說的信息查尋(InformationSearch或InformationSeek)。

目前常用的自然語言處理方法通常包括：普通法、追溯法和分段法等。普通法是利用書目、文摘、索引等檢索工具進行文獻資料查找的方法。運用這種方法的關鍵在于熟悉各種檢索工具的性質、特點和查找過程，從不同角度查找。普通法又可分為順檢法和倒檢法。順檢法是從過去到現在按時間順序檢索，費用多、效率低；倒檢法是逆時間順序從近期向遠期檢索，它強調近期資料，重視當前的信息，主動性強，效果較好。追溯法是利用已有文獻所附的參考文獻不斷追蹤查找的方法，在沒有檢索工具或檢索工具不全時，此法可獲得針對性很強。

步入21世紀以來，隨著國際互聯網(Internet)的迅猛發展和世界經濟一體化的加速，網絡信息急劇膨脹，國際交流日益頻繁，通過網絡來檢索信息以協助人們快速獲取信息，已經成為必然的趨勢。

目前常用的計算機識別技術是將信息轉化成二進制的代碼機械地匹配，計算機并不了解其信息背后的真實意圖。比如，傳統的全文檢索技術基于關鍵詞匹配進行檢索，往往存在查不全、查不準、檢索質量不高的現象。特別是在網絡信息時代，利用關鍵詞匹配很難滿足人們檢索的要求。舉例說明，假如用戶輸入“蘋果”的關鍵字，那究竟用戶是指水果還是某種知名電腦品牌，基于傳統的關鍵字匹配檢索技術則無法精確區分，從而無法高效、準確地反饋給用戶最需要的信息。

發明內容

本發明提出一種對話式的自然語言處理方法和系統，以準確地向用戶反饋所需要的信息。

本發明的技術方案是這樣實現的：一種對話式的自然語言處理方法，該方法包括：

將篇章級的詞語利用符號切分為字符串，從切出的字符串中提取出語言線性結構和語塊；分別對提取出的語言線性結構以及語塊進行倒排；創建語言線性結構子索引以及語塊子索引，并將語言線性結構子索引和語塊子索引予以合并，以形成整體索引；

提供對話式界面，基于所述對話式界面接收用戶的檢索輸入字符串；

從所述檢索輸入字符串中提取出該檢索輸入字符串的語言線性結構和語塊，并從該提取出的語塊中確定預先設定的興趣詞；

根據所述整體索引檢索出與從用戶的檢索輸入字符串中提取出的語言線性結構和語塊相匹配的回復信息，并在所述對話式界面中以對話形式向用戶反饋所述回復信息，所述回復信息中包含所述興趣詞的第一關聯解釋項，其中所述對話式界面設置有將所述回復信息中的第一關聯解釋項修改為另外關聯解釋項的觸發控件；

當所述觸發控件不被觸發時，所述回復信息中的第一關聯解釋項不被修改，而且當基于所述對話式界面接收的下一輪檢索輸入字符串中仍然包含興趣詞時，在位于所述對話式界面中的、對應于所述下一輪檢索輸入字符串的下一輪回復信息中，所述興趣詞繼續被確定為所述第一關聯解釋項；

當所述觸發控件被觸發時，所述回復信息中的第一關聯解釋項被修改為另外關聯解釋項，而且當基于所述對話式界面接收的下一輪檢索輸入字符串中仍然包含興趣詞時，在位于所述對話式界面中的、對應于所述下一輪檢索輸入字符串的下一輪回復信息中，所述興趣詞被確定為所述另外關聯解釋項。

所述向用戶反饋回復信息包括：依據語言線性結構和語塊的匹配程度由高到低的順序，向用戶反饋與從所述檢索輸入字符串中提取出的語言線性結構和語塊相匹配的回復信息；其中當從所述檢索輸入字符串中提取出的語言線性結構與整體索引中的語言線性結構的重復字數越多時，所述匹配程度越高。

預先設置語言線性結構重復權重和語塊重復權重；

基于所述語言線性結構重復權重計算從所述檢索輸入字符串中提取出的語言線性結構與整體索引中的語言線性結構的第一重疊指數，并基于語塊重復權重計算從所述檢索輸入字符串中提取出的語塊與整體索引中的語塊的第二重疊指數；當所述第一重疊指數與第二重疊指數的和越高，所述匹配程度越高。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于陳伯妤，未經陳伯妤許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201410536259.8/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】