[發明專利]非事實型詢問應答系統以及方法有效
| 申請號: | 201380010249.4 | 申請日: | 2013-01-23 |
| 公開(公告)號: | CN104137102B | 公開(公告)日: | 2017-06-13 |
| 發明(設計)人: | 吳鐘勛;鳥澤健太郎;橋本力;川田拓也;史蒂恩·德薩哲;風間淳一;王軼謳 | 申請(專利權)人: | 獨立行政法人情報通信研究機構 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中科專利商標代理有限責任公司11021 | 代理人: | 趙琳琳 |
| 地址: | 日本國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 事實 詢問 應答 系統 以及 計算機 程序 | ||
技術領域
本發明涉及詢問應答系統,尤其涉及針對詢問某事的理由等的所謂的how型、why型詢問等被稱為非事實詢問的詢問的應答系統。
背景技術
與針對一些事實的詢問應答(QA)相關的研究最近取得了大的進展。例如美國的競猜節目中這種系統戰勝人類的情況記憶猶新。針對與事實相關的詢問,其精度據說為85%程度。即便在這樣的與事實相關的詢問應答系統以外的領域,同樣地關于針對精度高的詢問應答系統的研究,其必要性也開始被認可。然而,關于并非與事實相關的詢問,例如與“為何”相關的詢問,以及與“如何”相關的詢問,實情是研究還未取得進展。
作為這樣的系統的例子,有在后述的非專利文獻1中記載的系統。在該系統中,對詢問和語料庫內的各句進行詞素解析,進而使用其結果來計算利用了從詢問中所得到的單詞的文檔頻度、各句中的單詞頻度、文檔總數、文檔的長度等的得分,并從語料庫中選擇得分上位的給定個數的文檔。將在選擇出的文檔中所含的段落、以及1~3個連續的段落作為回答候選,主要通過詢問中的單詞與回答候選中所含的單詞之間所計算的得分,來選擇針對詢問的回答。
然而,如后述可知,在該系統中得不到足夠的性能。為此,作為對該系統進一步改良后的系統,能考慮后述的非專利文獻2中所記載的那樣的系統。該系統例如在通過非專利文獻1所記載的技術而選擇了幾個回答候選后,進而通過給定的得分來對各回答候選進行重新排序。
以下,基于非專利文獻2的記載來說明被認為是典型的實現該系統時的實現例。此外,以下將關于并非與事實相關的詢問稱為“非事實型詢問”。
參照圖1,該詢問應答系統30例如將在互聯網上能檢索的非常多的句子(在此限定為日語來考慮。)所組成的語料庫存儲至語料庫存儲部48,接受從可實現文本通信的便攜式電話等的服務利用終端44發送的非事實型詢問,回答處理部40從存儲在語料庫存儲部48中的眾多句子當中選擇作為其回答的概率高的幾個回答句,并作為回答句列表50而返回給服務利用終端44。回答處理部40在進行回答句的排序時使用支持向量機(SVM)46,由學習處理部42預先進行針對該SVM46的帶監督的機器學習。
學習處理部42包含:QA句存儲部60,其用于預先對非事實型詢問、針對該詢問的正確的回答或錯誤的回答、表示回答是否正確的標志所組成的幾個日語的QA句進行存儲;學習數據生成部62,其用于針對QA句存儲部60中所存儲的QA句進行解析,生成預先選擇出的與語法相關的統計學信息的各種組合、以及表示該QA句的回答是否為針對詢問的正確回答的標志所組成的學習數據,來作為用在SVM46的學習中的特征;學習數據存儲部64,其存儲由學習數據生成部62生成的學習數據;以及學習處理部66,其使用學習數據存儲部64中所存儲的學習數據,來進行SVM46的帶監督的機器學習。該學習的結果是,當SVM46接受到與由學習數據生成部62生成的學習數據為同種組合的特征時,SVM46輸出表示使該特征的組合被生成的詢問句以及回答候選的組合是否為正確的組合,即回答候選是否為針對詢問的正確的答案這樣的尺度。
針對語料庫存儲部48中所存儲的各句,預先執行與學習數據生成部62對各回答句進行過的解析處理相同的解析處理,并對各句附加為了生成賦予給SVM46的特征所需的信息。
對此,回答處理部40包含:詢問句解析部86,其用于響應于從服務利用終端44接受到詢問句的情況,對該詢問句進行預先規定的文法性解析,針對該詢問句中所含的各單詞,輸出為了生成特征所需的信息(詞類、活用形、修飾被修飾結構等);候選句檢索部82,其用于響應于服務利用終端44接受到詢問句的情況,從語料庫存儲部48之中檢索并提取針對詢問的給定個數(例如300個)的回答候選句;以及回答候選句存儲部84,其用于將候選句檢索部82所輸出的給定個數的候選句與其文法信息一起存儲。
此外,在本實施方式中,雖然從語料庫存儲部48中檢索并提取候選句而存儲至回答候選句存儲部84,但是無需如此縮減候選句。例如,可以將語料庫存儲部48中所存儲的所有句子作為回答候選句。在此情況下,既可以是,候選句檢索部82僅具有將語料庫存儲部48中所存儲的句子全部讀出的功能,也可以是,回答候選句存儲部84發揮將由候選句檢索部82讀出的句子僅臨時蓄積的功能。進而,語料庫存儲部48在本實施方式中雖然是詢問應答系統30在本地保持,但本發明不限于這樣的實施方式。例如語料庫48還可以為遠程,也不限于1個,還可以分布于多個存儲裝置來執行存儲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于獨立行政法人情報通信研究機構,未經獨立行政法人情報通信研究機構許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380010249.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:便攜式數據載體的制造
- 下一篇:接口裝置及存儲器總線系統





