[發明專利]對自然語言問題的基于學習的處理在審
| 申請號: | 201380035865.5 | 申請日: | 2013-07-02 |
| 公開(公告)號: | CN104471568A | 公開(公告)日: | 2015-03-25 |
| 發明(設計)人: | M·周;F·魏;X·劉;H·孫;Y·段;C·孫;H-Y·舒姆 | 申請(專利權)人: | 微軟公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 胡利鳴 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自然語言 問題 基于 學習 處理 | ||
背景
在線搜索引擎向用戶提供了用于在web上定位內容的功能強大的手段。也許由于搜索引擎是軟件程序,所以它們被開發為更加高效地處理以諸如反映編程語言的形式的布爾查詢之類的形式輸入的查詢。然而,許多用戶可能偏好以自然語言形式輸入查詢,類似于他們在日常生活中可能正常交流的那樣。例如,搜索web以知曉保加利亞的首都的用戶可能偏好輸入“保加利亞的首都是什么?”而非“首都AND保加利亞”。由于許多搜索引擎已經被優化來接受具有正式查詢形式的用戶查詢,它們可能不太能夠高效且準確地對自然語言查詢進行響應。
以前的方案傾向于依賴經組織的數據知識庫來回答自然語言查詢。這個方式以創建的Watson問題回答計算系統為例,其出名地出現在美國的游戲節目上并取得了勝利。因為Watson和類似的方案依賴于知識庫,所以它們所能回答的問題的范圍可被限于知識庫中經組織的數據的范圍。此外,這樣的知識庫在用新數據來更新方面可能是昂貴且耗時的。
發明內容
描述了用于通過使用基于機器學習的方法來收集和分析來自web搜索的證據來回答由用戶作為搜索查詢輸入的自然語言問題的技術。在一些示例中,在接收到由用戶輸入的自然語言問題后,執行分析來確定該問題的問題類型、答案類型和/或詞匯答案類型(LAT)。該分析可采用基于規則的探試和/或使用機器學習來離線訓練的分類器。也可使用組塊、句子邊界檢測、句子模式檢測、解析、指定實體檢測、詞性標記、標記化或其它工具來從自然語言問題中提取一個或多個查詢單元。
在一些實現方式中,所提取的查詢單元、答案類型、問題類型和/或LAT隨后可被應用到一個或多個查詢生成模板以生成多個查詢,該多個查詢將被用于收集證據來確定針對自然語言問題的答案。接著,可使用通過使用機器學習被離線訓練的排序器對這些查詢進行排序,排名前N的查詢可被發送到搜索引擎。接著,可使用另一經機器學習訓練的排序器對結果(例如,web文檔的地址和/或片斷)進行過濾和/或排序,并且基于答案類型和/或LAT從結果中提取候選回答。可使用通過使用機器學習被離線訓練的排序器對候選答案進行排序,并且排名在前的回答可被提供給用戶。也可確定候選答案的置信度水平,并且如果排名第一的答案的置信度水平超過閾值置信度,則該答案可被提供。
提供本概述以便以簡化形式介紹將在以下詳細描述中進一步描述的一些概念。本發明內容并不旨在標識所要求保護主題的關鍵特征或必要特征,也不旨在用于限制所要求保護主題的范圍。
附圖說明
參考附圖來描述具體實施方式。在附圖中,附圖標記最左邊的數字標識該附圖標記首次出現的附圖。在不同的附圖中使用相同的附圖標記指示類似或相同的項。
圖1描繪了根據各實施例的用于回答自然語言問題的示例用例。
圖2是描繪各實施例可在其中操作的示例環境的示意圖。
圖3是示出根據各實施例的示例計算系統的圖。
圖4描繪了根據各實施例的用于回答自然語言問題的說明性過程的流程圖。
圖5描繪了根據各實施例的用于分析自然語言問題來確定問題類型、答案類型、LAT和/或查詢單元的說明性過程的流程圖。
圖6描繪了根據各實施例的用于確定多個搜索查詢來收集用于回答自然語言問題的證據的說明性過程的流程圖。
圖7描繪了根據各實施例的用于分析搜索結果作為用于回答自然語言問題的證據的說明性過程的流程圖。
圖8描繪了根據各實施例的用于從搜索結果證據中提取可能的答案的說明性過程的流程圖。
詳細描述
概覽
在此描述的各實施例提供了用于回答由用戶作為搜索查詢輸入的自然語言問題的技術。在一些實施例中,從尋找對自然語言問題的答案的用戶接收作為搜索查詢的該自然語言問題(例如,通過搜索引擎)。如本文所描述的,自然語言問題包括字符序列,該字符序列至少部分可采用表現正常、日常講話的語法和/或句法。例如,用戶可詢問問題“保加利亞的首都是什么?”或“大憲章是何時簽署的?”。雖然本文給出的一些示例描述了包括特定問題形式(例如,誰,什么,哪里,何時,為何,如何等)的自然語言問題,但是各實施例并不被如此限制并可支持任何形式的自然語言問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟公司,未經微軟公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380035865.5/2.html,轉載請聲明來源鉆瓜專利網。





