[發明專利]用于從用戶的自然語言輸入中提取關鍵元素的方法有效

申請號：	201710407203.6	申請日：	2017-06-02
公開（公告）號：	CN107203512B	公開（公告）日：	2021-04-23
發明（設計）人：	王溪華;郝新利	申請（專利權）人：	上海對岸信息科技有限公司
主分類號：	G06F40/289	分類號：	G06F40/289;G06F40/30
代理公司：	上海智晟知識產權代理事務所(特殊普通合伙) 31313	代理人：	李鏑的;張東梅
地址：	200030 上海市徐匯***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	用于用戶自然語言輸入提取關鍵元素方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明涉及一種用于從用戶的自然語言輸入中提取關鍵元素的方法，包括下列步驟：根據第一語義知識庫對用戶的第一自然語言輸入進行語義匹配以識別所述第一自然語言輸入的總體語義；選擇限定知識庫；通過確定所述限定知識庫中與所述總體語義相關聯的條目并去除其余條目來縮減所述限定知識庫；對所述第一自然語言輸入進行機械分詞以生成所述第一自然語言輸入的分詞結果集合；使用經縮減的限定知識庫對所述分詞結果進行匹配以從分詞結果集合中確定分詞結果；以及從所述分詞結果的詞語中選擇一個或多個作為關鍵元素。通過本發明的方法，可以極大地提高分詞效率和正確率，從而促進正確關鍵元素的確定。

技術領域

本發明總的來說涉及自然語言處理領域，具體而言涉及一種用于從用戶的自然語言輸入中提取關鍵元素的方法。

背景技術

隨著計算機技術的發展，人工智能機器人開始在市場上興起，例如微軟公司的“小冰”、蘋果公司的“Siri”、百度的“度秘”等等。這些人工智能機器人主要分為語音助手類和聊天類。前者主要功能是為用戶提供有用信息，而后者旨在與用戶閑聊。無論哪類機器人都涉及自然語言處理技術。自然語言處理技術是指，對用戶輸入的自然語言進行處理，使得機器人能夠理解所述自然語言。

自然語言處理的核心技術之一在于如何從用戶的自然語言輸入中準確地提取出關鍵詞，因為如果關鍵詞都提取錯誤，則即使后續處理都正確，系統也無法提供與用戶自然語言輸入相對應的系統自然語言示出。然而，目前的人工智能機器人在提取關鍵詞方面的效率和準確率都不高，其主要原因如下。正確提取關鍵詞的前提是對自然語言輸入進行正確的分詞。關于分詞方法，現有機器人大多采用機械分詞、即窮舉一句話所有可能的分詞結果，然后將所有分詞結果中的每個詞在知識庫中進行匹配，最后輸出匹配度最好的結果。但由于知識庫巨大，這必然導致巨大的計算量，從而極大地提高了計算成本，而且當遇到容易混淆的表達方式、如“長春市里有家長春藥店”時，分詞系統也容易出錯。

另外，即使分詞正確并提取了相應關鍵詞，現有技術也往往不能確定所提取的關鍵詞的正確語義，而是可能使用關鍵詞的錯誤語義來生成自然語言輸出，這同樣會導致不能產生正確的系統自然語言輸出。這是因為，用戶自然語言輸入中的核心詞匯可能具有多種含義，例如“土豆”既可以指一種食物、也可以指“土豆”視頻網站，而現有機器人在遇到這些有歧義的詞匯時，無法確定詞匯的正確語義。錯誤的語義確定導致對關鍵詞的“誤解”，從而造成機器人的智能化程度低，用戶體驗較差。

發明內容

從現有技術出發，本發明的任務是提供一種用于從用戶的自然語言輸入中提取關鍵元素的方法，通過該方法，可以極大地提高分詞效率和正確率，從而促進正確關鍵元素的確定。

根據本發明，該任務通過一種用于從用戶的自然語言輸入中提取關鍵元素的方法來解決，該任務包括下列步驟：

根據第一語義知識庫對用戶的第一自然語言輸入進行語義匹配以識別所述第一自然語言輸入的總體語義；

選擇限定知識庫；

通過確定所述限定知識庫中與所述總體語義相關聯的條目并去除其余條目來縮減所述限定知識庫；

對所述第一自然語言輸入進行機械分詞以生成所述第一自然語言輸入的分詞結果集合；

使用經縮減的限定知識庫對所述分詞結果進行匹配以從分詞結果集合中確定分詞結果；以及

從所述分詞結果的詞語中選擇一個或多個作為關鍵元素。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于上海對岸信息科技有限公司，未經上海對岸信息科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】