[發明專利]基于智能問答系統會話歷史的新詞發現方法及系統有效
| 申請號: | 201510959114.3 | 申請日: | 2015-12-18 |
| 公開(公告)號: | CN105630890B | 公開(公告)日: | 2017-06-16 |
| 發明(設計)人: | 游世學;杜新凱 | 申請(專利權)人: | 北京中科匯聯科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京慶峰財智知識產權代理事務所(普通合伙)11417 | 代理人: | 李文軍 |
| 地址: | 100094 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 智能 問答 系統 會話 歷史 新詞 發現 方法 | ||
技術領域
本發明涉及智能問答領域,特別是一種基于智能問答系統會話歷史的新詞發現方法及系統。
背景技術
智能問答系統,又稱智能機器人,可以接受用戶的自然語言輸入,分析用戶的真實意圖,得到唯一的答案返回給用戶。隨著人工智能技術的進步,智能問答系統,迎來了新一輪的發展熱潮。國內外軟件公司紛紛推出多款產品,這其中,有以Google Now,微軟小冰,百度的小度機器人為代表的聊天機器人,可以滿足用戶生活、娛樂的需要;也有以北京中科匯聯科技股份有限公司研發的微喂智能機器人、愛客服智能機器人為代表的專業智能客服機器人,可以滿足企事業單位客戶服務工作的需要,幫助企事業單位提升客戶服務滿意度,提高客戶服務工作效率,降低客戶服務成本。智能問答系統,已經在人們的工作和生活中扮演越來越重要的角色,也正因為此,智能問答系統被稱為人工智能皇冠上的明珠,成為科研界、企業界持續關注的熱點方向。
智能問答系統是一個非常復雜的軟件系統,使用了幾乎所有的自然語言處理和深度學習技術,比如分詞、詞性標注、命名實體識別、語法分析、句法分析、卷積神經網絡、遞歸神經網絡等等。這其中,分詞是一項最為基礎的工作,分詞結果的好壞直接決定了智能問答系統能否正確的理解用戶輸入。目前,所有主流的分詞器都有內置的詞典,詞典包含所有已知詞語的條目。如果句子中的所有詞都在詞典中已經收錄,主流分詞器將該句話進行正確分詞的概率在95%以上。如果句子中的某個詞在詞典中未收錄,則分詞器很可能無法對這句話進行正確的分詞。
互聯網的普及,知識的爆炸性增長和不斷創造,使得新的詞匯不斷涌現,比如“大眾創業”、“萬眾創新”、“然并卵”、“duang”,這里面既有政府政策和工作中出現的新提法,也有忽然之間發端于互聯網的新表達。海量新詞的發現使得分詞效果面臨極大的挑戰,進而影響到了智能問答系統的語義理解水平。以“然并卵”為例,只有將其作為一個詞看待,才有可能從語義上理解出這個詞表達的含義是“然而并沒有什么卵用”。
那么,如何發現和識別新的詞語就成為一個亟待解決的問題。一種解決方法是通過人工篩選的方法來發現和識別新詞,但是隨著信息的爆炸式增長,新的詞語也注定層出不窮,隨著中國勞動人口的減少和工作收入的增加,依靠人力的方法成本高昂,以致于難以負擔。
發明內容
為了克服現有技術的不足,發明人對互聯網涌現的新詞匯進行深入研究,發現用戶無論通過何種途經學習到的新的詞語,最終都會應用到自己與人、或者機器人的交互過程中。智能問答系統的會話歷史是用戶與機器聊天的完整記錄。將大量用戶與智能問答系統的會話歷史進行匯總,就能得到人們日常生活工作中經常使用的字、詞、句的語料庫,這其中自然也會包含人們對新詞的使用,并且,越是常用的新詞,它出現的頻率就會越高,出現在不同搭配和句式中的次數也會越多。
發明人進一步對這些出現在語料庫中的新詞語進行分析,總結得到這些新詞的的四個鮮明特征:(1)一個詞由若干個字組成,(2)一個詞在一定規模的語料中肯定會多次出現;(3)詞語具有較好的凝固度,即作為詞語的若干個字在一個規模較大的語料中連續出現的概率要遠大于不作為詞語的若干個字在一個規模較大的語料中連續出現的概率;(4)詞語具有較好的自由度,即作為詞語的若干個字,可以和其它的字、詞進行各種不同的搭配和組合,如若不然,此連續出現的若干個字很可能只是一個真正詞語的子串。也就是說,只有同時滿足了上述四個鮮明的特征的若干個字,才可能是一個新詞。本發明正是基于此,提出計算新詞特征的方法,并應用此方法從智能問答系統的會話歷史中發現新詞,以提高智能問答系統的語義分析效果,持續完善和提高智能問答系統的性能。
本發明提供一種基于智能問答系統會話歷史的新詞發現方法,所述方法包括如下步驟:
S1、對智能問答系統的會話歷史建立索引,所述索引中包含新詞的候選詞;
S2、依次遍歷索引中的候選詞,計算每個候選詞在所述會話歷史中的出現頻度,如果候選詞的出現頻度低于預設的頻度閾值,則判斷該候選詞不是新詞,如果候選詞的出現頻度不低于所述頻度閾值,則執行步驟S3;
S3、計算候選詞的凝固度,如果候選詞的凝固度低于預設的凝固度閾值,則判斷該候選詞不是新詞,如果候選詞的凝固度不低于所述凝固度閾值,則執行步驟S4;
S4、計算候選詞的自由度,如果候選詞的自由度低于預設的自由度閾值,則判斷該候選詞不是新詞,如果候選詞的自由度不低于所述自由度閾值,則判斷該候選詞為新詞。
具體地,所述對智能問答系統的會話歷史建立索引,所述索引中包含新詞的候選詞包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科匯聯科技股份有限公司,未經北京中科匯聯科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510959114.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種捻股生產工藝
- 下一篇:旅游信息處理方法和裝置





