[發明專利]語義識別方法及裝置有效
| 申請號: | 201810607163.4 | 申請日: | 2018-06-13 |
| 公開(公告)號: | CN110598200B | 公開(公告)日: | 2023-05-23 |
| 發明(設計)人: | 林義明;郭輝;劉建林;戴祥鷹 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35;G06F16/33 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 羅英;劉芳 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義 識別 方法 裝置 | ||
本發明實施例提供一種語義識別方法及裝置。該方法包括:獲取待處理的詞語片段;將待處理的詞語片段與所有語義類別簇中的詞語片段進行字符串匹配,語義類別簇包括數個同一類別詞語片段;若匹配成功,則將待處理的詞語片段識別為與之匹配的語義類別簇的標識詞語片段,標識詞語片段用于標注所屬語義類別簇的中心語義;若匹配失敗,則根據預先訓練的文本分類模型,確定待處理的詞語片段所屬的語義類別簇,并將待處理的詞語片段識別為所屬的語義類別簇的標識詞語片段。本發明實施例的方法,通過精確的字符串匹配和模糊分類相結合,能夠準確識別意思相同但形式不同的詞語片段。
技術領域
本發明實施例涉及計算機文本信息處理技術領域,尤其涉及一種語義識別方法及裝置。
背景技術
隨著人工智能的不斷發展,各個領域中都出現了基于文字的智能系統,如購物網站的智能客服系統,醫療領域的智能問診系統等。由于漢語的博大精深,機器要準確理解文字的語義還是比較困難的。尤其是漢語里有不少同義詞,而相同意思的詞語片段形式更多,雖然人們能夠比較容易地理解這些意思相同但形式不同的詞語片段,但是對于機器來講卻是十分困難的。
為了便于機器理解相同意思的不同詞語片段,使智能系統真正做到智能化,需要對詞語片段進行歸一化。雖然已經有了通用的同義詞詞典,但是無法滿足各個領域內詞語片段歸一化的需求。首先,不同領域中所使用的詞語差異較大,與該領域內的業務密切相關,通用的同義詞詞典在領域詞語覆蓋上無法滿足需求;其次,現有技術中使用通用的同義詞詞典僅能對完全精確匹配的詞進行歸一化,不能對形式多變的詞語片段進行歸一化。領域詞語片段歸一化是一項基礎功能,對構建各個領域的基于文字的智能系統都很有幫助。
綜上所述,現有技術中對于意思相同但形式不同的詞語片段無法準確識別。
發明內容
本發明實施例提供一種語義識別方法及裝置,用以解決現有技術中對于意思相同但形式不同的詞語片段無法準確識別的問題。
第一方面,本發明實施例提供一種語義識別方法,包括:
獲取待處理的詞語片段;
將待處理的詞語片段與所有語義類別簇中的詞語片段進行字符串匹配,語義類別簇包括數個同一類別詞語片段;
若匹配成功,則將待處理的詞語片段識別為與之匹配的語義類別簇的標識詞語片段,標識詞語片段用于標注所屬語義類別簇的中心語義;
若匹配失敗,則根據預先訓練的文本分類模型,確定待處理的詞語片段所屬的語義類別簇,并將待處理的詞語片段識別為所屬的語義類別簇的標識詞語片段。
在一種可能的實現方式中,在根據預先訓練的文本分類模型,確定待處理的詞語片段所屬的語義類別簇之后,方法還包括:
根據所屬的語義類別簇的基本校驗集,對待處理的詞語片段進行校驗。
在一種可能的實現方式中,語義類別簇的標識詞語片段為預先指定的該語義類別簇中的詞語片段,或者,為該語義類別簇中長度最短的詞語片段。
在一種可能的實現方式中,將待處理的詞語片段與所有語義類別簇中的詞語片段進行字符串匹配之前,還包括:
獲取大量各類別的詞語片段;
根據聚類算法對各類別的詞語片段進行聚類,得到不同類別的語義簇。
在一種可能的實現方式中,根據聚類算法對各類別的詞語片段進行聚類包括:
根據同義詞替換和杰卡德相似度相結合的方法,確定任意兩個詞語片段之間的距離;
根據距離對詞語片段進行聚類。
在一種可能的實現方式中,根據同義詞替換和杰卡德相似度相結合的方法,確定任意兩個詞語片段之間的距離包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810607163.4/2.html,轉載請聲明來源鉆瓜專利網。





