[發明專利]一種語言識別方法、系統及裝置有效
| 申請號: | 201911408163.2 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN113128216B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 鄧千;剛周偉;郭麟;陳田川 | 申請(專利權)人: | 中國移動通信集團貴州有限公司;中國移動通信集團有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F18/22 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 李秋華;趙傳海 |
| 地址: | 550081 貴*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語言 識別 方法 系統 裝置 | ||
本發明公開了一種語言識別方法、系統和裝置,屬于識別技術領域。本發明的語言識別方法中,針對專業技術領域,建立存儲有標準指標名的標準詞匯庫,在獲取語句的指標類描述后,首先判斷標準詞匯庫中是否具有完全對應的標準指標名,若有,則以該標準指標名作為語句的指標類信息,以此提高在專業領域上的語言識別;若沒有,結合標準詞匯庫和常規詞庫進行分詞后得到分詞列表,解析分詞列表或獲取指標類信息,由于分詞是結合標準詞匯庫和常規詞庫進行的,相比單純依靠常規詞庫進行分詞,本發明的分詞更貼近該領域的相近詞匯,從而使得分詞后得到的指標類信息更準確,語言識別也更精確。
技術領域
本發明涉及識別技術領域,尤其涉及一種語言識別方法、系統及裝置。
背景技術
自然語言處理屬于人工智能技術的一大方向,目前已經在各行各業中開始應用。自然語言處理可以用于人機交談,交談的內容可以是閑聊。
由于,閑聊通常不存在特定的目的,其分詞通常是基于常規詞庫進行的,將自然語言處理應用于專業領域的人機交談時,由于常規詞庫不能對專業領域的描述進行正確的分詞,常常出現機器人無法正確識別專業領域的術語與問題,導致機器人的回答顯得答非所問。為此,需要提出一種能夠應用于專業領域的語言識別方法。
發明內容
為了解決上述問題,本發明提供一種語言識別方法、系統和裝置。
第一方面,本發明提供一種語言識別方法,包括:
獲取語句的指標類描述;
判斷所述指標類描述是否在標準詞匯庫中具有完全對應的標準指標名;
若是,以所述標準指標名為指標類信息;
若否,結合所述標準詞匯庫和常規詞庫對所述指標類描述進行分詞后得到分詞列表,解析所述分詞列表得到目標指標名,以所述目標指標名為所述指標類信息。
上述的語言識別方法,所述結合所述標準詞匯庫和常規詞庫對所述指標類描述進行分詞后得到分詞列表,包括:
提取指標類描述中的第一分詞,所述第一分詞在所述標準詞匯庫中具有對應標準詞匯;
提取指標類描述中的第二分詞,所述第二分詞在所述常規詞庫中具有對應的常規詞匯;
結合所述第一分詞和所述第二分詞得到所述分詞列表。
上述的語言識別方法,所述解析所述分詞列表得到目標指標名,包括:
在所述標準詞匯庫中,查找與分詞列表中各分詞至少部分對應的標準指標名,依據至少部分對應的所述標準指標名,生成各分詞對應的分詞集合,所述分詞集合中的元素為標準詞匯庫中的標準指標名;
將所有分詞的分詞集合取交集;
若所述交集為非空集合時,以所述交集的元素為目標指標名;
若所述交集為空集時,將所有分詞的分詞集合取并集,分別計算所述并集中每個元素與所述分詞列表的相似度,依據相似度的計算結果,從所述并集中獲取目標元素,并作為目標指標名。
上述的語言識別方法,所述分別計算所述并集中每個元素與所述分詞列表的相似度,包括:
將所述并集中的每個元素按標準詞匯庫中的標準詞匯進行分詞,得到每個元素的元素分詞;
依次計算分詞相似度,所述分詞相似度為每個元素中的每個元素分詞與所述分詞列表中的各分詞的相似度;
計算每個元素中所有的分詞相似度的平均值,作為對應元素與分詞列表的相似度。
上述的語言識別方法,所述依據相似度的計算結果,從所述并集中獲取目標元素,并作為目標指標名,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團貴州有限公司;中國移動通信集團有限公司,未經中國移動通信集團貴州有限公司;中國移動通信集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911408163.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:水質監管系統
- 下一篇:降低干擾方法、接入網設備、通信終端和計算機可讀介質





