[發(fā)明專利]一種文字語義分析方法、文字語義分析終端及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201710995052.0 | 申請日: | 2017-10-23 |
| 公開(公告)號: | CN107704453B | 公開(公告)日: | 2021-10-08 |
| 發(fā)明(設(shè)計)人: | 胡明燈 | 申請(專利權(quán))人: | 深圳市前海眾興科研有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/253;G06F40/289;G06F16/383 |
| 代理公司: | 深圳市徽正知識產(chǎn)權(quán)代理有限公司 44405 | 代理人: | 盧杏艷 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)前*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文字 語義 分析 方法 終端 存儲 介質(zhì) | ||
本發(fā)明提供了一種文字語義分析方法、文字語義分析終端及存儲介質(zhì),通過接收用戶輸入的文字信息,將所述文字信息中包含的字符串分隔成獨立的單詞,得到單詞序列;對分隔出的單詞序列進行語法分析,判斷所述單詞序列中是否存在語法錯誤;將單詞序列中含有的單詞轉(zhuǎn)化成相對應(yīng)的元數(shù)據(jù),計算各個元數(shù)據(jù)之間的語義相似度和特征項權(quán)重,并提取所述單詞序列的關(guān)鍵詞特征項,得到各個單詞所對應(yīng)的語義標記文本,建立文本數(shù)據(jù)庫,按照單詞序列中各個單詞的排列順序,依次從文本數(shù)據(jù)庫中匹配出語義標記文本,并將排序后合成的文本信息輸出顯示。本發(fā)明通過元數(shù)據(jù)的格式反饋給用戶,從而方便用戶獲取語義分析終端反饋過來的信息,正確理解和使用信息。
技術(shù)領(lǐng)域
本發(fā)明涉及語義分析技術(shù)領(lǐng)域,尤其涉及一種文字語義分析方法、文字語義分析終端及存儲介質(zhì)。
背景技術(shù)
目前人機之間的交互方式還是采用文字對話方式,信息采集和過濾達不到預(yù)期想要的目的,無法準確識別出當前用戶所說出話的含義,比如說“后海可以嗎?”,但機器卻可以理解為“后海不在家”這樣的意思,而我們用戶的意思是說“我們?nèi)ズ蠛D沁叧燥埧梢詥??”,雖然采用的都是文字類型的會話,但人類所表達的意義可以是千變?nèi)f化的,這種文字會話的語義分析方法存在以下諸多不便:
首先,一般情況下,用戶所表達的含義富含人類獨特的情感在里面,如果采用這種簡單的文字會話語義分析方法,機器是沒法做到識別出用戶真正想表達的意思;其實,即使機器可能識別出了用戶的大部分意思,但是通過機器一轉(zhuǎn)述,可能表達的意思又不一樣;第三,如果人機之間的會話都是這種簡單的文字會話,沒有對數(shù)據(jù)進行加密、抽樣分析、輸出加密,則信息的安全性得不到保障,很容易別有心思的人或黑客破解獲取,不利于數(shù)據(jù)信息的傳遞。
因此,現(xiàn)有技術(shù)需要進一步的改進。
發(fā)明內(nèi)容
針對上述技術(shù)問題,本發(fā)明實施例提供了一種文字語義分析方法、文字語義分析終端及存儲介質(zhì),以旨在幫助現(xiàn)有人機會話無法識別用戶所表述的信息真實的含義,解決信息傳遞錯誤的問題。
本發(fā)明實施例的第一方面提供一種文字語義分析方法,所述文字語義分析方法包括以下步驟:
接收用戶輸入的文字信息,并對輸入的所述文字信息進行詞法分析,將所述文字信息中包含的字符串分隔成獨立的單詞,得到單詞序列;
對分隔出的單詞序列進行語法分析,判斷所述單詞序列中是否存在語法錯誤,并將存在語法錯誤的單詞或相鄰單詞組成的詞組過濾掉;
將單詞序列中含有的單詞轉(zhuǎn)化成相對應(yīng)的元數(shù)據(jù),計算各個元數(shù)據(jù)之間的語義相似度和特征項權(quán)重,并根據(jù)計算出的語義相似度和特征項權(quán)重提取所述單詞序列的關(guān)鍵詞特征項,并根據(jù)所述關(guān)鍵詞特征項得到各個單詞所對應(yīng)的語義標記文本,并將所述語義標記文本存儲在文本數(shù)據(jù)庫;
按照單詞序列中各個單詞的排列順序,依次從所述文本數(shù)據(jù)庫中匹配出對應(yīng)的語義標記文本,并將排序后合成的文本信息輸出顯示。
可選地,所述用戶輸入的文字信息包括:用戶的身份信息和用戶輸入的問題信息;
所述用戶的身份信息包括:用戶ID信息字節(jié)、用戶姓名字節(jié)、手機號碼字節(jié)。
可選地,所述將所述文字信息中包含的字符串分隔成獨立的單詞的步驟包括:
使用空格作為分隔符,將所述文字信息中包含的字符串分隔成獨立的單詞,并為每個單詞設(shè)置唯一對應(yīng)的編號標識和下一個元數(shù)據(jù)的指向標識。
可選地,接收用戶輸入的文字信息之前還包括:
創(chuàng)建用于存儲元數(shù)據(jù)的元數(shù)據(jù)庫,并且建立單詞目錄與元數(shù)據(jù)庫中所含元數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系;
在所述將單詞序列中含有的單詞轉(zhuǎn)化成相對應(yīng)的元數(shù)據(jù)的步驟中,通過所述關(guān)聯(lián)關(guān)系,查找出所述單詞所對應(yīng)的元數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市前海眾興科研有限公司,未經(jīng)深圳市前海眾興科研有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710995052.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





