[發(fā)明專利]一種文字語義分析方法、文字語義分析終端及存儲介質(zhì)有效

申請?zhí)枺?/td>	201710995052.0	申請日：	2017-10-23
公開（公告）號：	CN107704453B	公開（公告）日：	2021-10-08
發(fā)明（設(shè)計）人：	胡明燈	申請（專利權(quán)）人：	深圳市前海眾興科研有限公司
主分類號：	G06F40/30	分類號：	G06F40/30;G06F40/253;G06F40/289;G06F16/383
代理公司：	深圳市徽正知識產(chǎn)權(quán)代理有限公司 44405	代理人：	盧杏艷
地址：	518000 廣東省深圳市前海深港合作區(qū)前***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種文字語義分析方法終端存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提供了一種文字語義分析方法、文字語義分析終端及存儲介質(zhì)，通過接收用戶輸入的文字信息，將所述文字信息中包含的字符串分隔成獨立的單詞，得到單詞序列；對分隔出的單詞序列進行語法分析，判斷所述單詞序列中是否存在語法錯誤；將單詞序列中含有的單詞轉(zhuǎn)化成相對應(yīng)的元數(shù)據(jù)，計算各個元數(shù)據(jù)之間的語義相似度和特征項權(quán)重，并提取所述單詞序列的關(guān)鍵詞特征項，得到各個單詞所對應(yīng)的語義標記文本，建立文本數(shù)據(jù)庫，按照單詞序列中各個單詞的排列順序，依次從文本數(shù)據(jù)庫中匹配出語義標記文本，并將排序后合成的文本信息輸出顯示。本發(fā)明通過元數(shù)據(jù)的格式反饋給用戶，從而方便用戶獲取語義分析終端反饋過來的信息，正確理解和使用信息。

技術(shù)領(lǐng)域

本發(fā)明涉及語義分析技術(shù)領(lǐng)域，尤其涉及一種文字語義分析方法、文字語義分析終端及存儲介質(zhì)。

背景技術(shù)

目前人機之間的交互方式還是采用文字對話方式，信息采集和過濾達不到預(yù)期想要的目的，無法準確識別出當前用戶所說出話的含義，比如說“后海可以嗎？”，但機器卻可以理解為“后海不在家”這樣的意思，而我們用戶的意思是說“我們?nèi)ズ蠛Ｄ沁叧燥埧梢詥?？”，雖然采用的都是文字類型的會話，但人類所表達的意義可以是千變?nèi)f化的，這種文字會話的語義分析方法存在以下諸多不便：

首先，一般情況下，用戶所表達的含義富含人類獨特的情感在里面，如果采用這種簡單的文字會話語義分析方法，機器是沒法做到識別出用戶真正想表達的意思；其實，即使機器可能識別出了用戶的大部分意思，但是通過機器一轉(zhuǎn)述，可能表達的意思又不一樣；第三，如果人機之間的會話都是這種簡單的文字會話，沒有對數(shù)據(jù)進行加密、抽樣分析、輸出加密，則信息的安全性得不到保障，很容易別有心思的人或黑客破解獲取，不利于數(shù)據(jù)信息的傳遞。

因此，現(xiàn)有技術(shù)需要進一步的改進。

發(fā)明內(nèi)容

針對上述技術(shù)問題，本發(fā)明實施例提供了一種文字語義分析方法、文字語義分析終端及存儲介質(zhì)，以旨在幫助現(xiàn)有人機會話無法識別用戶所表述的信息真實的含義，解決信息傳遞錯誤的問題。

本發(fā)明實施例的第一方面提供一種文字語義分析方法，所述文字語義分析方法包括以下步驟：

接收用戶輸入的文字信息，并對輸入的所述文字信息進行詞法分析，將所述文字信息中包含的字符串分隔成獨立的單詞，得到單詞序列；

對分隔出的單詞序列進行語法分析，判斷所述單詞序列中是否存在語法錯誤，并將存在語法錯誤的單詞或相鄰單詞組成的詞組過濾掉；

將單詞序列中含有的單詞轉(zhuǎn)化成相對應(yīng)的元數(shù)據(jù)，計算各個元數(shù)據(jù)之間的語義相似度和特征項權(quán)重，并根據(jù)計算出的語義相似度和特征項權(quán)重提取所述單詞序列的關(guān)鍵詞特征項，并根據(jù)所述關(guān)鍵詞特征項得到各個單詞所對應(yīng)的語義標記文本，并將所述語義標記文本存儲在文本數(shù)據(jù)庫；

按照單詞序列中各個單詞的排列順序，依次從所述文本數(shù)據(jù)庫中匹配出對應(yīng)的語義標記文本，并將排序后合成的文本信息輸出顯示。

可選地，所述用戶輸入的文字信息包括：用戶的身份信息和用戶輸入的問題信息；

所述用戶的身份信息包括：用戶ID信息字節(jié)、用戶姓名字節(jié)、手機號碼字節(jié)。

可選地，所述將所述文字信息中包含的字符串分隔成獨立的單詞的步驟包括：

使用空格作為分隔符，將所述文字信息中包含的字符串分隔成獨立的單詞，并為每個單詞設(shè)置唯一對應(yīng)的編號標識和下一個元數(shù)據(jù)的指向標識。

可選地，接收用戶輸入的文字信息之前還包括：

創(chuàng)建用于存儲元數(shù)據(jù)的元數(shù)據(jù)庫，并且建立單詞目錄與元數(shù)據(jù)庫中所含元數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系；

在所述將單詞序列中含有的單詞轉(zhuǎn)化成相對應(yīng)的元數(shù)據(jù)的步驟中，通過所述關(guān)聯(lián)關(guān)系，查找出所述單詞所對應(yīng)的元數(shù)據(jù)。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市前海眾興科研有限公司，未經(jīng)深圳市前海眾興科研有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710995052.0/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】