[發明專利]一種文字語義分析方法、文字語義分析終端及存儲介質有效
| 申請號: | 201710995052.0 | 申請日: | 2017-10-23 |
| 公開(公告)號: | CN107704453B | 公開(公告)日: | 2021-10-08 |
| 發明(設計)人: | 胡明燈 | 申請(專利權)人: | 深圳市前海眾興科研有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/253;G06F40/289;G06F16/383 |
| 代理公司: | 深圳市徽正知識產權代理有限公司 44405 | 代理人: | 盧杏艷 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文字 語義 分析 方法 終端 存儲 介質 | ||
1.一種文字語義分析方法,其特征在于,包括以下步驟:
接收用戶輸入的文字信息,并對輸入的所述文字信息進行詞法分析,將所述文字信息中包含的字符串分隔成獨立的單詞,得到單詞序列;
對分隔出的單詞序列進行語法分析,判斷所述單詞序列中是否存在語法錯誤,并將存在語法錯誤的單詞或相鄰單詞組成的詞組過濾掉;
將單詞序列中含有的單詞轉化成相對應的元數據,計算各個元數據之間的語義相似度和特征項權重,并根據計算出的語義相似度和特征項權重提取所述單詞序列的關鍵詞特征項,并根據所述關鍵詞特征項得到各個單詞所對應的語義標記文本,并將所述語義標記文本存儲在文本數據庫;
按照單詞序列中各個單詞的排列順序,依次從所述文本數據庫中匹配出對應的語義標記文本,并將排序后合成的文本信息輸出顯示;
其中,采用語義相似度和特征項權重計算的算法都是現有的成熟算法:采用基于語料庫的詞語相似度分析法,算法公式:
Sim(W1,W2)=aDis(W1,W2)+a;
其中,相似度為Sim(W 1,W 2),a是一個可調節的參數,其含義是:當相似度為0.5時的詞語距離值,詞語W1,W 2之間的距離為Dis(W 1,W 2);特征項權重計算公式:w=tf×idf,其中,w為特征項t在文檔d中的權重值,tf表示t在d內出現的頻率,idf表示t的反比文本頻率;采用其方法中應用廣泛的詞語向量空間模型,此模型包含以下幾個步驟:預處理-文本特征項選擇-加權-生成向量空間模型后計算余弦;該模型通過事先選擇一組特征詞,然后計算這一組特征詞與每一個詞的相關性,得到每一個詞的相關性的特征詞向量,用這些向量之間的相似度作為這兩個詞之間的相似度。
2.根據權利要求1所述的文字語義分析方法,其特征在于,所述用戶輸入的文字信息包括:用戶的身份信息和用戶輸入的問題信息;
所述用戶的身份信息包括:用戶ID信息字節、用戶姓名字節、手機號碼字節。
3.根據權利要求2所述的文字語義分析方法,其特征在于,所述將所述文字信息中包含的字符串分隔成獨立的單詞的步驟包括:
使用空格作為分隔符,將所述文字信息中包含的字符串分隔成獨立的單詞,并為每個單詞設置唯一對應的編號標識和下一個元數據的指向標識。
4.根據權利要求3所述的文字語義分析方法,其特征在于,所述接收用戶輸入的文字信息之前,還包括步驟:
創建用于存儲元數據的元數據庫,并且建立單詞目錄與元數據庫中所含元數據之間的關聯關系;
在所述將單詞序列中含有的單詞轉化成相對應的元數據的步驟中,通過所述關聯關系,查找出所述單詞所對應的元數據。
5.根據權利要求4所述的文字語義分析方法,其特征在于,所述計算各個元數據之間的語義相似度和特征項權重,并根據計算出的語義相似度和特征項權重提取所述單詞序列的關鍵詞特征項的步驟包括:
采用基于語料庫的詞語相似度分析法和基于詞語向量空間模型,計算各個元數據之間的語義相似度和特征項權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市前海眾興科研有限公司,未經深圳市前海眾興科研有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710995052.0/1.html,轉載請聲明來源鉆瓜專利網。





