[發明專利]語義確定方法及裝置有效
| 申請號: | 201610874450.2 | 申請日: | 2016-09-30 |
| 公開(公告)號: | CN107885718B | 公開(公告)日: | 2020-01-24 |
| 發明(設計)人: | 張博;林樂宇;夏鋒;馮喆;陳磊;劉毅 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/284 |
| 代理公司: | 11138 北京三高永信知識產權代理有限責任公司 | 代理人: | 朱雅男 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義 確定 方法 裝置 | ||
1.一種語義確定方法,其特征在于,所述方法包括:
對文本內容進行分詞,得到至少兩個關鍵詞;
獲取所述至少兩個關鍵詞中每個關鍵詞的關聯詞語;
若關鍵詞p的關聯詞語中存在與關鍵詞q相同的第一關聯詞語,則獲取候選語義詞組中的詞語之間的語義相似度;所述候選語義詞組包括所述關鍵詞p和所述關鍵詞q;
根據每組候選語義詞組以及所述候選語義詞組所對應的語義相似度,確定所述文本內容的語義。
2.根據權利要求1所述的方法,其特征在于,所述獲取所述至少兩個關鍵詞中每個關鍵詞的關聯詞語,包括:
對于第n層中的每個詞語,獲取所述詞語的語義關聯詞,將獲取到的所述語義關聯詞作為第n+1層中的詞語;其中,n的起始值為0,第0層中的詞語為所述至少兩個關鍵詞;
若n+1<V,則將n的取值加1,再次執行所述對于第n層中的每個詞語,獲取所述詞語的語義關聯詞,將獲取到的所述語義關聯詞作為第n+1層中的詞語的步驟;V為大于等于1的整數;
若n+1=V,則將根據每個關鍵詞獲取到的各個詞語作為所述關鍵詞的關聯詞語。
3.根據權利要求2所述的方法,其特征在于,所述詞語為多叉樹中的父節點,所述將獲取到的所述語義關聯詞作為第n+1層中的詞語,包括:
將獲取到的所述語義關聯詞作為所述父節點的子節點;
所述將根據每個關鍵詞獲取到的各個詞語作為所述關鍵詞的關聯詞語,包括:
對于每個關鍵詞,將所述多叉樹中所述關鍵詞所對應的V層子節點中的詞語確定為所述關鍵詞的關聯詞語。
4.根據權利要求2所述的方法,其特征在于,所述獲取所述詞語的語義關聯詞,包括:
獲取所述詞語的m個所述語義關聯詞,所述m的取值為所述第n層所對應的數值,m為正整數。
5.根據權利要求2所述的方法,其特征在于,所述獲取候選語義詞組中的詞語之間的語義相似度,包括:
獲取所述關鍵詞p與所述第一關聯詞語之間的語義相似度。
6.根據權利要求5所述的方法,其特征在于,所述第一關聯詞語為所述關鍵詞p所對應的第k層中的詞語,所述關鍵詞p與所述第一關聯詞語之間的各個詞語為pi,0≤i≤k,p0為所述關鍵詞p,pk為所述第一關聯詞語;k為正整數;
所述獲取所述關鍵詞p與所述第一關聯詞語之間的語義相似度,包括:
根據所述關鍵詞p與所述第一關聯詞語確定所述語義相似度,所述語義相似度為:
7.根據權利要求6所述的方法,其特征在于,獲取到的所述詞語的語義關聯詞的個數為m,m為正整數;
所述獲取所述關鍵詞p與所述第一關聯詞語之間的語義相似度之前,所述方法還包括:
對所述m個語義關聯詞與所述詞語之間的m個語義相似度做歸一化處理,得到歸一化后的每個語義關聯詞與所述詞語的語義相似度。
8.根據權利要求2所述的方法,其特征在于,若所述關鍵詞q的關聯詞語中存在與所述關鍵詞p相同的第二關聯詞語;
所述獲取候選語義詞組中的詞語之間的語義相似度,包括:
確定所述第一關聯詞語和所述第二關聯詞語中所在層數較高的目標關聯詞語;
獲取所述目標關聯詞語與所述目標關聯詞語所對應的關鍵詞之間的語義相似度。
9.根據權利要求1至8任一所述的方法,其特征在于,所述根據每組候選語義詞組以及所述候選語義詞組所對應的語義相似度,確定所述文本內容的語義,包括:
選取所述每組候選語義詞組中語義相似度大于預設閾值的候選語義詞組,通過選擇的所述候選語義詞組表征所述文本內容的語義;
或者,
選取所述每組候選語義詞組中語義相似度排名在前N位的候選語義詞組,通過選取的所述候選語義詞組表征所述文本內容的語義,N為正整數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610874450.2/1.html,轉載請聲明來源鉆瓜專利網。





