[發明專利]一種獲取詞語相關度的方法及裝置有效
| 申請號: | 201710362164.2 | 申請日: | 2017-05-22 |
| 公開(公告)號: | CN108932222B | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 李小濤;游樹娟 | 申請(專利權)人: | 中國移動通信有限公司研究院;中國移動通信集團公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/205;G06F16/33;G06N3/08 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 許靜;安利霞 |
| 地址: | 100053 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 獲取 詞語 相關 方法 裝置 | ||
本發明提供一種獲取詞語相關度的方法及裝置,涉及通信領域。該獲取詞語相關度的方法包括:構建基于同義詞詞林的詞向量集合,其中所述同義詞詞林中記錄了預定詞語和所述預定詞語的標識編碼集;根據所述同義詞詞林,分別獲取第一目標詞語的第一標識編碼集和第二目標詞語的第二標識編碼集;根據所述第一標識編碼集、所述第二標識編碼集和所述詞向量集合,獲得所述第一目標詞語和所述第二目標詞語的目標相關度。本發明的方案,解決了現有的語義相關度計算方法,對于同義詞、低頻同現詞和一詞多義的情況下,會出現相關度計算結果不準確的問題。
技術領域
本發明涉及通信領域,特別是指一種獲取詞語相關度的方法及裝置。
背景技術
計算機和互聯網技術的飛速發展使得網絡上的數據資源呈指數級增長,這些數據信息對于計算機來說非常難于理解和應用,而人們又希望從中迅速有效地獲取所需要的信息,所以對信息的智能、自動化的處理需求越來越迫切,這些自動處理的核心問題之一是語義相關度計算問題。
語義相關度是表示兩個詞語相關程度的一個概念,它反映的是詞語的關聯程度。和語義相關度相對應的是語義相似度,表示各概念間的相似程度,即兩個概念本身之間具有某些共同特性。例如,汽車和自行車都繼承于車這個概念,即具有車這個概念的共同特性。所以,汽車和自行車兩個概念是相似的。而汽車和汽油兩個概念并沒有共同的父概念,但兩個概念卻有緊密聯系,是相關的。因此語義相關度在范圍上包含語義相似度,兩個概念之間相似,則一定相關;兩個概念相關,卻不一定相似。
語義相關度計算作為自然語言處理領域的重要研究方向,是語義網、信息檢索、數據挖掘、信息集成、知識管理、文本分類、詞義消歧、基于實例的機器翻譯等多種自然語言處理技術的重要基礎,因此語義相關度的研究具有很重要的意義。目前,語義相關性計算方面的研究主要為基于詞向量模型的語義相關度計算方法。
基于詞向量模型的語義相關度計算方法,通過對語料庫(如wiki語料庫、Google語料庫和Sogou語料庫等)進行分詞,然后結合詞語的鄰域利用深度學習算法為每個分詞后的詞語訓練一個固定維數的實向量,然后利用向量之間的余弦距離作為詞匯之間相關度的衡量標準。其中詞向量模型中,最為知名的是word2vec模型。word2vec是Google推出的一款基于Deep Learning的開源的學習工具。word2vec通過在給定語料庫上訓練一個模型,將單詞轉換成向量形式的工具。詞向量具有良好的語義特性,是表示詞語特征的常用方式。詞向量每一維的值代表一個具有一定的語義和語法上解釋的特征。通過詞向量訓練,可以把對文本內容的處理簡化為向量空間中的向量運算,計算出向量空間上詞與詞之間的相關度,來表示詞語語義上的相關度。word2vec常用的訓練模型為連續詞袋CBOW。CBOW基于神經網絡模型,包含輸入層、投影層和輸出層,通過上下文來預測當前詞。
然而,基于word2vec詞向量模型的語義相關度計算方法,對于同義詞、低頻同現詞和一詞多義的情況下,會出現相關度計算結果不準確的問題,如下表1、表2和表3所示。
表1
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信有限公司研究院;中國移動通信集團公司,未經中國移動通信有限公司研究院;中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710362164.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于大對象的文件排版方法和裝置
- 下一篇:未登錄屬性抽取方法和裝置





