[發(fā)明專利]語義分析方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310314194.8 | 申請日: | 2013-07-24 |
| 公開(公告)號: | CN104346339B | 公開(公告)日: | 2019-09-10 |
| 發(fā)明(設(shè)計(jì))人: | 王益;趙學(xué)敏;孫振龍;嚴(yán)浩;王莉峰;靳志輝;王流斌 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F17/27 |
| 代理公司: | 北京三高永信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11138 | 代理人: | 滕一斌 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語義 分析 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,特別涉及一種語義分析方法及系統(tǒng)。
背景技術(shù)
在目前的網(wǎng)絡(luò)活動(dòng)中,用戶常常會(huì)通過關(guān)鍵字詞來搜索自己感興趣的信息,比如,用戶在搜索引擎中輸入關(guān)鍵字詞,搜索引擎通過關(guān)鍵字匹配算法來檢索諸如圖片、視頻和鏈接之類的信息。然而,從自然語言的角度來說,大部分詞具有一詞多義的特點(diǎn),一個(gè)詞除了表達(dá)本意之外,還可能具有其它的隱含語義,僅通過關(guān)鍵字匹配的搜索方法無法為用戶提供更精確的服務(wù)。
為了提高匹配結(jié)果的相關(guān)性,近年來興起一種基于隱含語義的索引方式,其檢索結(jié)果的實(shí)際效果更接近于人的自然語言。而要實(shí)現(xiàn)基于隱含語義的索引,首先需要進(jìn)行隱含語義分析,以大樣本數(shù)量的統(tǒng)計(jì)分析找出不同的詞之間的相關(guān)性。
現(xiàn)有的語義分析方法主要包括如下步驟:1)獲取訓(xùn)練語料,該訓(xùn)練語料中包括多個(gè)訓(xùn)練文檔,每個(gè)訓(xùn)練文檔中包括至少兩個(gè)詞;2)對訓(xùn)練語料進(jìn)行迭代采樣,輸出最終收斂的采樣模型;3)對輸出的采樣模型進(jìn)行分析。具體請參見圖1,其示出了本發(fā)明現(xiàn)有技術(shù)提供的語義分析系統(tǒng)的架構(gòu)圖,該語義分析系統(tǒng)包括多個(gè)訓(xùn)練進(jìn)程和多個(gè)模型進(jìn)程。其中,訓(xùn)練進(jìn)程用于加載訓(xùn)練文檔,從模型進(jìn)程獲取上一輪采樣獲得的采樣模型,并根據(jù)獲取到的采樣模型對加載的訓(xùn)練文檔進(jìn)行采樣,最后向模型進(jìn)程輸出本輪采樣獲得的采樣模型。訓(xùn)練進(jìn)程和模型進(jìn)程之間通過交換詞的主題分布向量來進(jìn)行通信。
在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
現(xiàn)有的語義分析方法中,當(dāng)要分析的隱含語義很多時(shí),對單進(jìn)程的內(nèi)存要求較高,訓(xùn)練效率低。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中當(dāng)要分析的隱含語義較多時(shí)對單進(jìn)程的內(nèi)存要求較高,訓(xùn)練效率低的問題,本發(fā)明實(shí)施例提供了一種語義分析方法及系統(tǒng)。所述技術(shù)方案如下:
一方面,提供了一種語義分析方法,所述方法包括:
獲取訓(xùn)練語料,所述訓(xùn)練語料中包括N個(gè)訓(xùn)練文檔,每個(gè)所述訓(xùn)練文檔中包括至少兩個(gè)詞;
按照文檔維度和詞維度將所述訓(xùn)練語料切分成a*M*M個(gè)數(shù)據(jù)塊,其中,a為大于等于1的整數(shù),且a*M小于所述訓(xùn)練文檔的個(gè)數(shù)N,N≥2;
對切分出的所述a*M*M個(gè)數(shù)據(jù)塊進(jìn)行迭代采樣,輸出最終收斂的采樣模型;
根據(jù)所述最終收斂的采樣模型進(jìn)行語義分析。
另一方面,提供了一種語義分析系統(tǒng),所述系統(tǒng)包括:
訓(xùn)練語料獲取模塊,用于獲取訓(xùn)練語料,所述訓(xùn)練語料中包括N個(gè)訓(xùn)練文檔,每個(gè)所述訓(xùn)練文檔中包括至少兩個(gè)詞;
切分模塊,用于按照文檔維度和詞維度將所述訓(xùn)練語料獲取模塊獲取到的訓(xùn)練語料切分成a*M*M個(gè)數(shù)據(jù)塊,其中,a為大于等于1的整數(shù),且a*M小于所述訓(xùn)練文檔的個(gè)數(shù)N,N≥2;
迭代采樣模塊,用于對所述切分模塊切分出的所述a*M*M個(gè)數(shù)據(jù)塊進(jìn)行迭代采樣,輸出最終收斂的采樣模型;
語義分析模塊,用于根據(jù)所述迭代采樣模塊輸出的、最終收斂的采樣模型進(jìn)行語義分析。
本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果是:
通過將獲取到的訓(xùn)練語料切分成a*M*M個(gè)數(shù)據(jù)塊,對切分出的該a*M*M個(gè)數(shù)據(jù)塊進(jìn)行迭代采樣,輸出最終收斂的采樣模型,根據(jù)輸出的最終收斂的采樣模型進(jìn)行分析。由于切分獲得的a*M*M數(shù)據(jù)塊可以分別單獨(dú)進(jìn)行采樣,從而可以降低單進(jìn)程的內(nèi)存需求,解決了現(xiàn)有技術(shù)中當(dāng)要訓(xùn)練的隱含語義較多時(shí)對單進(jìn)程的內(nèi)存要求較高的問題,達(dá)到提高訓(xùn)練效率的目的。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明現(xiàn)有技術(shù)提供的語義分析系統(tǒng)的架構(gòu)圖;
圖2是本發(fā)明實(shí)施例一提供的語義分析方法的方法流程圖;
圖3是本發(fā)明實(shí)施例二提供的語義分析方法的方法流程圖;
圖4是本發(fā)明實(shí)施例二提供的語義分析系統(tǒng)進(jìn)程框架圖;
圖5是本發(fā)明實(shí)施例三提供的語義分析系統(tǒng)的系統(tǒng)構(gòu)成圖;
圖6是本發(fā)明實(shí)施例四提供的語義分析系統(tǒng)的系統(tǒng)構(gòu)成圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
實(shí)施例一
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310314194.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種新型疏水膜及其制備方法
- 下一篇:電子裝置
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級語義表征和語義計(jì)算的信號語義識(shí)別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





