[發明專利]一種領域化詞向量的優化方法及基于其的融合排序方法有效
| 申請號: | 201811257850.4 | 申請日: | 2018-10-26 |
| 公開(公告)號: | CN109359302B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 劉慧君;李傲;曾一;喬猛;周明強;鄔小燕 | 申請(專利權)人: | 重慶大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F16/383;G06F16/33;G06F16/332;G06N3/045 |
| 代理公司: | 重慶信航知識產權代理有限公司 50218 | 代理人: | 李磊 |
| 地址: | 400000 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 領域 向量 優化 方法 基于 融合 排序 | ||
本發明提供了一種領域化詞向量的優化方法及基于其的融合排序方法,其中,領域化詞向量的優化方法包括如下步驟:S11、進行無領域詞向量的訓練并獲得需求詞向量;S12、進行領域詞向量的訓練并得到需求詞向量后使用RWMD算法進行相似度的計算;S12具體步驟如下:S121、對領域語料庫進行數據清洗,將表情符號以及無法識別的亂碼進行清除,并對領域語料庫本身使用LTP的分詞模型進行分詞處理;S122、計算每個詞語的IDF值,IDF值為每個詞語在領域語料庫中出現的概率,并計算出IDF_weight的值。領域化詞向量的優化方法及基于其的融合排序方法解決現有技術中因不能將無領域詞向量和有領域詞向量融合而導致新生成的領域化詞向量不能適應與某一類特定的垂直領域問答系統的問題。
技術領域
本發明涉及信息檢索領域,具體涉及一種領域化詞向量的優化方法及基于其的融合排序方法。
背景技術
隨著社會經濟與互聯網的飛速發展,各種各樣的事務與信息都被當作數據存儲起來。如何使用這些數據并且對其進行科學有效的管理是目前信息檢索領域非常熱門的一個研究方向。搜索引擎的數據庫是多領域雜交的,對于某些專業領域的問題,大規模的搜索引擎會返回較多的無用結果,增加檢索難度,從大量無用信息中尋找相關答案不僅會側面增加檢索系統的負擔,也會降低使用體驗。
專家系統屬于信息檢索的一種應用,針對其主要實現的內容可以將其定義為自然語言處理范疇,即短文本相似度匹配問題。專家系統的底層實現是一個固定專業領域的問答系統,因此返回結果的好壞在一定程度上會影響提問者的體驗。
排序學習目前在信息檢索被廣泛的使用。專家系統正是這一監督學習的一個典型應用,區別于單一的傳統評價模型,排序學習引入了多個傳統模型融合的機制,目前排序學習主要分為三大類,為別是單文檔方法(PointWise?Approach)、文檔對方法(PaireWiseApproach)以及文檔列表方法(ListWise?Approach)。
短文本匹配是通過信息檢索的方式,通過相似問題對來進行所需信息的查找,主要包括語義匹配和詞義匹配,語義匹配需要通過大量的標注數據對其進行語義模型的學習,工程量比較大,針對于知識庫這種數據量相對語言模型較小,難以學習到有效的模型,對于詞義層級上的匹配,則較為簡單快捷,根據TF/IDF或者自然語言模型構建每個詞的特征向量解決了文本序列的概率表示化;BiGram和TriGram模型的建立并通過歐式距離進行相似度的計算;Word2Vec模型簡化了訓練過程,減少了訓練時間。
但是上述方法中均存在以下問題:生成的詞向量僅是受到無領域詞向量的影響,或僅是受到了領域內詞向量的影響,不能將無領域詞向量與領域詞向量融合,而導致新生成的領域化詞向量不能適應于某一類特定的垂直領域問答系統,導致查找時反應過慢的現象出現。
發明內容
本發明要提供一種領域化詞向量的優化方法及基于其的融合排序方法,解決現有技術中因不能將無領域詞向量和有領域詞向量融合而導致新生成的領域化詞向量不能適應與某一類特定的垂直領域問答系統的問題。
為實現上述目的,本發明采用了如下的技術方案:
本發明首先提供一種領域化詞向量的優化方法,包括如下步驟:S11、進行無領域詞向量的訓練;S12、進行領域詞向量的訓練并得到需求詞向量;
S11具體步驟如下:
S111、對無領域語料庫進行數據清洗,將表情符號以及無法識別的亂碼進行清除,并對無領域語料庫本身進行分詞處理;
S112、使用Word2Vec模型對整體的語料庫進行訓練,得到初始詞向量Vold(w);
S113、根據每個詞在無領域語料庫中的頻率p(w)為其設置權重,并根據下列公式計算無領域語料庫中無領域詞向量:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811257850.4/2.html,轉載請聲明來源鉆瓜專利網。





