[發明專利]一種基于BM25加權結合詞向量的文本表示方法在審
| 申請號: | 201811476643.8 | 申請日: | 2018-12-04 |
| 公開(公告)號: | CN109597995A | 公開(公告)日: | 2019-04-09 |
| 發明(設計)人: | 付俊峰;鄭錦坤;梁良 | 申請(專利權)人: | 國網江西省電力有限公司信息通信分公司;國家電網有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/35 |
| 代理公司: | 南昌新天下專利商標代理有限公司 36115 | 代理人: | 施秀瑾 |
| 地址: | 330077 *** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞向量 權重 文檔 加權 文本表示 語義關聯性 合成文本 后續處理 加權模式 句子分解 特征表示 文檔分類 文檔向量 向量表示 單詞組 分類器 分類 求和 算法 稀疏 向量 單詞 捕捉 文本 概率 賦予 | ||
1.一種基于BM25加權結合詞向量的文本表示方法,其特征在于,從一個句子輸入到模型中,到最后系統判定其是否為點擊誘餌的實施過程分解包括如以下步驟:
步驟1:詞的切分,將文檔中的句子分解成為單獨的詞以便進行后續處理;
步驟2:預訓練詞向量,使用當前流行的詞向量表示,稀疏和離散的“單熱”表示難以捕捉詞之間的語義關聯性,而詞向量表示連續和稠密,被訓練來預測上下文中的周圍單詞;
步驟3:計算詞的BM25權重,在進行文本表示時,需要綜合考慮詞的局部重要性和全局重要性,計算每個詞相對整篇文檔的權重時,通過BM25算法給予與文檔相關的詞更高的權重;
步驟4:得到文檔向量表示,通過在引入的BM25函數獲得單詞向量及每個詞對文檔的相對重要性,可以獲得一個文本的稠密向量表示,通過對詞的向量與詞的權重進行加權求和,能夠得到文檔的向量表示,并將其作為最終進行分類的特征表示;
步驟5:分類,將詞向量加權得到的向量作為文本的特征輸入,通過分類器進行判斷該文檔分類到各個類別的概率,將概率最大的類別作為模型的輸出。
2.根據權利要求1所述的一種基于BM25加權結合詞向量的文本表示方法,其特征在于,模型的框架由BM25加權模塊、文本表示組件以及分類組件組成,其中,
BM25加權模塊測量文本中每個單詞的重要性;
文本表示組件計算用于文檔表示的每個單詞的加權平均值;
分類組件使用文本表示作為其輸入,并作出最終的預測。
3.根據權利要求1所述的一種基于BM25加權結合詞向量的文本表示方法,其特征在于,單詞的單詞向量堆疊在詞匯表中,通過函數查找L找到對應的給定詞的詞向量。
4.根據權利要求1所述的一種基于BM25加權結合詞向量的文本表示方法,其特征在于,BM25的一個正式定義,計算文檔d中詞Wi的相關性得分如下:
其中b,k1均為超參數,|d|為文檔的長度,,|avgdl|為整個數據集中文檔的平均長度,IDF用于計算詞的反文檔頻率。
5.根據權利要求4所述的一種基于BM25加權結合詞向量的文本表示方法,其特征在于,IDF的計算方法如下:
其中N數據集中文檔數目,f(wi,d)表示詞在文檔中出現的頻率。
6.根據權利要求1所述的一種基于BM25加權結合詞向量的文本表示方法,其特征在于,文檔的向量表示為:
ed=∑score(wi,d)·ewi。
7.根據權利要求6所述的一種基于BM25加權結合詞向量的文本表示方法,其特征在于,通過softmax分類器預測ed的類別,公式如下:
p(y|ed)=softmax(f(ed))
其中f是一個非線性激活函數,y是文檔的類別,則整個模型只需要最小化如下的損失函數:
J(θ)=-log(p(y|ed;θ))。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網江西省電力有限公司信息通信分公司;國家電網有限公司,未經國網江西省電力有限公司信息通信分公司;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811476643.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:短文本問題語義匹配方法和系統
- 下一篇:一種語義解析方法、裝置、設備和介質





