[發明專利]一種基于BM25加權結合詞向量的文本表示方法在審
| 申請號: | 201811476643.8 | 申請日: | 2018-12-04 |
| 公開(公告)號: | CN109597995A | 公開(公告)日: | 2019-04-09 |
| 發明(設計)人: | 付俊峰;鄭錦坤;梁良 | 申請(專利權)人: | 國網江西省電力有限公司信息通信分公司;國家電網有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/35 |
| 代理公司: | 南昌新天下專利商標代理有限公司 36115 | 代理人: | 施秀瑾 |
| 地址: | 330077 *** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞向量 權重 文檔 加權 文本表示 語義關聯性 合成文本 后續處理 加權模式 句子分解 特征表示 文檔分類 文檔向量 向量表示 單詞組 分類器 分類 求和 算法 稀疏 向量 單詞 捕捉 文本 概率 賦予 | ||
本發明公開了一種基于BM25加權結合詞向量的文本表示方法,包括如以下步驟:步驟1:詞的切分,將文檔中的句子分解成為單獨的詞以便進行后續處理;步驟2:預訓練詞向量,使用當前流行的詞向量表示,稀疏和離散的“單熱”表示難以捕捉詞之間的語義關聯性;步驟3:計算詞的BM25權重,通過BM25算法給予與文檔相關的詞更高的權重;步驟4:得到文檔向量表示,通過對詞的向量與詞的權重進行加權求和,能夠得到文檔的向量表示,并將其作為最終進行分類的特征表示;步驟5:分類,通過分類器進行判斷該文檔分類到各個類別的概率。本發明使用BM25加權模式,可以從文本中識別出最重要的單詞,并在將單詞組合成文本表示時賦予它們更大的權重,更加有效且高效。
技術領域
本發明涉及到數據庫數據復制技術領域,特別涉及一種基于BM25加權結合詞向量的文本表示方法。
背景技術
將文本表示成有意義和有效的形式是自然語言處理中的一項基本任務。它也是許多基于文本的預測任務(如文檔分類)的初始步驟。由于它的重要性,因此有許多前人工作致力于開發高效和有效的算法來表示有利于下游任務的文本。
早期的研究依賴于特征工程,通過從原始文本中提取詞n元句法、詞匯和句法特征來構造它們的特征集。它們使用一個超大維向量,如果某個詞出現,則該向量對應維度為1,因此稱為“單熱”表示。這樣的表示通常是稀疏的和離散的,不能捕捉特征之間的深層語義關聯。其他各種技術,使用外部資源,如WordNet,以緩解特征稀疏問題。
表示學習的最新進展緩解了上述問題。表示學習的目的是學習為文本學習一個稠密的,連續的向量,并捕捉語義之間的相關性文本。根據他們是否依賴外部監督,可以進一步分類為無監督和監督的方法。無監督的方法,如Word2vec,段落向量,首先隨機初始化文本表示,然后更新表示來預測其上下文。共享相似上下文的文本在向量空間中彼此接近。有監督的任務通常是任務相關的,它根據特定的任務來定制文本表示,并且被訓練以最大化模型的性能。
現有工作的局限性是:第一,離散和稀疏表示不能捕獲文本段之間的深層語義關聯;第二,雖然無監督的方法容易且高效地訓練,但它們不適合特定任務。因此,它們通常比監督的效果差。第三,監督一個通常是難以訓練,遞歸神經網絡和許多其他的深度學習方法通常有許多參數需要調節。
發明內容
發明的目的在于提供一種基于BM25加權結合詞向量的文本表示方法,本發明使用BM25加權模式,可以從文本中識別出最重要的單詞,并在將單詞組合成文本表示時賦予它們更大的權重,以捕獲詞之間的語義關聯性,本發明的方法有效且高效,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:
一種基于BM25加權結合詞向量的文本表示方法,從一個句子輸入到模型中,到最后系統判定其是否為點擊誘餌的實施過程分解包括如以下步驟:
步驟1:詞的切分,將文檔中的句子分解成為單獨的詞以便進行后續處理;
步驟2:預訓練詞向量,使用當前流行的詞向量表示,稀疏和離散的“單熱”表示難以捕捉詞之間的語義關聯性,而詞向量表示連續和稠密,被訓練來預測上下文中的周圍單詞;
步驟3:計算詞的BM25權重,在進行文本表示時,需要綜合考慮詞的局部重要性和全局重要性,計算每個詞相對整篇文檔的權重時,通過BM25算法給予與文檔相關的詞更高的權重;
步驟4:得到文檔向量表示,通過在引入的BM25函數獲得單詞向量及每個詞對文檔的相對重要性,可以獲得一個文本的稠密向量表示,通過對詞的向量與詞的權重進行加權求和,能夠得到文檔的向量表示,并將其作為最終進行分類的特征表示;
步驟5:分類,將詞向量加權得到的向量作為文本的特征輸入,通過分類器進行判斷該文檔分類到各個類別的概率,將概率最大的類別作為模型的輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網江西省電力有限公司信息通信分公司;國家電網有限公司,未經國網江西省電力有限公司信息通信分公司;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811476643.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:短文本問題語義匹配方法和系統
- 下一篇:一種語義解析方法、裝置、設備和介質





