[發明專利]一種跨領域知識遷移的標簽嵌入方法和裝置有效
| 申請號: | 201610804200.1 | 申請日: | 2016-09-06 |
| 公開(公告)號: | CN106649434B | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | 李攀登;孟慶婷;孫超;王煉 | 申請(專利權)人: | 北京藍色光標品牌管理顧問股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/151 |
| 代理公司: | 北京市安倫律師事務所 11339 | 代理人: | 楊永波 |
| 地址: | 100015 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 領域 知識 遷移 標簽 嵌入 方法 裝置 | ||
本發明涉及一種跨領域知識遷移的標簽嵌入方法及裝置,包括:獲取源域和目標域的文本數據并進行模型表征,求解源域和目標域中關鍵詞的詞向量參數,進行從源域到目標域的關鍵詞標簽的遷移;獲取源域與目標域中已標注的關鍵詞的最近鄰,將已標注的關鍵詞的關鍵詞標簽賦權給最近鄰的關鍵詞,得到擴展后的關鍵詞標簽;根據抽取的用戶級的文本數據,進行用戶級關鍵詞標簽的標注;以關鍵詞的詞向量參數和用戶級關鍵詞標簽為基礎,根據用戶的點擊和/或訪問數據信息,動態優化用戶級關鍵詞標簽部分的參數;從目標域中獲取新的用戶級文本數據,進行用戶級關鍵詞標簽的標注預測和排序,并輸出結果。本發明可以兼顧標簽標注的準確性及高效率性,滿足業務人員的業務需求。
技術領域
本發明涉及貝葉斯網絡及文本挖掘的應用領域,尤其涉及一種跨領域知識遷移的標簽嵌入方法和裝置。
背景技術
近年來,隨著大數據技術的飛速發展,各行各業越來越注重數據的價值,且各家積累的數據源和數據結構呈現出多樣化的特點,其中文本數據的產生也越來越多,如各家線上媒體、電商評論、微博、在線廣告等都會產生大量的文本數據,通過挖掘用戶的這些歷史行為數據中的信息,識別用戶的興趣,對各家企業十分重要。由于文本數據的特征表達多高維稀疏,且中文語義復雜,對這些文本進行語義解析和分類一直是一大難題,學術界和工業界產生了一些優秀的算法,如LDA、PLSA、深度學習分類等方法,在計算方法上也有分布式并行計算如hadoop、spark、參數服務器等進行模型訓練和泛化的方式。
但是我們在實際使用和研究過程中發現,現有技術至少存在以下問題:現有技術是基于非監督學習的聚類分析方法或是依賴大量標注數據,不能滿足業務人員的個性化需求。實際使用過程中經常由業務人員根據自身業務發展情況設計自上而下的標簽體系,這種情況下采用非監督學習的聚類分析技術輸出的結果與業務體系本身往往會有較大差異;若選擇采用監督方法,如文本分類按照業務人員設計的體系對預料的語句進行標注,產生樣本數據,而對語句或文章的標注對文本數據總體來說,耗時且耗費成本,而且標注的準確性也取決于參與標注人員的業務經驗。
總之,現有技術中對文本數據進行標簽標注的算法不能兼顧標注的準確性及高效率性,滿足業務人員的業務需求。
發明內容
為解決以上問題,本發明提供一種跨領域知識遷移的標簽嵌入方法和裝置,使其可以兼顧標注的準確性及高效率性,滿足業務人員的業務需求。
本發明一種跨領域知識遷移的標簽嵌入方法,包括以下步驟:獲取源域和目標域的文本數據,對源域和目標域的文本數據進行分詞處理和模型表征,求解源域和目標域中關鍵詞的詞向量參數,并進行從源域到目標域的關鍵詞標簽的遷移;采用隨機森林最近鄰方法獲取源域與目標域中已標注的關鍵詞的最近鄰,將已標注的關鍵詞的關鍵詞標簽賦權給最近鄰的關鍵詞,得到擴展后的關鍵詞標簽;根據抽取的用戶級的文本數據,進行用戶級關鍵詞標簽的標注;以關鍵詞的詞向量參數和用戶級關鍵詞標簽為基礎,根據用戶的點擊和/或訪問數據信息,動態優化用戶級關鍵詞標簽部分的參數;從目標域中獲取新的用戶級文本數據,進行用戶級關鍵詞標簽的標注預測和排序,并輸出結果。
作為進一步優化,所述對源域和目標域的文本數據進行模型表征,求解源域和目標域中關鍵詞的詞向量參數,包括:建立連接源域和目標域數據特征的綜合似然損失函數,其中,所述綜合似然損失函數由極大似然損失函數和共享正則函數構成;采用kernel-based高斯核算法模型度量共享正則函數;對極大似然損失函數進行轉化;采用異步隨機梯度下降算法對綜合似然損失函數進行迭代優化求解,得到源域和目標域中關鍵詞的詞向量參數。
所述對極大似然損失函數進行轉化,事先需要對源域和目標域中的關鍵詞采用Huffman編碼,編碼后產生的路徑節點的分支采用Logistic分類預測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京藍色光標品牌管理顧問股份有限公司,未經北京藍色光標品牌管理顧問股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610804200.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于觀點語句可信度的話題觀點強度計算方法
- 下一篇:數據查詢裝置及方法





