[發明專利]一種跨領域知識遷移的標簽嵌入方法和裝置有效
| 申請號: | 201610804200.1 | 申請日: | 2016-09-06 |
| 公開(公告)號: | CN106649434B | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | 李攀登;孟慶婷;孫超;王煉 | 申請(專利權)人: | 北京藍色光標品牌管理顧問股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/151 |
| 代理公司: | 北京市安倫律師事務所 11339 | 代理人: | 楊永波 |
| 地址: | 100015 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 領域 知識 遷移 標簽 嵌入 方法 裝置 | ||
1.一種跨領域知識遷移的標簽嵌入方法,其特征在于,包括以下步驟:
獲取源域和目標域的文本數據,對源域和目標域的文本數據進行分詞處理和模型表征,求解源域和目標域中關鍵詞的詞向量參數,并進行從源域到目標域的關鍵詞標簽的遷移;
以源域和目標域中的關鍵詞的詞向量參數為基礎構建隨機抽取向量組,根據隨機抽取的關鍵詞的詞向量參數間的余弦值作為分支依據,構建隨機森林;
采用隨機森林最近鄰方法獲取源域與目標域中已標注的關鍵詞的最近鄰,將已標注的關鍵詞的關鍵詞標簽賦權給最近鄰的關鍵詞,得到擴展后的關鍵詞標簽;
根據抽取的用戶級的文本數據,進行用戶級關鍵詞標簽的標注;
以關鍵詞的詞向量參數和用戶級關鍵詞標簽為基礎,根據用戶的點擊和/或訪問數據信息,動態優化用戶級關鍵詞標簽部分的參數;
從目標域中獲取新的用戶級文本數據,進行用戶級關鍵詞標簽的標注預測和排序,并輸出結果。
2.根據權利要求1所述的跨領域知識遷移的標簽嵌入方法,其特征在于,所述對源域和目標域的文本數據進行模型表征,求解源域和目標域中關鍵詞的詞向量參數,包括:
建立連接源域和目標域數據特征的綜合似然損失函數,其中,所述綜合似然損失函數由極大似然損失函數和共享正則函數構成;
采用kernel-based高斯核算法模型度量共享正則函數;
對極大似然損失函數進行轉化;
采用異步隨機梯度下降算法對綜合似然損失函數進行迭代優化求解,得到源域和目標域中關鍵詞的詞向量參數。
3.根據權利要求2所述的跨領域知識遷移的標簽嵌入方法,其特征在于,所述對極大似然損失函數進行轉化,事先需要對源域和目標域中的關鍵詞采用Huffman編碼,編碼后產生的路徑節點的分支采用Logistic分類預測。
4.根據權利要求1所述的跨領域知識遷移的標簽嵌入方法,其特征在于,所述采用隨機森林最近鄰方法獲取源域與目標域中已標注的關鍵詞的最近鄰,將已標注的關鍵詞的關鍵詞標簽賦權給最近鄰的關鍵詞,得到擴展后的關鍵詞標簽,包括:
搜索每棵樹上具有關鍵詞標簽的關鍵詞的最近鄰關鍵詞,并將已標注的關鍵詞的關鍵詞標簽賦權給最近鄰的關鍵詞;
對所有樹上具有相同關鍵詞標簽的關鍵詞進行匯總和緊鄰排序,得到擴展后的關鍵詞標簽及關鍵詞標簽所包含的關鍵詞集合。
5.根據權利要求1所述的跨領域知識遷移的標簽嵌入方法,其特征在于,所述以關鍵詞的詞向量參數和用戶級關鍵詞標簽為基礎,根據用戶點擊和/或訪問的數據信息,動態優化用戶級關鍵詞標簽部分的參數,包括:
以用戶級關鍵詞標簽作為本步驟的一個輸入源,以用戶在線廣告投放的點擊反饋和廣告或訪問渠道的數據信息作為另一個輸入源,將二者的概率分布進行聯合,構建聯合似然損失函數;
采用隨機梯度下降算法對所述聯合似然損失函數進行迭代優化求解,獲得用戶級關鍵詞標簽部分的參數。
6.根據權利要求5所述的跨領域知識遷移的標簽嵌入方法,其特征在于,所述用戶級關鍵詞標簽的標注服從多項分布,對應的關鍵詞的詞向量參數為其特征,所述用戶在線廣告投放的點擊反饋服從二項分布,廣告或訪問渠道的數據信息為其對應的擴展特征。
7.一種應用權利要求1-6中任一項所述方法的跨領域知識遷移的標簽嵌入裝置,包括:
獲取模塊,用于獲取源域和目標域的文本數據;
分詞模塊,用于對獲取的源域和目標域的文本數據進行分詞處理;
模型表征模塊,用于求解源域和目標域中關鍵詞的詞向量參數;
遷移模塊,用于根據得到的源域和目標域中關鍵詞的詞向量參數,將源域中的關鍵詞標簽遷移至目標域;
擴展模塊,用于采用隨機森林最近鄰方法獲取源域與目標域中已標注的關鍵詞的最近鄰,將已標注的關鍵詞的關鍵詞標簽賦權給最近鄰的關鍵詞,得到擴展后的關鍵詞標簽;
標注模塊,用于根據抽取的用戶級的文本數據,進行用戶級關鍵詞標簽的標注;
動態優化模塊,用于以上述模塊得到的關鍵詞的詞向量參數和用戶級關鍵詞標簽為基礎,根據用戶的點擊和/或訪問數據信息,進行動態優化,調整用戶級關鍵詞標簽的標注;
標注預測模塊,用于從目標域中獲取新的用戶級文本數據,進行用戶級關鍵詞標簽的標注預測和排序,并輸出結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京藍色光標品牌管理顧問股份有限公司,未經北京藍色光標品牌管理顧問股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610804200.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于觀點語句可信度的話題觀點強度計算方法
- 下一篇:數據查詢裝置及方法





