[發(fā)明專利]一種廣電知識圖譜構建方法及裝置在審
| 申請?zhí)枺?/td> | 201811495424.4 | 申請日: | 2018-12-07 |
| 公開(公告)號: | CN111291191A | 公開(公告)日: | 2020-06-16 |
| 發(fā)明(設計)人: | 萬倩;歐陽峰;朱里越;趙明;牛妍華 | 申請(專利權)人: | 國家新聞出版廣電總局廣播科學研究院 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/182;G06F16/9535 |
| 代理公司: | 工業(yè)和信息化部電子專利中心 11010 | 代理人: | 于金平 |
| 地址: | 100866 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 廣電 知識 圖譜 構建 方法 裝置 | ||
1.一種廣電知識圖譜構建方法,其特征在于,包括:
對預設數據源進行分析處理,并存儲在數據庫中;
基于所述數據庫,對用戶、節(jié)目和套餐進行用戶畫像、節(jié)目標簽和套餐標簽的畫像特征的可視化展示,并從所述數據庫中獲取人-人、人-節(jié)目、人-套餐之間的關系,分別進行知識圖譜的可視化展示;
根據所述畫像特征和所述知識圖譜構建廣電行業(yè)的知識圖譜應用。
2.根據權利要求1所述的方法,其特征在于,
所述數據源包括廣電內部的用戶收視行為數據、用戶訂購行為數據、媒資系統數據,以及互聯網公開的節(jié)目信息數據。
3.根據權利要求1所述的方法,其特征在于,對預設數據源進行分析處理,包括:
步驟一,建立Hive映射表,將HDFS中預處理后的用戶收視行為、用戶訂購行為、媒資系統中的節(jié)目信息以及從互聯網爬取得到的節(jié)目信息的數據導入到Hive數據倉庫;
步驟二,用分布式計算框架Spark從用戶收視行為和用戶訂購行為中分別抽取出用戶基本屬性信息和套餐基本屬性信息,并將媒資系統和互聯網的節(jié)目信息融合后給節(jié)目打標簽,最后將生成的標簽與節(jié)目基本屬性信息合并后存入Mysql關系型數據庫,同理,基于套餐基本屬性信息中的包名用自然語言處理技術給套餐打標簽,將套餐基本屬性信息和套餐標簽合并后存入Mysql;
步驟三,用Spark從用戶收視行為和訂購行為中對用戶觀看的節(jié)目和訂購的套餐的標簽進行詞頻統計,分別挑選次數最多的TopN作為用戶觀看節(jié)目的興趣標簽和用戶訂購套餐的興趣標簽,將用戶基本屬性信息和用戶觀看節(jié)目的興趣標簽和用戶訂購套餐的興趣標簽合并后存入Mysql。
4.根據權利要求3所述的方法,其特征在于,所述步驟三之后還包括:
將用Spark從用戶收視行為和用戶訂購行為中抽取出用戶-觀看-節(jié)目,用戶-訂購-套餐的三元組關系并導入Neo4j圖數據庫中進行存儲。
5.根據權利要求1所述的方法,其特征在于,還包括:構建節(jié)目標簽。
6.根據權利要求5所述的方法,其特征在于,構建節(jié)目標簽包括:
步驟一:對節(jié)目簡介文本進行簡繁轉換,全部轉換為中文后,進行分詞處理;
步驟二:利用TF進行詞頻統計,得到基于所有節(jié)目簡介分詞結果統計的詞語詞頻,并對詞頻列表進行頻率從大到小的排序,使用該詞頻統計結果,對每個節(jié)目簡介的分詞結果進行過濾,僅保留頻率大于預定數值的詞語;
步驟三:對選取的高頻詞語進行去停用詞處理;
步驟四:經過去停用詞處理后,每個節(jié)目簡介都會獲得一個特征詞表,以每個節(jié)目的特征詞表作為一個樣本,構建用于深度學習模型Word2Vec的訓練數據;
步驟五:利用該詞向量空間及其所提供的相似詞語臨近特性,應用Kmeans算法計算一個聚類結果;
步驟六:對于聚類結果的每個簇,選擇其中最有代表性的一個特征詞作為該簇的表示詞,并最終對所有節(jié)目的特征詞對應的表示詞進行統計,以統計結果中較重要的表示詞作為該節(jié)目的標簽。
7.根據權利要求6所述的方法,其特征在于,所述步驟四包括:
通過Word2Vec的連續(xù)詞袋CBOW模型和Hierarchical Softmax框架,利用節(jié)目的特征詞表作為輸入數據進行訓練,進而得到了一個足以表征全部特征詞的詞向量空間,每一個特征詞都獲得了一個唯一的向量表示,所述CBOW模型包含三層:輸入層,投影層和輸出層。
8.根據權利要求6所述的方法,其特征在于,所述步驟五包括:
構建一個初始的多類別劃分區(qū)域,通過計算各個劃分區(qū)域的質心,在每一輪迭代時不斷調整各個樣本所屬的簇分類,并在下一輪利用新的簇劃分結果重新計算質心,如此反復迭代直至穩(wěn)定,最終可獲得一個可靠的聚類結果,以全部特征詞在詞向量空間中的表示作為輸入,構建一個Kmeans模型,訓練出特征詞的聚類結果,每個特征詞將屬于一個特定的簇。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家新聞出版廣電總局廣播科學研究院,未經國家新聞出版廣電總局廣播科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811495424.4/1.html,轉載請聲明來源鉆瓜專利網。





