[發明專利]一種基于大數據分析的核心語匯專題構建方法及系統在審
| 申請號: | 201810687746.2 | 申請日: | 2018-06-28 |
| 公開(公告)號: | CN108897737A | 公開(公告)日: | 2018-11-27 |
| 發明(設計)人: | 王建華;程國艮 | 申請(專利權)人: | 中譯語通科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京萬貝專利代理事務所(特殊普通合伙) 11520 | 代理人: | 馬紅 |
| 地址: | 100040 北京市石*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 構建 大數據 集合 計算機軟件技術 關鍵詞集合 快速建設 人工干預 文檔集合 用戶指定 自動發現 文檔 圖譜 分析 覆蓋率 輸出 | ||
1.一種基于大數據分析的核心語匯專題構建方法,其特征在于,所述基于大數據分析的核心語匯專題構建方法包括:
(1)用戶指定專題的初始關鍵詞或者關鍵詞集合;
(2)專題相關文檔的獲取;
(3)從專題相關文檔集合中自動發現候選核心語匯集合及其關系,形成專題候選核心語匯圖譜;
(4)人工干預候選專題中的核心語匯,形成最終的專題輸出。
2.如權利要求1所述的基于大數據分析的核心語匯專題構建方法,其特征在于,所述專題相關文檔的獲取進一步包括:通過專題關鍵詞檢索相關文檔,基于返回的結果M篇文檔,計算專題的偽相關模型:
其中twmi表示第m個文檔中第i個特征詞的權重,權重采用TF-IDF來計算,<twm1,twm2,...,twmn>表示第m篇文檔的VSM向量;
利用Mp-topic模型對相關文檔計算相關度,重排序后選出專題相關的最終文檔集合的前P篇,并重新計算專題模型:
3.如權利要求1或2所述的基于大數據分析的核心語匯專題構建方法,其特征在于,所述從專題相關文檔集合中自動發現候選核心語匯集合及其關系,形成專題候選核心語匯圖譜進一步包括:基于專題相關文檔,提取關鍵詞作為特征詞;將特征詞作為節點構建特征圖G=<V,E>,其中V表示節點集合,E表示特征詞的邊集合;兩個特征詞v1和v2在一個句子中存在,則存在一條邊e12=<v1,v2>;邊上的權重表示它們之間共現的次數;基于TextRank算法,計算每個詞的權重WS(Vi):
其中,d為阻尼系數,取值范圍為0到1,代表從圖中某一特定點指向其他任意點的概率,wji用來表示兩個節點之間的邊連接的重要程度權重;Vi表示某個網頁,Vj表示鏈接到Vi的網頁(即Vi的入鏈),S(Vi)表示網頁Vi的PR值,In(Vi)表示網頁Vi的所有入鏈的集合,Out(Vj)表示網頁;使用TextRank算法計算圖中各點的得分時,給圖中的點指定任意的初值,并遞歸計算直到收斂。
4.如權利要求1所述的基于大數據分析的核心語匯專題構建方法,其特征在于,所述人工干預候選專題中的核心語匯,形成最終的專題輸出進一步包括:綜合TextRank的打分,最終的模型為:
其中,cxn表示特征詞在相關文檔集合中出現的中國宣傳口報道數,CXN表示相關文檔集合中中國宣傳口報道總數;hx表示特征詞與核心語匯中詞的詞關聯的次數,有多少個關聯的特征詞已經在核心語匯中,LN是特征詞關聯的特征詞的總數;rn表示特征詞在相關文檔集合中出現的報道數,RN是相關文檔集合的總數;tr是TextRank分值;α,β,γ,λ是特征的權值。
5.一種應用權利要求1所述基于大數據分析的核心語匯專題構建方法的基于大數據分析的核心語匯專題構建系統,其特征在于,所述基于大數據分析的核心語匯專題構建系統包括:
專題指定模塊,用于用戶指定專題的初始關鍵詞或者關鍵詞集合;
專題相關文檔獲取模塊,用于用戶指定專題的相關數據集合或者用戶指定專題相關的數據源集合,基于指定的關鍵詞獲取多語言的專題相關文檔集合或者用戶不指定數據集合和數據源集合,基于指定的關鍵詞獲取多語言的專題相關文檔集合;
專題發現模塊,用于從專題相關文檔集合中自動發現候選核心語匯集合及其關系;形成專題候選核心語匯圖譜;
專題輸出模塊,用于人工干預候選專題中的核心語匯,形成最終的專題輸出。
6.一種實現權利要求1~4任意一項所述基于大數據分析的核心語匯專題構建方法的計算機程序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技股份有限公司,未經中譯語通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810687746.2/1.html,轉載請聲明來源鉆瓜專利網。





