[發明專利]一種基于大數據分析的核心語匯專題構建方法及系統在審
| 申請號: | 201810687746.2 | 申請日: | 2018-06-28 |
| 公開(公告)號: | CN108897737A | 公開(公告)日: | 2018-11-27 |
| 發明(設計)人: | 王建華;程國艮 | 申請(專利權)人: | 中譯語通科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京萬貝專利代理事務所(特殊普通合伙) 11520 | 代理人: | 馬紅 |
| 地址: | 100040 北京市石*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 構建 大數據 集合 計算機軟件技術 關鍵詞集合 快速建設 人工干預 文檔集合 用戶指定 自動發現 文檔 圖譜 分析 覆蓋率 輸出 | ||
本發明屬于計算機軟件技術領域,公開了一種基于大數據分析的核心語匯專題構建方法及系統,用戶指定專題的初始關鍵詞或者關鍵詞集合;專題相關文檔的獲取;從專題相關文檔集合中自動發現候選核心語匯集合及其關系,形成專題候選核心語匯圖譜;人工干預候選專題中的核心語匯,形成最終的專題輸出。本發明能夠快速地形成專題級的核心語匯集合,能夠大幅度降低專家構建專題的時間,同時提高專題構建的覆蓋率和及時性,有利于資源的快速建設和系統的推廣。
技術領域
本發明屬于計算機軟件技術領域,尤其涉及一種基于大數據分析的核心語 匯專題構建方法及系統。
背景技術
綜上所述,現有技術存在的問題是:傳統的方法往往是專家選定主題,根 據經驗挑選一系列的相關核心語匯,人工構建它們之間的關系,往往耗時耗力, 且覆蓋率和及時性不高。
發明內容
針對現有技術存在的問題,本發明提供了一種基于大數據分析的核心語匯 專題構建方法及系統。
本發明是這樣實現的,一種基于大數據分析的核心語匯專題構建方法,其 特征在于,所述基于大數據分析的核心語匯專題構建方法包括:用戶指定專題 的初始關鍵詞或者關鍵詞集合;專題相關文檔的獲取;從專題相關文檔集合中 自動發現候選核心語匯集合及其關系,形成專題候選核心語匯圖譜;人工干預 候選專題中的核心語匯,形成最終的專題輸出。
進一步,所述專題相關文檔的獲取進一步包括:通過專題關鍵詞檢索相關 文檔,基于返回的結果M篇文檔,計算專題的偽相關模型:
其中twmi表示第m個文檔中第i個特征詞的權重,權重采用TF-IDF來計算, <twm1,twm2,...,twmn>表示第m篇文檔的VSM向量;
利用Mp-topic模型對相關文檔計算相關度,重排序后選出專題相關的最終文檔 集合前P篇,并重新計算專題模型:
進一步,所述從專題相關文檔集合中自動發現候選核心語匯集合及其關系, 形成專題候選核心語匯圖譜進一步包括:基于專題相關文檔,提取關鍵詞作為 特征詞;將特征詞作為節點構建特征圖G=<V,E>,其中V表示節點集合,E表 示特征詞的邊集合;兩個特征詞v1和v2在一個句子中存在,則存在一條邊 e12=<v1,v2>。邊上的權重表示之間共現的次數;基于TextRank算法,計算每個 詞的權重:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技股份有限公司,未經中譯語通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810687746.2/2.html,轉載請聲明來源鉆瓜專利網。





