[發明專利]一種基于大數據分析的核心語匯專題構建方法及系統在審

申請號：	201810687746.2	申請日：	2018-06-28
公開（公告）號：	CN108897737A	公開（公告）日：	2018-11-27
發明（設計）人：	王建華;程國艮	申請（專利權）人：	中譯語通科技股份有限公司
主分類號：	G06F17/27	分類號：	G06F17/27;G06F17/30
代理公司：	北京萬貝專利代理事務所(特殊普通合伙) 11520	代理人：	馬紅
地址：	100040 北京市石***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	構建大數據集合計算機軟件技術關鍵詞集合快速建設人工干預文檔集合用戶指定自動發現文檔圖譜分析覆蓋率輸出
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明屬于計算機軟件技術領域，公開了一種基于大數據分析的核心語匯專題構建方法及系統，用戶指定專題的初始關鍵詞或者關鍵詞集合；專題相關文檔的獲取；從專題相關文檔集合中自動發現候選核心語匯集合及其關系，形成專題候選核心語匯圖譜；人工干預候選專題中的核心語匯，形成最終的專題輸出。本發明能夠快速地形成專題級的核心語匯集合，能夠大幅度降低專家構建專題的時間，同時提高專題構建的覆蓋率和及時性，有利于資源的快速建設和系統的推廣。

技術領域

本發明屬于計算機軟件技術領域，尤其涉及一種基于大數據分析的核心語匯專題構建方法及系統。

背景技術

目前，業內常用的現有技術是這樣的：“中國核心語匯”是一個將涵蓋中國政治、經濟和文化等領域的中國語匯，通過權威、標準的多語種翻譯與解讀方式，向國際社會傳遞最準確的中國表述和解讀的互聯網大數據語料庫。平臺為實施中華文化走出去戰略，傳播正確中國聲音，促進國際出版，引導媒體傳播等提供開放的公共服務；讓國際社會通過平臺獲取準確的中國語匯表達方式，讓世界了解真實的中國。傳統的方法往往是專家選定主題，然后根據經驗挑選一系列的相關核心語匯，人工構建它們之間的關系，往往耗時耗力，且覆蓋率和及時性不高。

綜上所述，現有技術存在的問題是：傳統的方法往往是專家選定主題，根據經驗挑選一系列的相關核心語匯，人工構建它們之間的關系，往往耗時耗力，且覆蓋率和及時性不高。

發明內容

針對現有技術存在的問題，本發明提供了一種基于大數據分析的核心語匯專題構建方法及系統。

本發明是這樣實現的，一種基于大數據分析的核心語匯專題構建方法，其特征在于，所述基于大數據分析的核心語匯專題構建方法包括：用戶指定專題的初始關鍵詞或者關鍵詞集合；專題相關文檔的獲取；從專題相關文檔集合中自動發現候選核心語匯集合及其關系，形成專題候選核心語匯圖譜；人工干預候選專題中的核心語匯，形成最終的專題輸出。

進一步，所述專題相關文檔的獲取進一步包括：通過專題關鍵詞檢索相關文檔，基于返回的結果M篇文檔，計算專題的偽相關模型：

其中tw_mi表示第m個文檔中第i個特征詞的權重，權重采用TF-IDF來計算，＜tw_m1,tw_m2,...,tw_mn＞表示第m篇文檔的VSM向量；

利用M_p-topic模型對相關文檔計算相關度，重排序后選出專題相關的最終文檔集合前P篇，并重新計算專題模型：

進一步，所述從專題相關文檔集合中自動發現候選核心語匯集合及其關系，形成專題候選核心語匯圖譜進一步包括：基于專題相關文檔，提取關鍵詞作為特征詞；將特征詞作為節點構建特征圖G＝＜V,E＞，其中V表示節點集合，E表示特征詞的邊集合；兩個特征詞v₁和v₂在一個句子中存在，則存在一條邊 e₁₂＝＜v₁,v₂＞。邊上的權重表示之間共現的次數；基于TextRank算法，計算每個詞的權重：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技股份有限公司，未經中譯語通科技股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810687746.2/2.html，轉載請聲明來源鉆瓜專利網。