[發明專利]一種基于文本的新聞重要性評估方法、裝置及電子設備有效
| 申請號: | 202010918807.9 | 申請日: | 2020-09-04 |
| 公開(公告)號: | CN112016294B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 張慶全;陳和;陸文茜 | 申請(專利權)人: | 上海智芝全智能科技有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/242;G06F40/295;G06N3/08 |
| 代理公司: | 上海諾衣知識產權代理事務所(普通合伙) 31298 | 代理人: | 衣然 |
| 地址: | 200082 上海市楊浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 新聞 重要性 評估 方法 裝置 電子設備 | ||
1.一種基于文本的新聞重要性評估方法,其特征在于,所述方法包括:
讀取文本新聞;
對所述文本新聞進行預處理得到原始數據;
對所述原始數據進行特征值提取,所述特征值包括元數據、關鍵詞、概率模型特征值;
根據各個所述特征值對應的權重配比得到各個所述特征值的分數;
根據各個所述特征值的分數評估所述文本新聞的重要性;
對所述關鍵詞的提取,包括如下步驟:
S1:構建多元詞典:
篩選金融行業關鍵詞組成靜態詞典;
通過自然語言處理和神經網絡訓練動態獲取訓練集關鍵詞組成動態詞典;
所述訓練集關鍵詞與所述金融行業關鍵詞互不重疊;
將所述靜態詞典與所述動態詞典合并組成多元詞典;
S2:命名實體識別:
通過自然語言處理和神經網絡訓練獲得用于評估的命名實體;
利用神經網絡模型識別所述命名實體作為關鍵詞;
S3:關鍵詞排序
將步驟S1中所述多元詞典中的所述關鍵詞和步驟S2中識別所述命名實體得到的所述關鍵詞通過熱度搜索提取熱度值,并按照所述熱度值進行排序;
對所述概率模型的提取,包括如下步驟:
通過訓練所述概率模型獲取用于進行重要性評估的模型和訓練集關鍵詞;
將所述預處理得到原始數據變成數字向量;
為所述概率模型添加過濾器;
在獲得所述多元詞典和數字向量之后,通過主題挖掘得到概率模型;
所述概率模型采用隱含狄利克雷分布模型,聯合分布公式為:
其中:
α,β:均為狄利克雷分布
tdi,D:均為多項式分布
tdi:從α中取樣生成訓練集文檔i的金融主題分布;
D:從β中取樣生成金融主題ti,j的詞語分布;
ti,j:從主題分布tdi中取樣生成訓練集文檔i第j個詞的金融主題;
wi,j:從詞語分布D中采樣生成的詞匯;
通過所述隱含狄利克雷分布訓練,并設立超參數閾值,將結果應用于所述訓練集文檔的主題個數,統計整個訓練集中的主題個數用于評估。
2.根據權利要求1所述的一種基于文本的新聞重要性評估方法,其特征在于,所述文本新聞包括txt或pdf格式的新聞文本。
3.根據權利要求1所述的一種基于文本的新聞重要性評估方法,其特征在于,所述預處理包括但不限于將字符序列轉換為小寫字符、選用長度在一定范圍之間的單詞、刪除非法字符、刪除數字、刪除停用詞、詞干提取和詞性還原。
4.根據權利要求3所述的一種基于文本的新聞重要性評估方法,其特征在于,根據所述特征值類型的不同要選用不同的預處理方式:
當所述特征值類型為元數據時,選用所述刪除非法字符和/或所述刪除停用詞方式對所述文本新聞進行預處理;
當所述特征值類型為關鍵詞時,選用所述刪除非法字符和/或所述刪除停用詞和/或刪除數字方式對所述文本新聞進行預處理;
當所述特征值類型為概率模型特征值時,選用所述刪除非法字符和/或所述刪除停用詞和/或刪除數字和/或詞干提取和詞性還原方式對所述文本新聞進行預處理。
5.根據權利要求1所述的一種基于文本的新聞重要性評估方法,其特征在于,所述訓練集關鍵詞的獲取是動態的,通過訓練增加訓練集中未出現過的目標詞匯作為關鍵詞,所述訓練集關鍵詞會實時通過熱度搜索被排序,再用于評估。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海智芝全智能科技有限公司,未經上海智芝全智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010918807.9/1.html,轉載請聲明來源鉆瓜專利網。





