[發明專利]一種政務文章標題關鍵字提取方法、設備及存儲設備有效
| 申請號: | 202310467705.3 | 申請日: | 2023-04-27 |
| 公開(公告)號: | CN116187307B | 公開(公告)日: | 2023-07-14 |
| 發明(設計)人: | 李穎;陳勝鵬;梅龍 | 申請(專利權)人: | 吉奧時空信息技術股份有限公司 |
| 主分類號: | G06F40/258 | 分類號: | G06F40/258;G06F40/216;G06F40/289;G06F40/30;G06F18/22 |
| 代理公司: | 武漢知產時代知識產權代理有限公司 42238 | 代理人: | 王佩 |
| 地址: | 430200 湖北省武漢*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 政務 文章 標題 關鍵字 提取 方法 設備 存儲 | ||
1.一種政務文章標題提取方法,其特征在于:包括以下步驟:
S1:獲取短文本集合
S2:從分詞結果
S3:根據逆文本頻率值IDF對短文本
所述預處理,具體指:去除短文本
S4:計算分詞結果
S5:在短文本
S6:根據語義相似度
其中,maxP為分詞結果
S7:計算由相鄰兩個關鍵詞和組成的關鍵短語
關鍵短語
S8、按關鍵詞短語得分,由高到低輸出提取結果。
2.如權利要求1所述的一種政務文章標題提取方法,其特征在于:步驟S2中逆文本頻率值IDF的計算公式如下:
其中
3.如權利要求1所述的一種政務文章標題提取方法,其特征在于:步驟S4中計算語義相似度采用KeyBert方法。
4.如權利要求1所述的一種政務文章標題提取方法,其特征在于:所述占位符為不具備語義的符號。
5.一種存儲設備,其特征在于:所述存儲設備存儲指令及數據用于實現權利要求1~4的任意一種政務文章標題提取方法。
6.一種政務文章標題提取設備,其特征在于:包括:處理器及存儲設備;所述處理器加載并執行存儲設備中的指令及數據用于實現權利要求1~4的任意一種政務文章標題提取方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉奧時空信息技術股份有限公司,未經吉奧時空信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310467705.3/1.html,轉載請聲明來源鉆瓜專利網。





