[發(fā)明專利]一種政務(wù)文章標(biāo)題關(guān)鍵字提取方法、設(shè)備及存儲設(shè)備有效
| 申請?zhí)枺?/td> | 202310467705.3 | 申請日: | 2023-04-27 |
| 公開(公告)號: | CN116187307B | 公開(公告)日: | 2023-07-14 |
| 發(fā)明(設(shè)計)人: | 李穎;陳勝鵬;梅龍 | 申請(專利權(quán))人: | 吉奧時空信息技術(shù)股份有限公司 |
| 主分類號: | G06F40/258 | 分類號: | G06F40/258;G06F40/216;G06F40/289;G06F40/30;G06F18/22 |
| 代理公司: | 武漢知產(chǎn)時代知識產(chǎn)權(quán)代理有限公司 42238 | 代理人: | 王佩 |
| 地址: | 430200 湖北省武漢*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 政務(wù) 文章 標(biāo)題 關(guān)鍵字 提取 方法 設(shè)備 存儲 | ||
本發(fā)明涉及一種政務(wù)文章標(biāo)題提取方法、設(shè)備及存儲設(shè)備,方法包括以下步驟:獲取短文本集合
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種政務(wù)文章標(biāo)題提取方法、設(shè)備及存儲設(shè)備。
背景技術(shù)
一段文本的關(guān)鍵詞是指最能代表文本核心關(guān)鍵內(nèi)容的詞匯,關(guān)鍵短語則指相鄰關(guān)鍵詞的組合。在構(gòu)建文件搜索系統(tǒng)時,往往需要首先提取文章標(biāo)題的關(guān)鍵詞和關(guān)鍵短語,進而建立關(guān)鍵詞或關(guān)鍵短語與文件的關(guān)聯(lián)關(guān)系或索引映射,從而實現(xiàn)基于關(guān)鍵詞或關(guān)鍵短語的文件快速搜索。
TextRank是一種基于圖排序的文本關(guān)鍵詞提取算法,它利用關(guān)鍵詞在窗口中的共現(xiàn)關(guān)系,在相關(guān)聯(lián)候選關(guān)鍵詞之間建立連邊,形成詞共現(xiàn)網(wǎng)絡(luò),通過迭代計算得到每個關(guān)鍵詞的權(quán)重。在固定窗口長度下,其算法結(jié)果與詞頻、詞所處位置相關(guān),多用于長文本關(guān)鍵詞、關(guān)鍵短語及關(guān)鍵句提取。傳統(tǒng)的TextRank算法,如CN109918660A?一種基于TextRank的關(guān)鍵詞提取方法和裝置、CN114328865A?一種改進的TextRank多特征融合教育資源關(guān)鍵詞提取方法、CN110728136A?一種融合多因素的textrank關(guān)鍵詞提取算法等,在TextRank算法基礎(chǔ)上增加了詞語長度、詞性對關(guān)鍵詞得分的影響,其在長文本關(guān)鍵字提取應(yīng)用中表現(xiàn)良好,但并不適用于政務(wù)文章這類短文本的提取情況,其原因主要如下:
(1)在政務(wù)文章標(biāo)題等短文本中,詞語一般較為簡單,詞語一般不會重復(fù)出現(xiàn),因而詞頻固定;
(2)在政務(wù)文章標(biāo)題等短文本中,詞語長度一般固定為2-3個字,且詞長一般不影響詞匯的關(guān)鍵性;
(3)在政務(wù)文章標(biāo)題等短文本中,詞性一般單一或固定,多以名詞為主。
傳統(tǒng)方法中,對于詞位置的處理是設(shè)置為中間權(quán)重大,兩端小,但在文章標(biāo)題等短文本中,詞位置對詞關(guān)鍵性的影響較為隨機。因此傳統(tǒng)的TextRank算法提取其短文本關(guān)鍵詞,或者即使能夠提取,但其提取的準(zhǔn)確度較低。
發(fā)明內(nèi)容
為解決傳統(tǒng)TextRank算法提取其短文本關(guān)鍵詞不適用或準(zhǔn)確度低的技術(shù)問題,本發(fā)明提出了一種政務(wù)文章標(biāo)題提取方法、設(shè)備及存儲設(shè)備,其中,方法采取兩端補充占位符的方式,消解詞位置對關(guān)鍵性的影響,同時通過融合語義相似度,改進傳統(tǒng)的TextRank計算公式,使得計算結(jié)果能夠兼顧語義相似度與詞共現(xiàn)關(guān)系,從而提升關(guān)鍵詞提取準(zhǔn)確度。
本發(fā)明供的一種政務(wù)文章標(biāo)題提取方法,具體包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉奧時空信息技術(shù)股份有限公司,未經(jīng)吉奧時空信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310467705.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于共治網(wǎng)格的政務(wù)信息處理方法和裝置
- 一種輕政務(wù)服務(wù)和政務(wù)新媒體的軟件即服務(wù)方法及SaaS平臺
- 一種電子政務(wù)系統(tǒng)網(wǎng)絡(luò)感知分析平臺系統(tǒng)
- 政務(wù)信息的處理方法、裝置和計算機可讀存儲介質(zhì)
- 政務(wù)信息管理方法
- 基于大數(shù)據(jù)的智慧政務(wù)請求處理方法
- 一種智慧政務(wù)請求處理方法
- 基于大數(shù)據(jù)的智慧政務(wù)云平臺
- 政務(wù)事項處理方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種基于互聯(lián)網(wǎng)的政務(wù)服務(wù)系統(tǒng)及其使用方法
- 基于人工智能的文章標(biāo)題生成方法、裝置、設(shè)備及介質(zhì)
- 一種相同新聞信息的歸類方法及系統(tǒng)
- 一種新聞主副標(biāo)題檢測方法及裝置
- 標(biāo)題識別方法及裝置
- 用于真產(chǎn)品詞識別的系統(tǒng)、方法和計算機可讀介質(zhì)
- 一種文檔系統(tǒng)的側(cè)邊欄展示方法及系統(tǒng)
- 一種文檔標(biāo)題層級的分析方法、裝置及服務(wù)器
- 一種文章標(biāo)題優(yōu)化方法、系統(tǒng)、介質(zhì)及設(shè)備
- 一種文本標(biāo)注方法、裝置、設(shè)備及可讀存儲介質(zhì)
- 數(shù)據(jù)標(biāo)識方法、裝置、計算機可讀存儲介質(zhì)及電子設(shè)備





