[發(fā)明專利]用于提取文本關(guān)鍵詞的方法、裝置、電子設(shè)備和介質(zhì)在審
| 申請?zhí)枺?/td> | 202110718951.2 | 申請日: | 2021-06-28 |
| 公開(公告)號(hào): | CN113434677A | 公開(公告)日: | 2021-09-24 |
| 發(fā)明(設(shè)計(jì))人: | 肖艷清;易修文;韓博洋;張鈞波;鄭宇 | 申請(專利權(quán))人: | 京東城市(北京)數(shù)字科技有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/216;G06F40/289;G06F40/30;G06F16/387 |
| 代理公司: | 北京英賽嘉華知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11204 | 代理人: | 王達(dá)佐;馬曉亞 |
| 地址: | 100086 北京市海淀區(qū)知*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 提取 文本 關(guān)鍵詞 方法 裝置 電子設(shè)備 介質(zhì) | ||
本公開的實(shí)施例公開了用于提取文本關(guān)鍵詞的方法、裝置、電子設(shè)備和介質(zhì)。該方法的一具體實(shí)施方式包括:獲取預(yù)設(shè)類別事件的描述文本;從該描述文本中剔除目標(biāo)文本,生成預(yù)處理描述文本,其中,該目標(biāo)文本包括停用詞和地點(diǎn)短語;根據(jù)預(yù)設(shè)的詞權(quán)重表與該預(yù)處理描述文本包含的詞的詞頻,確定該預(yù)處理描述文本包含的詞的特征權(quán)重,其中,該詞權(quán)重表中的詞對應(yīng)的權(quán)重基于該預(yù)設(shè)類別事件的關(guān)聯(lián)詞調(diào)整;根據(jù)所確定的特征權(quán)重,從該預(yù)處理描述文本中提取目標(biāo)數(shù)目個(gè)關(guān)鍵詞。該實(shí)施方式減小了通用語義對關(guān)鍵詞提取的干擾,從而提升了針對預(yù)設(shè)類別事件的描述文本的關(guān)鍵詞提取的準(zhǔn)確性。
技術(shù)領(lǐng)域
本公開的實(shí)施例涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及用于提取文本關(guān)鍵詞的方法、裝置、電子設(shè)備和介質(zhì)。
背景技術(shù)
隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,關(guān)于文本的關(guān)鍵詞提取方法也層出不窮。然而,通用的關(guān)鍵詞提取模型并不能保證能夠很好地應(yīng)用于不同類別的事件描述文本中。
在智能城市服務(wù)領(lǐng)域,對上報(bào)的事件(例如來自于12345便民平臺(tái)的事件上報(bào)信息)進(jìn)行及時(shí)分析、歸類、處理具有重要意義。現(xiàn)有的關(guān)鍵詞提取技術(shù)往往是利用大量通用文本數(shù)據(jù)(例如百科)進(jìn)行關(guān)鍵詞提取模型的構(gòu)建,用以從原始文本中提取關(guān)鍵詞。但由于現(xiàn)有的關(guān)鍵詞提取技術(shù)多為通用技術(shù),提取出的關(guān)鍵詞并不能有效地用于不同的事件應(yīng)用場景。
發(fā)明內(nèi)容
本公開的實(shí)施例提出了用于提取文本關(guān)鍵詞的方法、裝置、電子設(shè)備和介質(zhì)。
第一方面,本公開的實(shí)施例提供了一種用于提取文本關(guān)鍵詞的方法,該方法包括:獲取預(yù)設(shè)類別事件的描述文本;從描述文本中剔除目標(biāo)文本,生成預(yù)處理描述文本,其中,目標(biāo)文本包括停用詞和地點(diǎn)短語;根據(jù)預(yù)設(shè)的詞權(quán)重表與預(yù)處理描述文本包含的詞的詞頻,確定預(yù)處理描述文本包含的詞的特征權(quán)重,其中,詞權(quán)重表中的詞對應(yīng)的權(quán)重基于預(yù)設(shè)類別事件的關(guān)聯(lián)詞調(diào)整;根據(jù)所確定的特征權(quán)重,從預(yù)處理描述文本中提取目標(biāo)數(shù)目個(gè)關(guān)鍵詞。
在一些實(shí)施例中,上述地點(diǎn)短語通過以下步驟確定:從描述文本中提取屬于預(yù)設(shè)地點(diǎn)關(guān)聯(lián)詞的詞;將所提取的屬于預(yù)設(shè)地點(diǎn)關(guān)聯(lián)詞的詞進(jìn)行組合,生成地點(diǎn)短語。
在一些實(shí)施例中,上述從描述文本中剔除目標(biāo)文本,生成預(yù)處理描述文本,包括:從描述文本中剔除屬于停用詞的詞,生成準(zhǔn)處理文本;從準(zhǔn)處理文本中確定屬于預(yù)設(shè)觸發(fā)詞的詞所處的位置,其中,預(yù)設(shè)觸發(fā)詞用于指示存在地點(diǎn)關(guān)聯(lián)詞;基于所確定的位置,確定屬于預(yù)設(shè)觸發(fā)詞的詞的前、后文是否存在用于指示地址的詞;響應(yīng)于確定存在,將屬于預(yù)設(shè)觸發(fā)詞的詞與所存在的用于指示地址的詞進(jìn)行連接,以作為地點(diǎn)短語;從準(zhǔn)處理文本中剔除地點(diǎn)短語,生成預(yù)處理描述文本。
在一些實(shí)施例中,上述基于所確定的位置,確定屬于預(yù)設(shè)觸發(fā)詞的詞的前、后文是否存在用于指示地址的詞,包括:基于所確定的位置,利用預(yù)設(shè)的詞性標(biāo)注工具確定屬于預(yù)設(shè)觸發(fā)詞的詞的前、后文是否存在屬于用于指示地址的詞性的詞,其中,用于指示地址的詞性基于路網(wǎng)數(shù)據(jù)中的地址短語和興趣點(diǎn)而設(shè)置。
在一些實(shí)施例中,上述預(yù)設(shè)的詞權(quán)重表通過以下步驟得到:獲取初始詞權(quán)重表;將初始詞權(quán)重表中屬于預(yù)設(shè)待提升權(quán)重詞的詞對應(yīng)的權(quán)重進(jìn)行提升,其中,預(yù)設(shè)待提升權(quán)重詞包括與預(yù)設(shè)類別事件對應(yīng)的處置部門相關(guān)的詞;將權(quán)重提升后的初始詞權(quán)重表確定為預(yù)設(shè)的詞權(quán)重表。
在一些實(shí)施例中,該方法還包括:根據(jù)目標(biāo)數(shù)目個(gè)關(guān)鍵詞對描述文本進(jìn)行分類,生成分類結(jié)果;按照目標(biāo)數(shù)目個(gè)關(guān)鍵詞在描述文本中出現(xiàn)的先后順序進(jìn)行排列,生成關(guān)鍵詞序列;將關(guān)鍵詞序列與描述文本發(fā)送至描述文本對應(yīng)的目標(biāo)端,其中,目標(biāo)端與描述文本的分類結(jié)果相關(guān)聯(lián)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于京東城市(北京)數(shù)字科技有限公司,未經(jīng)京東城市(北京)數(shù)字科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110718951.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測方法和裝置
- 關(guān)鍵詞排名的檢測方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲(chǔ)介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動(dòng)化否定關(guān)鍵詞方法及裝置
- 一種長尾關(guān)鍵詞識(shí)別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備





