[發(fā)明專利]一種關(guān)鍵詞提取方法、裝置及存儲(chǔ)介質(zhì)在審
| 申請?zhí)枺?/td> | 201910624230.8 | 申請日: | 2019-07-11 |
| 公開(公告)號(hào): | CN110362827A | 公開(公告)日: | 2019-10-22 |
| 發(fā)明(設(shè)計(jì))人: | 何一濤;智緒浩 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 廣州三環(huán)專利商標(biāo)代理有限公司 44202 | 代理人: | 郝傳鑫;賈允 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語料 關(guān)鍵詞提取 文本 詞語 預(yù)處理 詞法特征 存儲(chǔ)介質(zhì) 統(tǒng)計(jì)特征 語句 機(jī)器學(xué)習(xí)模型 獲取目標(biāo) 基于機(jī)器 連續(xù)字符 目標(biāo)領(lǐng)域 文本處理 文本分析 學(xué)習(xí)算法 資源數(shù)據(jù) 準(zhǔn)確度 遍歷 分析 | ||
本發(fā)明涉及文本處理技術(shù)領(lǐng)域,具體是一種關(guān)鍵詞提取方法、裝置及存儲(chǔ)介質(zhì),所述方法包括:獲取目標(biāo)領(lǐng)域的待提取語料文本,對所述待提取語料文本進(jìn)行預(yù)處理;遍歷預(yù)處理后的待提取語料文本的分析語句,依次提取所述分析語句中的多個(gè)連續(xù)字符組合成詞語單元;獲取所述待提取語料文本的詞語單元的詞法特征;獲取所述待提取語料文本的詞語單元的統(tǒng)計(jì)特征;基于機(jī)器學(xué)習(xí)算法建立的機(jī)器學(xué)習(xí)模型,使用所述詞語單元的詞法特征和統(tǒng)計(jì)特征,對所述待提取語料文本進(jìn)行關(guān)鍵詞提取操作。本發(fā)明的關(guān)鍵詞提取方法能夠提高關(guān)鍵詞提取的準(zhǔn)確度和召回率,并且提取得到的關(guān)鍵詞與目標(biāo)領(lǐng)域具有高度相關(guān)性,能夠?yàn)橄嚓P(guān)的文本分析提供更加準(zhǔn)確的資源數(shù)據(jù)。
技術(shù)領(lǐng)域
本發(fā)明涉及文本處理技術(shù)領(lǐng)域,特別涉及一種關(guān)鍵詞提取方法、裝置及存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著網(wǎng)絡(luò)的發(fā)展,線上文本信息的數(shù)量呈現(xiàn)爆炸式增長,手工獲取所需文本信息的難度日益增大。因此,如何快速、有效地歸納總結(jié)出某個(gè)領(lǐng)域或者話題下的文本的關(guān)鍵信息成為一個(gè)重要問題。
為了能夠有效地處理海量的文本數(shù)據(jù),研究人員在文本分類、文本聚類、自動(dòng)文摘和信息檢索等方向進(jìn)行了大量的研究,而這些研究都涉及到如何獲取文本中的關(guān)鍵詞的問題。關(guān)鍵詞是對文本主題信息的精煉,高度概括了文本的主要內(nèi)容,能幫助用戶快速理解文本的主旨;另外,還可以利用關(guān)鍵詞以較低的復(fù)雜度進(jìn)行文本相關(guān)性的計(jì)算,從而高效地進(jìn)行文本分類、文本聚類和信息檢索等處理。
現(xiàn)有技術(shù)中,一些常用的機(jī)器學(xué)習(xí)方法逐漸應(yīng)用到關(guān)鍵詞提取領(lǐng)域中,現(xiàn)有的基于機(jī)器學(xué)習(xí)的關(guān)鍵詞提取方法首先需要對待提取文本進(jìn)行分詞處理,并提取候選詞的特征,然后根據(jù)提取出的特征使用機(jī)器學(xué)習(xí)算法進(jìn)行學(xué)習(xí)。這里的候選詞的特征一般包括詞語的詞性、詞語出現(xiàn)的頻率以及詞語第一次出現(xiàn)的位置等數(shù)據(jù)內(nèi)部特征。但是采用這種方法提取關(guān)鍵詞的效果非常依賴于分詞的精度,當(dāng)分詞的精度較差時(shí)關(guān)鍵詞提取的準(zhǔn)確度較低,另外,這種方法提取的候選詞的特征不夠全面,在專有領(lǐng)域的關(guān)鍵詞提取中可能表現(xiàn)不佳。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的上述問題,本發(fā)明的目的在于提供一種關(guān)鍵詞提取方法、裝置及存儲(chǔ)介質(zhì),能夠提高關(guān)鍵詞提取的準(zhǔn)確度和召回率。
為了解決上述問題,本發(fā)明提供一種關(guān)鍵詞提取方法,包括:
獲取目標(biāo)領(lǐng)域的待提取語料文本,對所述待提取語料文本進(jìn)行預(yù)處理;
遍歷預(yù)處理后的待提取語料文本的分析語句,依次提取所述分析語句中的多個(gè)連續(xù)字符組合成詞語單元;
獲取所述待提取語料文本的詞語單元的詞法特征;
獲取所述待提取語料文本的詞語單元的統(tǒng)計(jì)特征;
基于機(jī)器學(xué)習(xí)算法建立的機(jī)器學(xué)習(xí)模型,使用所述詞語單元的詞法特征和統(tǒng)計(jì)特征,對所述待提取語料文本進(jìn)行關(guān)鍵詞提取操作。
本發(fā)明另一方面提供一種關(guān)鍵詞提取裝置,包括:
預(yù)處理模塊,用于獲取目標(biāo)領(lǐng)域的待提取語料文本,對所述待提取語料文本進(jìn)行預(yù)處理;
詞語單元提取模塊,用于遍歷預(yù)處理后的待提取語料文本的分析語句,依次提取所述分析語句中的多個(gè)連續(xù)字符組合成詞語單元;
詞法特征獲取模塊,用于獲取所述待提取語料文本的詞語單元的詞法特征;
統(tǒng)計(jì)特征獲取模塊,用于獲取所述待提取語料文本的詞語單元的統(tǒng)計(jì)特征;
關(guān)鍵詞提取模塊,用于基于機(jī)器學(xué)習(xí)算法建立的機(jī)器學(xué)習(xí)模型,使用所述詞語單元的詞法特征和統(tǒng)計(jì)特征,對所述待提取語料文本進(jìn)行關(guān)鍵詞提取操作。
本發(fā)明另一方面提供一種終端,所述終端包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或指令集由處理器加載并執(zhí)行以實(shí)現(xiàn)如上述的關(guān)鍵詞提取方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910624230.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種語料提取器及提取語料的方法
- 軍事信息語料庫構(gòu)建方法及系統(tǒng)
- 待標(biāo)注語料的分配方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 語料泛化方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 語料數(shù)據(jù)的處理方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備
- 一種擴(kuò)展語料挖掘方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 語料生成方法、語料生成裝置、和存儲(chǔ)介質(zhì)
- 短語語料獲取方法及短語語料獲取裝置
- 一種語料分類方法、裝置及服務(wù)器
- 一種輸入方法、裝置和電子設(shè)備
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 網(wǎng)頁關(guān)鍵詞提取方法及裝置
- 挖掘圖片中的主題關(guān)鍵詞的方法和設(shè)備
- 用于輸出信息的方法和裝置
- 關(guān)鍵詞提取方法和裝置、存儲(chǔ)介質(zhì)及電子裝置
- 一種知識(shí)產(chǎn)權(quán)自動(dòng)檢索和分析管理系統(tǒng)
- 一種關(guān)鍵詞提取方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 文本關(guān)鍵詞提取方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種基于大數(shù)據(jù)的學(xué)習(xí)心得評(píng)測方法及裝置
- 一種關(guān)鍵詞提取方法、裝置、終端以及存儲(chǔ)介質(zhì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





