[發(fā)明專利]一種關(guān)鍵詞的確定方法、文本處理的方法及服務(wù)器有效
| 申請?zhí)枺?/td> | 201810444290.7 | 申請日: | 2018-05-10 |
| 公開(公告)號: | CN110472198B | 公開(公告)日: | 2023-01-24 |
| 發(fā)明(設(shè)計)人: | 李菁;宋彥 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/117 | 分類號: | G06F40/117;G06F40/284;G06F16/335 |
| 代理公司: | 深圳市深佳知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518064 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 關(guān)鍵詞 確定 方法 文本 處理 服務(wù)器 | ||
本發(fā)明實(shí)施例公開了一種文本處理的方法,包括:獲取目標(biāo)對話組信息,其中,所述目標(biāo)對話組信息中包括目標(biāo)文本信息;通過關(guān)鍵詞抽取模型獲取所述目標(biāo)文本信息所對應(yīng)的目標(biāo)標(biāo)簽序列,其中,所述關(guān)鍵詞抽取模型為根據(jù)待訓(xùn)練文本信息以及待訓(xùn)練附屬信息訓(xùn)練得到的,所述待訓(xùn)練附屬信息與所述待訓(xùn)練文本信息具有關(guān)聯(lián)關(guān)系,所述目標(biāo)標(biāo)簽序列用于表示目標(biāo)關(guān)鍵詞在所述目標(biāo)文本信息中的位置;根據(jù)所述目標(biāo)標(biāo)簽序列確定所述目標(biāo)文本信息中的目標(biāo)關(guān)鍵詞。本發(fā)明實(shí)施例還提供一種服務(wù)器。本發(fā)明實(shí)施例可以有效地提升關(guān)鍵詞獲取的可靠性,同時解決了單條文本信息數(shù)據(jù)稀疏,信息量缺乏的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能領(lǐng)域,尤其涉及一種關(guān)鍵詞確定的方法、文本處理的方法及服務(wù)器。
背景技術(shù)
隨著互聯(lián)網(wǎng)的高速發(fā)展,上網(wǎng)娛樂已經(jīng)成為很多人的愛好。在互聯(lián)網(wǎng)業(yè)務(wù)中,關(guān)鍵詞的確定是非常重要的。這是因?yàn)殛P(guān)鍵詞能夠表達(dá)一句話或者一段話的核心,無論在電商行業(yè)、社交平臺還是搜索引擎中,關(guān)鍵詞的作用都是至關(guān)重要的。
社交媒體中的文本信息具有長度短和信息量少等特點(diǎn)。使用單條文本信息作為關(guān)鍵詞抽取的目標(biāo)文本,會引發(fā)數(shù)據(jù)稀疏等問題。為避免和解決這類問題,目標(biāo)可以采用如下方式:首先需要對多條內(nèi)容相似的文本信息進(jìn)行聚類,得到文本信息集合,然后對每個分類下的文本信息集合進(jìn)行關(guān)鍵詞抽取,由此得到關(guān)鍵詞。
然而,通過文本信息集合抽取關(guān)鍵詞,雖然能夠解決數(shù)據(jù)稀疏的問題,但是采用該方法所抽取到的關(guān)鍵詞是多條文本信息的共享關(guān)鍵詞,而非某條文本信息特有的關(guān)鍵詞,當(dāng)單條文本信息中包含特有的關(guān)鍵詞時,那么這部分關(guān)鍵詞往往會被忽略,從而降低關(guān)鍵詞獲取的可靠性。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種關(guān)鍵詞的確定方法、文本處理的方法及服務(wù)器,可以有效地提升關(guān)鍵詞獲取的可靠性,同時解決了單條文本信息數(shù)據(jù)稀疏,信息量缺乏的問題。
有鑒于此,本發(fā)明的第一方面提供了一種關(guān)鍵詞的確定方法,包括:
獲取待訓(xùn)練對話組信息集合,其中,所述待訓(xùn)練對話組信息集合中包括N個待訓(xùn)練對話組信息,所述待訓(xùn)練對話組信息包括待訓(xùn)練文本信息以及與所述待訓(xùn)練文本信息關(guān)聯(lián)的待訓(xùn)練附屬信息,所述N為大于或等于1的整數(shù);
對所述N個待訓(xùn)練對話組信息進(jìn)行編碼處理,得到每個待訓(xùn)練對話組信息所對應(yīng)的對話組特征信息;
根據(jù)所述每個待訓(xùn)練對話組信息所對應(yīng)的對話組特征信息,以及每個待訓(xùn)練文本信息所對應(yīng)的標(biāo)簽序列,訓(xùn)練得到關(guān)鍵詞抽取模型,其中,所述標(biāo)簽序列用于表示所述待訓(xùn)練文本信息中每個詞語關(guān)鍵詞之間的關(guān)系;
獲取目標(biāo)對話組信息,其中,所述目標(biāo)對話組信息中包括目標(biāo)文本信息;
通過所述關(guān)鍵詞抽取模型獲取所述目標(biāo)文本信息所對應(yīng)的目標(biāo)標(biāo)簽序列,其中,所述目標(biāo)標(biāo)簽序列用于表示目標(biāo)關(guān)鍵詞在所述目標(biāo)文本信息中的位置;
根據(jù)所述目標(biāo)標(biāo)簽序列確定所述目標(biāo)文本信息中的目標(biāo)關(guān)鍵詞。
本發(fā)明的第二方面提供了一種文本處理的方法,包括:
獲取目標(biāo)對話組信息,其中,所述目標(biāo)對話組信息中包括目標(biāo)文本信息;
通過關(guān)鍵詞抽取模型獲取所述目標(biāo)文本信息所對應(yīng)的目標(biāo)標(biāo)簽序列,其中,所述關(guān)鍵詞抽取模型為根據(jù)待訓(xùn)練文本信息以及待訓(xùn)練附屬信息訓(xùn)練得到的,所述待訓(xùn)練附屬信息與所述待訓(xùn)練文本信息具有關(guān)聯(lián)關(guān)系,所述目標(biāo)標(biāo)簽序列用于表示目標(biāo)關(guān)鍵詞在所述目標(biāo)文本信息中的位置;
根據(jù)所述目標(biāo)標(biāo)簽序列確定所述目標(biāo)文本信息中的目標(biāo)關(guān)鍵詞。
本發(fā)明的第三方面提供了一種服務(wù)器,包括:
獲取模塊,用于獲取目標(biāo)對話組信息,其中,所述目標(biāo)對話組信息中包括目標(biāo)文本信息;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810444290.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測方法和裝置
- 關(guān)鍵詞排名的檢測方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動化否定關(guān)鍵詞方法及裝置
- 一種長尾關(guān)鍵詞識別方法、關(guān)鍵詞搜索方法及計算機(jī)設(shè)備
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





