[發(fā)明專利]一種標(biāo)簽提取方法、裝置、設(shè)備和介質(zhì)有效
| 申請?zhí)枺?/td> | 201711136511.6 | 申請日: | 2017-11-16 |
| 公開(公告)號(hào): | CN107861948B | 公開(公告)日: | 2021-09-17 |
| 發(fā)明(設(shè)計(jì))人: | 孫健 | 申請(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號(hào): | G06F40/258 | 分類號(hào): | G06F40/258;G06F40/284;G06F40/289;G06F16/9535;G06F16/957 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 標(biāo)簽 提取 方法 裝置 設(shè)備 介質(zhì) | ||
1.一種標(biāo)簽提取方法,其特征在于,包括:
對文本數(shù)據(jù)進(jìn)行分詞,得到多個(gè)實(shí)詞,并根據(jù)所述實(shí)詞確定候選標(biāo)簽詞;其中,文本數(shù)據(jù)為待進(jìn)行標(biāo)簽提取的文本內(nèi)容;
將每個(gè)候選標(biāo)簽詞依次作為當(dāng)前候選標(biāo)簽詞,并根據(jù)所述當(dāng)前候選標(biāo)簽詞在所述文本數(shù)據(jù)中的熱度趨勢,確定所述當(dāng)前候選標(biāo)簽詞在當(dāng)前時(shí)刻的熱度值;
判斷所述熱度值是否滿足設(shè)定標(biāo)簽詞條件,若滿足,則將所述當(dāng)前候選標(biāo)簽詞作為標(biāo)簽詞;
其中,所述根據(jù)所述實(shí)詞確定候選標(biāo)簽詞,包括:
利用預(yù)設(shè)模型確定所述實(shí)詞的語義向量;
根據(jù)所述語義向量確定所述實(shí)詞之間的語義距離;
對于每一個(gè)實(shí)詞,根據(jù)所述語義距離,以當(dāng)前實(shí)詞為鄰域中心,以設(shè)定半徑值為半徑確定當(dāng)前鄰域;
若所述當(dāng)前鄰域內(nèi)的實(shí)詞個(gè)數(shù)大于預(yù)設(shè)實(shí)詞個(gè)數(shù),則將所述當(dāng)前實(shí)詞作為標(biāo)簽詞,并將所述當(dāng)前鄰域內(nèi)除標(biāo)簽詞以外的實(shí)詞作為候選標(biāo)簽詞;若所述當(dāng)前鄰域內(nèi)的實(shí)詞個(gè)數(shù)不大于所述預(yù)設(shè)實(shí)詞個(gè)數(shù),則對所述當(dāng)前領(lǐng)域的半徑進(jìn)行調(diào)整。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述當(dāng)前候選標(biāo)簽詞在所述文本數(shù)據(jù)中的熱度趨勢,確定所述當(dāng)前候選標(biāo)簽詞在當(dāng)前時(shí)刻的熱度值包括:
根據(jù)所述當(dāng)前候選標(biāo)簽詞在所述文本數(shù)據(jù)中的熱度趨勢,確定所述當(dāng)前候選標(biāo)簽詞在當(dāng)前時(shí)刻的熱度向量;
根據(jù)所述熱度向量確定所述當(dāng)前候選標(biāo)簽詞在當(dāng)前時(shí)刻的熱度值。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述當(dāng)前候選標(biāo)簽詞在所述文本數(shù)據(jù)中的熱度趨勢,確定所述當(dāng)前候選標(biāo)簽詞在當(dāng)前時(shí)刻的熱度向量包括:
將所述文本數(shù)據(jù)根據(jù)生成時(shí)間進(jìn)行排列;
按照設(shè)定時(shí)間間隔將排列后的所述文本數(shù)據(jù)劃分成多個(gè)數(shù)據(jù)塊;
確定所述當(dāng)前候選標(biāo)簽詞在每個(gè)數(shù)據(jù)塊的熱度;
根據(jù)所述當(dāng)前候選標(biāo)簽詞在相鄰數(shù)據(jù)塊中的熱度,確定所述當(dāng)前候選標(biāo)簽詞在當(dāng)前時(shí)刻的熱度向量。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,確定所述當(dāng)前候選標(biāo)簽詞在每個(gè)數(shù)據(jù)塊的熱度包括:
根據(jù)所述當(dāng)前候選標(biāo)簽詞在每個(gè)數(shù)據(jù)塊中的詞頻、共現(xiàn)組合新詞頻率和/或詞頻逆文檔頻率,確定所述當(dāng)前候選標(biāo)簽詞在每個(gè)數(shù)據(jù)塊的熱度。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)所述當(dāng)前候選標(biāo)簽詞在相鄰數(shù)據(jù)塊中的熱度,確定所述當(dāng)前候選標(biāo)簽詞在當(dāng)前時(shí)刻的熱度向量包括:
將截至當(dāng)前時(shí)刻的設(shè)定時(shí)長的時(shí)間段作為當(dāng)前時(shí)間段;
遍歷所述當(dāng)前時(shí)間段內(nèi)的數(shù)據(jù)塊,以逐一比較所述當(dāng)前候選標(biāo)簽詞在相鄰所述數(shù)據(jù)塊中的熱度;
根據(jù)比較結(jié)果確定所述當(dāng)前候選標(biāo)簽詞在當(dāng)前時(shí)刻的熱度向量。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)比較結(jié)果確定所述當(dāng)前候選標(biāo)簽詞在當(dāng)前時(shí)刻的熱度向量包括:
若所述當(dāng)前候選標(biāo)簽詞在所述當(dāng)前時(shí)間段內(nèi),目標(biāo)時(shí)刻的相鄰數(shù)據(jù)塊中的晚于目標(biāo)時(shí)刻的數(shù)據(jù)塊中的熱度,大于、等于或小于在早于目標(biāo)時(shí)刻的數(shù)據(jù)塊中的熱度,則對應(yīng)將第一設(shè)定值、第二設(shè)定值或第三設(shè)定值作為所述當(dāng)前候選標(biāo)簽詞在目標(biāo)時(shí)刻的熱度向量,其中第一設(shè)定值大于第二設(shè)定值,第二設(shè)定值大于第三設(shè)定值;
將不同的目標(biāo)時(shí)刻的熱度向量構(gòu)成的多維度向量,作為所述當(dāng)前候選標(biāo)簽詞在當(dāng)前時(shí)刻的熱度向量。
7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述熱度向量確定所述當(dāng)前候選標(biāo)簽詞在當(dāng)前時(shí)刻的熱度值包括:
將所述熱度向量的模,確定為所述當(dāng)前候選標(biāo)簽詞在當(dāng)前時(shí)刻的熱度值。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對于每一個(gè)實(shí)詞,根據(jù)所述語義距離,以當(dāng)前實(shí)詞為鄰域中心,以設(shè)定半徑值為半徑確定當(dāng)前鄰域之后,還包括:
根據(jù)預(yù)設(shè)半徑值范圍對所述鄰域進(jìn)行更新。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)模型至少包括:文本深度表示模型或主題模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711136511.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 瀏覽器中關(guān)閉標(biāo)簽的裝置和方法
- 標(biāo)簽生成方法及標(biāo)簽生成裝置
- 一種帶有標(biāo)簽的電氣插座
- 標(biāo)簽檢測定位裝置及其標(biāo)簽制造設(shè)備
- 標(biāo)簽切割裝置及其標(biāo)簽加工機(jī)
- 基于樹形結(jié)構(gòu)的標(biāo)簽存儲(chǔ)方法及裝置
- 一種標(biāo)簽分離機(jī)構(gòu)
- 標(biāo)簽切割裝置及其標(biāo)簽加工機(jī)
- 標(biāo)簽檢測定位裝置及其標(biāo)簽制造設(shè)備
- 標(biāo)簽轉(zhuǎn)換處理方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





