[發(fā)明專利]自適應(yīng)廣播電視新聞關(guān)鍵詞標(biāo)準(zhǔn)化方法有效
| 申請?zhí)枺?/td> | 202110451197.0 | 申請日: | 2021-04-26 |
| 公開(公告)號: | CN112988953B | 公開(公告)日: | 2021-09-03 |
| 發(fā)明(設(shè)計)人: | 溫序銘;朱婷婷;楊瀚;嚴(yán)照宇;陳智 | 申請(專利權(quán))人: | 成都索貝數(shù)碼科技股份有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31 |
| 代理公司: | 成都九鼎天元知識產(chǎn)權(quán)代理有限公司 51214 | 代理人: | 賈年龍 |
| 地址: | 610041 四*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 自適應(yīng) 廣播電視 新聞 關(guān)鍵詞 標(biāo)準(zhǔn)化 方法 | ||
1.自適應(yīng)廣播電視新聞關(guān)鍵詞標(biāo)準(zhǔn)化方法,其特征在于,包括:
步驟A,基于基礎(chǔ)關(guān)鍵詞庫標(biāo)準(zhǔn)化候選關(guān)鍵詞,對不能被標(biāo)準(zhǔn)化的詞則加入白名單,當(dāng)白名單詞增加到設(shè)定量后,對白名單內(nèi)的詞進(jìn)行分析提取代表詞返回給用戶,用于擴(kuò)充基礎(chǔ)關(guān)鍵詞庫;
所述基于基礎(chǔ)關(guān)鍵詞庫標(biāo)準(zhǔn)化候選關(guān)鍵詞,包括:
步驟A1,獲取多個新聞文本語料,構(gòu)建用于訓(xùn)練FastText詞向量模型的學(xué)習(xí)樣本;
步驟A2,基于步驟A1所構(gòu)建的學(xué)習(xí)樣本進(jìn)行FastText詞向量模型的訓(xùn)練,獲得詞向量模型;
步驟A3,利用步驟A2中訓(xùn)練好的FastText詞向量模型,以及結(jié)合近似最近鄰方法Hnswlib構(gòu)建候選關(guān)鍵詞標(biāo)準(zhǔn)化模型,利用所述候選關(guān)鍵詞模型標(biāo)準(zhǔn)化模型獲取輸入候選關(guān)鍵詞在基礎(chǔ)關(guān)鍵詞庫中的前K個相似詞及相互之間的距離;在距離小于設(shè)定閾值的相似詞中選擇距離與候選關(guān)鍵詞最近的作為其標(biāo)準(zhǔn)化結(jié)果返回給用戶;
步驟A4,將利用候選關(guān)鍵詞標(biāo)準(zhǔn)化模型召回的相似詞距離都大于閾值的候選關(guān)鍵詞加入白名單,供后續(xù)基礎(chǔ)關(guān)鍵詞庫擴(kuò)充準(zhǔn)備。
2.根據(jù)權(quán)利要求1所述的自適應(yīng)廣播電視新聞關(guān)鍵詞標(biāo)準(zhǔn)化方法,其特征在于,所述候選關(guān)鍵詞按照如下步驟獲取:通過基于訓(xùn)練好的關(guān)鍵詞抽取模型對輸入的廣播電視新聞進(jìn)行預(yù)測,獲得關(guān)鍵詞抽取結(jié)果,對抽取結(jié)果進(jìn)行黑名單過濾形成候選關(guān)鍵詞。
3.根據(jù)權(quán)利要求2所述的自適應(yīng)廣播電視新聞關(guān)鍵詞標(biāo)準(zhǔn)化方法,其特征在于,在進(jìn)行黑名單過濾前,對提取到的關(guān)鍵詞進(jìn)行如下處理:去除冗余、標(biāo)點分割和通順分析處理。
4.根據(jù)權(quán)利要求1所述的自適應(yīng)廣播電視新聞關(guān)鍵詞標(biāo)準(zhǔn)化方法,其特征在于,所述對白名單內(nèi)的詞進(jìn)行分析提取代表詞返回給用戶,用于擴(kuò)充基礎(chǔ)關(guān)鍵詞庫,包括:
步驟B1,利用步驟A1中訓(xùn)練好的FastText詞向量模型獲取白名單中所有詞的詞向量,基于詞向量對白名單內(nèi)的詞進(jìn)行聚類分析,獲得詞簇,這里,K為聚類數(shù),表示詞簇中的詞總量;
步驟B2,對每個詞簇進(jìn)行分析,獲得代表詞,用于擴(kuò)充基礎(chǔ)關(guān)鍵詞庫。
5.根據(jù)權(quán)利要求4所述的自適應(yīng)廣播電視新聞關(guān)鍵詞標(biāo)準(zhǔn)化方法,其特征在于,在步驟B2中,對每個詞簇進(jìn)行分析包括如下步驟:先利用每個詞簇內(nèi)的詞構(gòu)建Hnswlib索引,然后計算每個詞簇的候選中心詞詞向量,最后在中檢索與最近的詞作為代表詞返回給用戶,由用戶判定是否將其加入基礎(chǔ)關(guān)鍵詞庫;其中,表示取詞向量的加和平均。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都索貝數(shù)碼科技股份有限公司,未經(jīng)成都索貝數(shù)碼科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110451197.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 使用后向自適應(yīng)規(guī)則進(jìn)行整數(shù)數(shù)據(jù)的無損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺
- 采用自適應(yīng)機(jī)匣和自適應(yīng)風(fēng)扇的智能發(fā)動機(jī)
- 一種自適應(yīng)樹木自動涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動機(jī)燃?xì)庾赃m應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機(jī)頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測方法和裝置
- 關(guān)鍵詞排名的檢測方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動化否定關(guān)鍵詞方法及裝置
- 一種長尾關(guān)鍵詞識別方法、關(guān)鍵詞搜索方法及計算機(jī)設(shè)備





