[發(fā)明專利]基于文本的行業(yè)類別識別方法及裝置在審
| 申請?zhí)枺?/td> | 202111150329.2 | 申請日: | 2021-09-29 |
| 公開(公告)號: | CN113836305A | 公開(公告)日: | 2021-12-24 |
| 發(fā)明(設計)人: | 黃于晏;陳瑩瑩;李展鏗 | 申請(專利權(quán))人: | 有米科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廣州三環(huán)專利商標代理有限公司 44202 | 代理人: | 肖宇揚;江銀會 |
| 地址: | 510006 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 文本 行業(yè)類別 識別 方法 裝置 | ||
本發(fā)明公開了一種基于文本的行業(yè)類別識別方法及裝置,通過分別提取待識別行業(yè)的文本中的中文文本詞向量集合和英文文本詞向量集合,再根據(jù)英文文本詞向量集合的長度和中文文本詞向量集合的長度,去確定與待識別行業(yè)的文本匹配的行業(yè)類別,能夠提高識別出與文本匹配的行業(yè)類別的準確性,有利于提高對不同行業(yè)的文本(如廣告文本)中蘊含的品牌和品類進行探索的準確性及可靠性,以及無需對英文文本進行翻譯,直接使用英文行業(yè)識別模型對英文文本進行分析,能夠提高英文文本的分析效率以及準確性。
技術(shù)領(lǐng)域
本發(fā)明涉及文本處理技術(shù)領(lǐng)域,尤其涉及一種基于文本的行業(yè)類別識別方法及裝置。
背景技術(shù)
互聯(lián)網(wǎng)廣告作為不同行業(yè)的商家、企業(yè)宣傳、營銷產(chǎn)品的重要渠道,常包含對應宣傳產(chǎn)品的品牌、名稱以及相關(guān)的介紹、成分、標語,有效對其進行行業(yè)分類,有助于對不同行業(yè)的廣告形式和廣告中蘊含的品牌和品類進行探索。
隨著近年來國際品牌企業(yè)對中國市場的重視,廣告中涌現(xiàn)的英文類品牌和商品也越來越多。因其傳播的對象、發(fā)布平臺與表現(xiàn)手段的不同,對應的廣告文本數(shù)據(jù)具有中英文數(shù)據(jù)糅合、長度不一、口語化、模板化(如相同的句式嵌入不同的品牌或者單品名)和摻雜網(wǎng)絡流行語等特點,使得難以確定或者無法準確確定與廣告文本數(shù)據(jù)匹配的行業(yè)類別。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于,提供一種基于文本的行業(yè)類別識別方法及裝置,能夠準確確定與廣告文本數(shù)據(jù)匹配的行業(yè)類別。
為了解決上述技術(shù)問題,本發(fā)明第一方面公開了一種基于文本的行業(yè)類別識別方法,所述方法包括:
對確定出的待識別行業(yè)的目標文本執(zhí)行中英文信息提取操作,得到所述目標文本的中文文本詞向量集合和所述目標文本的英文文本詞向量集合;
確定所述中文文本詞向量集合的長度和所述英文文本詞向量集合的長度;
根據(jù)所述中文文本詞向量集合的長度和所述英文文本詞向量集合的長度,確定與所述目標文本匹配的行業(yè)類別。
作為一種可選的實施方式,在本發(fā)明第一方面中,所述根據(jù)所述中文文本詞向量集合的長度和所述英文文本詞向量集合的長度確定與所述目標文本匹配的行業(yè)類別,包括:
判斷所述中文文本詞向量集合的長度和所述英文文本詞向量集合的長度是否均小于對應的確定出的長度閾值,得到判斷結(jié)果;
根據(jù)所述判斷結(jié)果,匹配與所述判斷結(jié)果對應的行業(yè)識別模型,根據(jù)所述判斷結(jié)果對應的行業(yè)識別模型,分析所述目標文本,得到與所述目標文本匹配的行業(yè)類別。
作為一種可選的實施方式,在本發(fā)明第一方面中,所述根據(jù)所述判斷結(jié)果,匹配與所述判斷結(jié)果對應的行業(yè)識別模型,包括:
當所述判斷結(jié)果用于表示所述中文文本詞向量集合的長度小于所述中文文本詞向量集合對應的長度閾值且所述英文文本詞向量集合的長度大于等于所述英文文本詞向量集合對應的長度閾值時,確定所述英文文本詞向量集合對應的英文行業(yè)識別模型,作為與所述判斷結(jié)果對應的行業(yè)識別模型;
當所述判斷結(jié)果用于表示所述中文文本詞向量集合的長度大于等于所述中文文本詞向量集合對應的長度閾值且所述英文文本詞向量集合的長度小于所述英文文本詞向量集合對應的長度閾值時,確定所述中文文本詞向量集合對應的中文行業(yè)識別模型,作為與所述判斷結(jié)果對應的行業(yè)識別模型;
當所述判斷結(jié)果用于表示所述中文文本詞向量集合的長度大于等于所述中文文本詞向量集合對應的長度閾值且所述英文文本詞向量集合的長度大于等于所述英文文本詞向量集合對應的長度閾值時,確定所述中文文本詞向量集合對應的中文行業(yè)識別模型及所述英文文本詞向量集合對應的英文行業(yè)識別模型,作為與所述判斷結(jié)果對應的行業(yè)識別模型。
作為一種可選的實施方式,在本發(fā)明第一方面中,所述根據(jù)所述判斷結(jié)果對應的行業(yè)識別模型,分析所述待識別行業(yè)的目標文本,得到與所述目標文本匹配的行業(yè)類別,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于有米科技股份有限公司,未經(jīng)有米科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111150329.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





