[發(fā)明專利]一種面向網(wǎng)頁(yè)圖文數(shù)據(jù)的廣告分析方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202110449436.9 | 申請(qǐng)日: | 2021-04-25 |
| 公開(kāi)(公告)號(hào): | CN115330423A | 公開(kāi)(公告)日: | 2022-11-11 |
| 發(fā)明(設(shè)計(jì))人: | 李在灼;姜豪;胡長(zhǎng)春 | 申請(qǐng)(專利權(quán))人: | 福州果集信息科技有限公司 |
| 主分類號(hào): | G06Q30/02 | 分類號(hào): | G06Q30/02;G06F16/955;G06F16/583;G06F16/55;G06V30/19;G06N20/00 |
| 代理公司: | 合肥上博知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 34188 | 代理人: | 張果果 |
| 地址: | 350000 福建省福州市倉(cāng)山區(qū)*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 網(wǎng)頁(yè) 圖文 數(shù)據(jù) 廣告 分析 方法 系統(tǒng) | ||
本發(fā)明涉及一種面向網(wǎng)頁(yè)圖文數(shù)據(jù)的廣告分析方法,其包括以下步驟:S1)對(duì)待分析網(wǎng)頁(yè)圖文數(shù)據(jù)進(jìn)行解析處理;S2)下載圖片url鏈接對(duì)應(yīng)圖片,基于OCR技術(shù)進(jìn)行圖片文字識(shí)別;S3)將純文本信息和圖片文字信息轉(zhuǎn)換成計(jì)算機(jī)可計(jì)算的向量,輸入到二分類廣告鑒別模型中進(jìn)行是否為廣告的鑒別;S4)將純文本信息和圖片文字信息轉(zhuǎn)換成計(jì)算機(jī)可計(jì)算的向量,輸入到多分類廣告分類模型中進(jìn)行行業(yè)分類預(yù)測(cè),確定該廣告的行業(yè)分類;S5)將該廣告行業(yè)分類中預(yù)設(shè)的品牌詞逐個(gè)分別在圖片文字信息、粗體文本信息和正文文本信息中進(jìn)行品牌詞匹配,并綜合各品牌詞出現(xiàn)的維度數(shù)、次數(shù)以及位置權(quán)重進(jìn)行選取,確定該廣告的品牌詞;S6)進(jìn)行數(shù)據(jù)保存以供查詢功能模塊調(diào)用并展示。
技術(shù)領(lǐng)域
本發(fā)明涉及廣告分析技術(shù)領(lǐng)域,尤其是一種面向網(wǎng)頁(yè)圖文數(shù)據(jù)的廣告分析方法及系統(tǒng)。
背景技術(shù)
隨著新媒體行業(yè)的快速發(fā)展,各大平臺(tái)所帶來(lái)的流量紅利也備受廣告主的青睞。對(duì)商家、品牌方來(lái)說(shuō),他們希望獲取到具有投放價(jià)值的流量主;而對(duì)于運(yùn)營(yíng)者、流量方來(lái)說(shuō),也想要了解到各自行業(yè)以及整體市場(chǎng)的廣告投放規(guī)模,從而對(duì)運(yùn)營(yíng)方向做出調(diào)整。因此用戶就需要在海量的圖文、視頻數(shù)據(jù)中,鑒別文本的廣告價(jià)值,以及進(jìn)一步分析廣告的分類和所屬品牌,以往只能通過(guò)人工識(shí)別的方式,逐條逐字的瀏覽,耗時(shí)耗力。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的情況,提供一種設(shè)計(jì)合理,能夠快速、精準(zhǔn)的鑒別是否為廣告,并精準(zhǔn)定位廣告的行業(yè)分類和品牌歸屬的面向網(wǎng)頁(yè)圖文數(shù)據(jù)的廣告分析方法,同時(shí)提供一種設(shè)計(jì)合理,結(jié)構(gòu)簡(jiǎn)單的面向網(wǎng)頁(yè)圖文數(shù)據(jù)的廣告分析系統(tǒng)。
為了實(shí)現(xiàn)上述第一個(gè)目的,本發(fā)明采用以下技術(shù)方案:
一種面向網(wǎng)頁(yè)圖文數(shù)據(jù)的廣告分析方法,其包括以下步驟:
S1)對(duì)待分析網(wǎng)頁(yè)圖文數(shù)據(jù)進(jìn)行解析處理,提取得到純文本信息,同時(shí)分解成粗體部分、正文部分、圖片url鏈接部分和視頻url鏈接部分;
S2)根據(jù)圖片url鏈接部分中的圖片url鏈接下載圖片,基于OCR技術(shù)對(duì)下載的圖片進(jìn)行圖片文字識(shí)別,獲得圖片文字信息;
S3)將純文本信息和圖片文字信息轉(zhuǎn)換成計(jì)算機(jī)可計(jì)算的向量,輸入到基于機(jī)器學(xué)習(xí)算法的二分類廣告鑒別模型中進(jìn)行是否為廣告的鑒別,若鑒別為廣告,則執(zhí)行步驟S4),若鑒別為非廣告,則發(fā)送至數(shù)據(jù)保存模塊進(jìn)行數(shù)據(jù)保存;
S4)將純文本信息和圖片文字信息轉(zhuǎn)換成計(jì)算機(jī)可計(jì)算的向量,輸入到基于機(jī)器學(xué)習(xí)算法的多分類廣告分類模型中行業(yè)分類預(yù)測(cè),確定該廣告的行業(yè)分類;
S5)將該廣告的行業(yè)分類中預(yù)設(shè)的品牌詞逐個(gè)分別在圖片文字信息、粗體部分的粗體文本信息和正文部分的正文文本信息這三個(gè)維度中進(jìn)行品牌詞匹配,并綜合各品牌詞出現(xiàn)的維度數(shù)、次數(shù)以及位置權(quán)重這三個(gè)因素進(jìn)行選取,確定該廣告的品牌詞;
S6)將鑒別為廣告的網(wǎng)頁(yè)圖文數(shù)據(jù)、該廣告的圖片文字信息、行業(yè)分類和品牌詞分別發(fā)送至數(shù)據(jù)保存模塊進(jìn)行數(shù)據(jù)保存,供查詢功能模塊調(diào)用并展示。
作為優(yōu)選,步驟2)中所述解析處理的方法,其包括以下步驟:
S1.1)將待分析網(wǎng)頁(yè)圖文數(shù)據(jù)中的所有js腳本、樣式信息、圖片url鏈接和視頻url鏈接進(jìn)行剔除處理,提取得到純文本信息;
S1.2)將待分析網(wǎng)頁(yè)圖文數(shù)據(jù)分解成粗體部分、正文部分、圖片url鏈接部分和視頻url鏈接部分,分別進(jìn)行提取得到粗體文本信息、正文文本信息、圖片url鏈接和視頻url鏈接。
作為優(yōu)選,步驟2)中所述圖片文字識(shí)別的方法為:基于OCR技術(shù),將下載的圖片輸入到開(kāi)源OCR模型中,獲得圖片文字信息。
作為優(yōu)選,步驟3)中所述基于機(jī)器學(xué)習(xí)算法的二分類廣告鑒別模型的建立方法,包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福州果集信息科技有限公司,未經(jīng)福州果集信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110449436.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的處理系統(tǒng)或方法
G06Q30-00 商業(yè),例如購(gòu)物或電子商務(wù)
G06Q30-02 .行銷,例如,市場(chǎng)研究與分析、調(diào)查、促銷、廣告、買方剖析研究、客戶管理或獎(jiǎng)勵(lì);價(jià)格評(píng)估或確定
G06Q30-04 .簽單或開(kāi)發(fā)票
G06Q30-06 .購(gòu)買、出售或租賃交易
G06Q30-08 ..拍賣
- 一種搜索網(wǎng)頁(yè)的方法和裝置
- 網(wǎng)頁(yè)類型識(shí)別方法以及網(wǎng)頁(yè)類型識(shí)別裝置
- 網(wǎng)頁(yè)生成方法及網(wǎng)頁(yè)生成裝置
- 網(wǎng)頁(yè)修改方法及網(wǎng)頁(yè)修改裝置
- 網(wǎng)頁(yè)訪問(wèn)處理方法
- 獲取網(wǎng)頁(yè)信息方法和裝置
- 網(wǎng)頁(yè)資源的獲取方法、裝置及終端
- 一種網(wǎng)頁(yè)制作方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及服務(wù)器
- 網(wǎng)頁(yè)安全處理方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種網(wǎng)頁(yè)同步的方法、系統(tǒng)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





