[發明專利]一種數據處理方法及系統在審
| 申請號: | 202110954551.1 | 申請日: | 2021-08-19 |
| 公開(公告)號: | CN113590984A | 公開(公告)日: | 2021-11-02 |
| 發明(設計)人: | 黃金;林鋒;李永全;周驕;黃勇;???/a>;梁思杰 | 申請(專利權)人: | 北京中網易企秀科技有限公司;成都中網易企秀科技有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F16/951 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 錢娜 |
| 地址: | 100193 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 系統 | ||
本申請公開了一種數據處理方法及系統,獲取目標地址,并渲染出目標地址對應的頁面,從頁面中獲取頁面標注區塊,頁面標注區塊由用戶在頁面中的區域進行送審標記得到,基于頁面標注區塊得到源碼區塊標簽,源碼區塊標簽用于表征對相應元素指定送審的源碼標識,對源碼區塊標簽進行解析,得到相應元素對應的元素信息,基于元素信息,得到待審核內容,并對待審核內容進行審核操作。通過上述方案,從渲染出目標地址對應的頁面中獲取頁面標注區塊,頁面標注區塊由用戶在頁面中的區域進行送審標記得到,在解析源碼區塊標簽和對待審核內容進行送審的過程中,用戶可以指定元素信息進行送審或者不送審,提高了送審方式的靈活性。
技術領域
本申請涉及內容審核技術領域,更具體地說,涉及一種數據處理方法及系統。
背景技術
內容審核(Content Moderation)是基于圖像、文本、音視頻等檢測技術,對接收到的待審數據(圖片、文本、音頻、視頻、鏈接等)進行檢測,并將檢測后的待審數據進行內容審核,以滿足上傳要求,幫助客戶降低業務違規風險。
目前,內容審核接收待審數據有兩種方式:一是被動接收;二是主動爬取。主動爬取的方式是通過解析獲取圖片、文本、音頻、視頻、鏈接等元素的方式進行審核,但是該方式存在一些缺陷,比如不能人為選擇一些元素進行送審,或者人為選擇一些元素不進行送審,使得用戶不能對送審元素進行指定,從而降低了送審方式的靈活性。
發明內容
有鑒于此,本申請公開了一種數據處理方法及系統,在解析源碼區塊標簽和對待審核內容進行送審的過程中,用戶可以指定元素信息進行送審或者不送審,提高了送審方式的靈活性。
為了實現上述目的,其公開的技術方案如下:
本申請第一方面公開了一種數據處理方法,所述方法包括:
獲取目標地址,并渲染出所述目標地址對應的頁面;所述目標地址由用戶輸入進行送審的URL地址中選取得到;
從所述頁面中獲取頁面標注區塊;所述頁面標注區塊由所述用戶在所述頁面中的區域進行送審標記得到;
基于所述頁面標注區塊,得到源碼區塊標簽;所述源碼區塊標簽用于表征對相應元素指定送審的源碼標識;
對所述源碼區塊標簽進行解析,得到所述相應元素對應的元素信息;
基于所述元素信息得到待審核內容,并對所述待審核內容進行審核操作。
優選的,所述獲取目標地址,并渲染出所述目標地址對應的頁面,包括:
獲取原始URL地址;所述原始URL地址用于指示用戶輸入進行送審的URL地址;
通過預設可變動參數,對所述原始URL地址進行選取得到目標地址,并渲染出所述目標地址對應的頁面;所述預設可變動參數用于定位所述目標地址對應的網絡源碼位置。
優選的,所述基于所述頁面標注區塊,得到源碼區塊標簽,包括:
從所述頁面標注區塊中獲取區域源碼;
向所述區域源碼添加用于指示送審的標簽,得到源碼區塊標簽。
優選的,所述對所述源碼區塊標簽進行解析,得到所述相應元素對應的元素信息,包括:
將所述目標地址與預設URL地址進行預定匹配處理;
若所述目標地址與所述預設URL地址匹配,則獲取所述源碼區塊標簽的URL內容源碼;
從所述URL內容源碼中獲取區塊起始位置及區塊終止位置之間對應的目標URL內容源碼;
解析所述目標URL內容源碼,得到所述相應元素對應的元素信息。
優選的,還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中網易企秀科技有限公司;成都中網易企秀科技有限公司,未經北京中網易企秀科技有限公司;成都中網易企秀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110954551.1/2.html,轉載請聲明來源鉆瓜專利網。





