[發(fā)明專利]一種表達頁面特征的方法和電子設(shè)備有效
| 申請?zhí)枺?/td> | 201911234580.X | 申請日: | 2019-12-05 |
| 公開(公告)號: | CN111078546B | 公開(公告)日: | 2023-06-16 |
| 發(fā)明(設(shè)計)人: | 趙金閣;許立鵬;王晨 | 申請(專利權(quán))人: | 北京云聚智慧科技有限公司 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06F40/289;G06F40/30 |
| 代理公司: | 北京國昊天誠知識產(chǎn)權(quán)代理有限公司 11315 | 代理人: | 許振新 |
| 地址: | 102425 北京市房山區(qū)閻富*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 表達 頁面 特征 方法 電子設(shè)備 | ||
1.一種表達頁面特征的方法,其特征在于,包括:
獲取目標狀態(tài)頁面中的至少一個文本詞匯,所述目標狀態(tài)頁面為目標應(yīng)用程序展現(xiàn)的頁面;
通過預(yù)訓(xùn)練語言模型構(gòu)建與所述至少一個文本詞匯相對應(yīng)的詞向量;
確定各所述詞向量在所述目標應(yīng)用程序中的特征權(quán)重值;
根據(jù)各所述詞向量和相對應(yīng)的特征權(quán)重值加權(quán)確定所述目標狀態(tài)頁面的狀態(tài)語義向量,以表達所述目標狀態(tài)頁面的頁面特征;
其中,在獲取目標狀態(tài)頁面中的至少一個文本詞匯之前,還包括:
收集所述目標應(yīng)用程序包含的至少一個狀態(tài)頁面的頁面信息;
從所述至少一個狀態(tài)頁面的頁面信息中提取應(yīng)用程序文本;
根據(jù)所述應(yīng)用程序文本,通過語言模型生成與所述目標應(yīng)用程序相對應(yīng)的領(lǐng)域詞庫和逆文本頻率詞庫,其中,所述領(lǐng)域詞庫用于表征所述目標應(yīng)用程序中的文本分詞特征,所述逆文本頻率詞庫用于表征文本在所述目標應(yīng)用程序中的相關(guān)性特征。
2.如權(quán)利要求1所述的方法,其特征在于,獲取目標狀態(tài)頁面中的至少一個文本詞匯,包括:
獲取所述目標狀態(tài)頁面中的文本,其中,所述目標狀態(tài)頁面中的文本包括從所述目標狀態(tài)頁面的圖像中識別得到的第一文本,和/或,從所述目標狀態(tài)頁面包含的控件中抽取得到的第二文本;
根據(jù)所述領(lǐng)域詞庫對目標狀態(tài)頁面中的文本進行分詞,得到至少一個文本詞匯。
3.如權(quán)利要求2所述的方法,其特征在于,根據(jù)所述領(lǐng)域詞庫對目標狀態(tài)頁面中的文本進行分詞,得到至少一個文本詞匯,包括:
對所述目標狀態(tài)頁面中的文本進行數(shù)據(jù)清洗;
根據(jù)所述領(lǐng)域詞庫對經(jīng)過數(shù)據(jù)清洗的目標狀態(tài)頁面中的文本進行分詞,得到至少一個文本詞匯。
4.如權(quán)利要求1~3任一項所述的方法,其特征在于,所述預(yù)訓(xùn)練語言模型包括BERT模型,所述通過預(yù)訓(xùn)練語言模型構(gòu)建與所述至少一個文本詞匯相對應(yīng)的詞向量,包括:
對目標狀態(tài)頁面中的目標文本詞匯執(zhí)行字嵌入,得到字嵌入結(jié)果;
對所述字嵌入結(jié)果執(zhí)行編碼,得到字向量;
對所述字向量加權(quán)確定與所述目標文本詞匯相對應(yīng)的詞向量。
5.如權(quán)利要求4所述的方法,其特征在于,確定各所述詞向量在所述目標應(yīng)用程序中的特征權(quán)重值,包括:
根據(jù)目標狀態(tài)頁面中包含的文本詞匯確定所述目標文本詞匯在所述目標狀態(tài)頁面中的詞頻值,其中,所述目標文本詞匯為所述詞向量對應(yīng)的文本詞匯,所述詞頻值用于表征所述目標文本詞匯在所述目標狀態(tài)頁面中出現(xiàn)的頻次;
根據(jù)所述逆文本頻率詞庫確定所述詞向量的逆文本頻率指數(shù)值;
根據(jù)所述詞向量的詞頻值和逆文本頻率指數(shù)值,確定各所述詞向量在所述目標應(yīng)用程序中的特征權(quán)重值。
6.如權(quán)利要求5所述的方法,其特征在于,根據(jù)目標狀態(tài)頁面中包含的文本詞匯確定目標文本詞匯在所述目標狀態(tài)頁面中的詞頻值,包括:
將目標文本詞匯在所述目標狀態(tài)頁面中出現(xiàn)的次數(shù)與所述目標狀態(tài)頁面包含的文本詞匯的比值確定為目標文本詞匯在所述目標狀態(tài)頁面中的詞頻值;
其中,所述根據(jù)所述逆文本頻率詞庫確定所述詞向量的逆文本頻率指數(shù)值,包括:
將預(yù)訓(xùn)練模型的語料庫包含的文檔總數(shù)與包含所述目標文本詞匯的文檔數(shù)量相除的二進對數(shù)確定為所述詞向量的逆文本頻率指數(shù)值。
7.一種電子設(shè)備,其特征在于,包括:
第一獲取模塊,獲取目標狀態(tài)頁面中的至少一個文本詞匯,所述目標狀態(tài)頁面為目標應(yīng)用程序展現(xiàn)的頁面;
第一構(gòu)建模塊,通過預(yù)訓(xùn)練語言模型構(gòu)建與所述至少一個文本詞匯相對應(yīng)的詞向量;
第一確定模塊,確定各所述詞向量在所述目標應(yīng)用程序中的特征權(quán)重值;
第二確定模塊,根據(jù)各所述詞向量和相對應(yīng)的特征權(quán)重值加權(quán)確定所述目標狀態(tài)頁面的狀態(tài)語義向量,以表達所述目標狀態(tài)頁面的頁面特征;
預(yù)處理模塊,用于:
收集所述目標應(yīng)用程序包含的至少一個狀態(tài)頁面的頁面信息;
從所述至少一個狀態(tài)頁面的頁面信息中提取應(yīng)用程序文本;
根據(jù)所述應(yīng)用程序文本,通過語言模型生成與所述目標應(yīng)用程序相對應(yīng)的領(lǐng)域詞庫和逆文本頻率詞庫,其中,所述領(lǐng)域詞庫用于表征所述目標應(yīng)用程序中的文本分詞特征,所述逆文本頻率詞庫用于表征文本在所述目標應(yīng)用程序中的相關(guān)性特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京云聚智慧科技有限公司,未經(jīng)北京云聚智慧科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911234580.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





