[發明專利]一種文本數據的內鏈詞提取匹配方法及裝置有效
| 申請號: | 202111519106.9 | 申請日: | 2021-12-14 |
| 公開(公告)號: | CN113919347B | 公開(公告)日: | 2022-04-05 |
| 發明(設計)人: | 朱春華;王濤;程曉梅;王艷娜;逄曉剛;曾繁誠 | 申請(專利權)人: | 山東捷瑞數字科技股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/268;G06F16/383;G06F16/955 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 杜陽陽 |
| 地址: | 264003 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 數據 內鏈詞 提取 匹配 方法 裝置 | ||
1.一種文本數據的內鏈詞提取匹配方法,其特征在于,包括:
對目標文本中的內鏈詞進行提取分配處理,以得到正式內鏈詞、預備內鏈詞、無意內鏈詞以及候補內鏈詞;
對所述正式內鏈詞、所述預備內鏈詞、所述無意內鏈詞以及所述候補內鏈詞分別進行特征類型詞標注,以得到目標特征詞序列;所述目標特征詞序列包括所述正式內鏈詞的特征詞序列、所述預備內鏈詞的特征詞序列、所述無意內鏈詞的特征詞序列以及所述候補內鏈詞的特征詞序列;
基于所述目標特征詞序列,計算每個所述候補內鏈詞的權重系數值,并根據所述候補內鏈詞的權重系數值,更改每個所述候補內鏈詞;更改后的候補內鏈詞為正式內鏈詞、預備內鏈詞或者無意內鏈詞;
計算每個標記預備內鏈詞的用戶行為權重系數,并根據所述標記預備內鏈詞的用戶行為權重系數,更改每個所述標記預備內鏈詞;更改后的標記預備內鏈詞為正式內鏈詞或者無意內鏈詞;所述標記預備內鏈詞為對目標文本中的內鏈詞進行提取分配處理后得到的預備內鏈詞或者更改所述候補內鏈詞后所確定的預備內鏈詞;
所述對目標文本中的內鏈詞進行提取分配處理,以得到正式內鏈詞、預備內鏈詞、無意內鏈詞以及候補內鏈詞,具體包括:
從目標文本中提取所有目標內鏈詞;所述目標內鏈詞為存在語義的內鏈詞;將所有所述目標內鏈詞分別投放到正式池、預備池和無意池中,以進行匹配處理;其中,與所述正式池中的內鏈詞完全匹配的目標內鏈詞為正式內鏈詞,與所述預備池中的內鏈詞完全匹配的目標內鏈詞為預備內鏈詞,與所述無意池中的內鏈詞完全匹配的目標內鏈詞為無意內鏈詞,剩余的目標內鏈詞為候補內鏈詞;所述剩余的目標內鏈詞為在所有所述目標內鏈詞中,除了所述正式內鏈詞、所述預備內鏈詞和所述無意內鏈詞之外的目標內鏈詞;所述正式池為使用中的內鏈詞集合,所述正式池中的內鏈詞是通過權重計算得出的優質內鏈詞;所述預備池為新增內鏈詞的臨時中轉詞集合;所述無意池為被淘汰的內鏈詞集合,所述無意池中的內鏈詞是通過權重計算出的低質內鏈詞;
所述基于所述目標特征詞序列,計算每個所述候補內鏈詞的權重系數值,并根據所述候補內鏈詞的權重系數值,更改每個所述候補內鏈詞,具體包括:
按照最小特征詞逐級比對原則,將所述候補內鏈詞的特征詞序列分別與所述正式內鏈詞的特征詞序列、所述預備內鏈詞的特征詞序列、所述無意內鏈詞的特征詞序列進行對比,以得到每個所述候補內鏈詞的正式內鏈詞匹配結果F、預備內鏈詞匹配結果P和無意內鏈詞匹配結果N;所述正式內鏈詞匹配結果F和所述預備內鏈詞匹配結果P為增益值,所述無意內鏈詞匹配結果N為負面值;所述最小特征詞逐級比對原則為按照行業特征詞、領域特征詞和屬性特征詞的先后順序依次進行比對的原則;
確定所述正式池中與所述候補內鏈詞的特征詞序列匹配的內鏈詞數量X、所述預備池中與所述候補內鏈詞的特征詞序列匹配的內鏈詞數量Y和所述無意池中與候補內鏈詞的特征詞序列匹配的內鏈詞數量Z;
基于所述正式池中與所述候補內鏈詞的特征詞序列匹配的內鏈詞數量X、所述預備池中與所述候補內鏈詞的特征詞序列匹配的內鏈詞數量Y和所述無意池中與候補內鏈詞的特征詞序列匹配的內鏈詞數量Z,計算每個所述候補內鏈詞的正式內鏈詞匹配系數加權值、預備內鏈詞匹配系數加權值和無意內鏈詞匹配系數加權值;
根據所述候補內鏈詞的正式內鏈詞匹配結果F、預備內鏈詞匹配結果P、無意內鏈詞匹配結果N、正式內鏈詞匹配系數加權值、預備內鏈詞匹配系數加權值和無意內鏈詞匹配系數加權值,計算每個所述候補內鏈詞的權重系數值;所述候補內鏈詞的權重系數值的計算公式為;
依次判斷每個所述候補內鏈詞的權重系數值是否大于或者等于第一閾值,得到第一判斷結果;若所述第一判斷結果表示是,則將權重系數值大于或者等于所述第一閾值的候補內鏈詞更改為正式內鏈詞;若所述第一判斷結果表示否,則判斷標定候補內鏈詞的權重系數值是否大于或者等于第二閾值,得到第二判斷結果;所述標定候補內鏈詞為權重系數值小于所述第一閾值的候補內鏈詞;
若所述第二判斷結果表示是,則將權重系數值大于或者等于所述第二閾值的候補內鏈詞更改為預備內鏈詞;若所述第二判斷結果表示否,則將權重系數值小于所述第二閾值的候補內鏈詞更改為無意內鏈詞;其中,所述第一閾值大于所述第二閾值;
所述計算每個標記預備內鏈詞的用戶行為權重系數,并根據所述標記預備內鏈詞的用戶行為權重系數,更改每個所述標記預備內鏈詞,具體包括:
對預備池中的內鏈詞做用戶行為分析;用戶行為權重主要由三部分組成,分別為:曝光系數、點擊系數和深度系數;用戶訪問的曝光系數EC,根據用戶瀏覽過程中該內鏈詞在文本中用戶觸達到的次數EN和曝光總時長(min)ET進行計算,即EC=EN/ET;用戶對于內鏈詞的點擊系數CC,根據用戶瀏覽過程中的觸達次數EN及點擊次數CN進行計算,即CC=EN/CN;用戶訪問的深度系數VC(min),根據用戶訪問次數VN及訪問總時長(min)VT進行計算,即VC=VT/VN;
根據曝光系數、點擊系數和深度系數,計算出內鏈詞的用戶行為權重值;計算公式為W=EC×O-CC×I+VC×J;曝光系數加權值O,點擊系數加權值I和深度系數加權值J是通過分析正式池中大量內鏈詞的用戶行為得出的加權平衡;
當用戶行為權重值超過閾 值M時,更改該標記預備內鏈詞為正式內鏈詞,否則更改該標記預備內鏈詞為無意內鏈詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東捷瑞數字科技股份有限公司,未經山東捷瑞數字科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111519106.9/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





