[發明專利]超鏈的語義化方法、裝置、設備及計算機可讀存儲介質有效
| 申請號: | 201810720405.0 | 申請日: | 2018-07-03 |
| 公開(公告)號: | CN110737851B | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 馬宇峰;王曉元;沈璠;余韜 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06Q30/06 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 楊澤;劉芳 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
本發明提供一種超鏈的語義化方法、裝置、設備及計算機可讀存儲介質,方法包括:獲取用戶訪問記錄日志;根據所述用戶訪問記錄日志確定用戶訪問記錄的統一資源定位符URL;根據所述URL在預設的站點知識庫中確定與用戶訪問記錄相對應的商品實體和/或業務流程。本發明的超鏈的語義化方法、裝置、設備及計算機可讀存儲介質,通過獲取用戶訪問記錄的URL,利用站點知識庫中對URL進行分析處理,即可確定URL在描述的商品實體,和/或,用戶訪問行為已經到的業務流程步驟,保證了對URL進行語義化處理的精確程度,從而解決了現有技術中存在的只能提供該頁面的關鍵詞和語義化的精確程度較低的問題,提高了該方法的實用性。
技術領域
本發明涉及計算機軟件技術領域,尤其涉及一種超鏈的語義化方法、裝置、設備及計算機可讀存儲介質。
背景技術
隨著大數據概念的興起和數據的爆炸性增長,曾經被忽視的各式各樣的非結構化數據如今正逐漸受到人們的重視,而存儲能力和運算能力的增長又加速了這一趨勢。超鏈URL作為網絡數據的一部分,也存在著大量的非結構化信息。由于非結構化數據本身并不具有實際意義,因而從各種紛繁復雜的非結構化數據中提取有價值的信息就成為了一項日益重要的任務。如何將這些含有非結構化信息的超鏈,轉化為人們可以直觀理解的結構化信息,進而使得我們能夠發現之前所不能發現的數據價值并將其轉化為商業價值,成為當前的一個新的研究方向。
目前業界對于超鏈的語義化方法,還停留在只識別文章標題與內容、提取文本內關鍵詞和摘要的方法;而這種方法存在以下缺陷:
(1)需要依賴大規模的頁面內容抓取,且不足以提供足夠結構化的信息,沒有能夠按照實體與業務的邏輯對站內超鏈進行組織,而只能提供該頁面的關鍵詞;(2)此外過多的文本處理使得超鏈語義化容易發生語義偏轉,從而降低了語義化的精確程度。
發明內容
本發明提供一種超鏈的語義化方法、裝置、設備及計算機可讀存儲介質,用以解決現有技術中存在的沒有能夠按照實體與業務的邏輯對站內超鏈進行組織,而只能提供該頁面的關鍵詞,語義化的精確程度較低的問題。
本發明的一個方面是提供了一種超鏈的語義化方法,包括:
獲取用戶訪問記錄日志;
根據所述用戶訪問記錄日志確定用戶訪問記錄的統一資源定位符URL;
根據所述URL在預設的站點知識庫中確定與用戶訪問記錄相對應的商品實體和/或業務流程。
本發明的另一個方面是提供了一種超鏈的語義化裝置,包括:
獲取模塊,用于獲取用戶訪問記錄日志;
處理模塊,用于根據所述用戶訪問記錄日志確定用戶訪問記錄的統一資源定位符URL;
確定模塊,用于根據所述URL在預設的站點知識庫中確定與用戶訪問記錄相對應的商品實體和/或業務流程。
本發明的另一個方面是提供了一種超鏈的語義化設備,包括:
存儲器,處理器,以及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,
所述處理器運行所述計算機程序時實現如上述所述的超鏈的語義化方法。
本發明的另一個方面是提供了一種計算機可讀存儲介質,存儲有計算機程序,
所述計算機程序被處理器執行時實現上述所述的超鏈的語義化方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810720405.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種圖表生成方法及裝置
- 下一篇:信息處理方法、裝置、電子設備及介質





