[發明專利]核心產品詞識別方法、裝置、計算機設備及存儲介質有效
| 申請號: | 202110694603.6 | 申請日: | 2021-06-22 |
| 公開(公告)號: | CN113343684B | 公開(公告)日: | 2023-05-26 |
| 發明(設計)人: | 張銓 | 申請(專利權)人: | 廣州華多網絡科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/216;G06F40/242;G06F16/35;G06F16/33 |
| 代理公司: | 廣州利能知識產權代理事務所(普通合伙) 44673 | 代理人: | 王增鑫 |
| 地址: | 511442 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 核心 產品 識別 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種核心產品詞識別方法,其特征在于,包括如下步驟:
獲取待識別核心產品詞的商品標題,對該商品標題進行關鍵詞提取,獲得符合預設的產品詞典所定義的多個關鍵詞,構造基準詞表;其中,包括:預備產品詞典,產品詞典按照預設分類標準定義有多個產品詞,該產品詞用作確定關鍵詞的參照;調用FlashText算法參考所述產品詞典對需要提取關鍵詞的標題進行關鍵詞提取,獲得該標題相對應的多個關鍵詞;對所提取出的多個關鍵詞執行數據清洗操作,使關鍵詞實現標準化;對標準化的多個關鍵詞執行取長操作,將已被其中其他關鍵詞包含的關鍵詞清除;對執行取長操作后的多個關鍵詞執行歸一化操作,將其中含義相同的關鍵詞統一為同一關鍵詞;
查詢用于存儲基準詞表中兩兩關鍵詞之間的單向轉移概率的轉移概率矩陣,計算每個關鍵詞向其他關鍵詞可能單向轉移的轉移概率的累加值;
將轉移概率的累加值最大的關鍵詞輸出為所述商品標題的核心產品詞;
將獲得核心產品詞的商品標題所對應的商品信息添加到已有的商品索引庫中,所述商品索引庫存儲多個商品相對應的商品信息,所述商品信息包含所述核心產品詞及相似關鍵詞,所述核心產品詞及相似關鍵詞作為該商品索引庫的索引項;
在商品推薦時依據所述核心產品詞在轉移概率矩陣中檢索相似關鍵詞,包括:從所述轉移概率矩陣中查詢出所述核心產品詞與其他關鍵詞的轉移概率,選取轉移概率排序處于預設范圍的其他關鍵詞,或者選取轉移?概率大于等于預設概率值的其他關鍵詞作為所述相似關鍵詞;
在已有的商品索引庫中檢索出與所述核心產品詞及其相似關鍵詞相對應的商品信息;
將檢索獲得的商品信息格式化為商品查找結果列表輸出;
所述轉移概率矩陣預先按照如下過程構造:
對商品標題庫中的樣本標題進行關鍵詞提取,獲得符合預設的產品詞典所定義的關鍵詞,利用關鍵詞構造出基準詞表;
構造用于存儲基準詞表中兩兩關鍵詞之間的有向邊權重的權重矩陣,其中任意兩個關鍵詞之間的有向邊權重為其在各個所述的樣本標題中同時出現的次數的累加值;
根據該權重矩陣構造用于存儲基準詞表中兩兩關鍵詞之間的單向轉移概率的轉移概率矩陣,其中一個關鍵詞向另一關鍵詞可能單向轉移的轉移概率為該兩個關鍵詞的有向邊權重除以其中前一關鍵詞到所有任意關鍵詞的有向邊權重的累加值。
2.根據權利要求1所述的方法,其特征在于,構造用于存儲基準詞表中兩兩關鍵詞之間的有向邊權重的權重矩陣的步驟,包括如下具體步驟:
構造權重矩陣的組織關系,其行列均按照基準詞表中的關鍵詞進行同順序排列,以確定每個關鍵詞在行與列中的坐標;
為權重矩陣中每一行所表示的每一個關鍵詞統計其與每一列所表示的每一個關鍵詞在商品標題庫的各樣本標題同時出現的次數的累加值;
將權重矩陣的各個坐標位置相對應的累加值作為該坐標位置所在行所表示的關鍵詞到該坐標位置所在列所表示的關鍵詞的有向邊權重進行存儲。
3.根據權利要求1所述的方法,其特征在于,根據該權重矩陣構造用于存儲基準詞表中兩兩關鍵詞之間的單向轉移概率的轉移概率矩陣的步驟,包括如下具體步驟:
構造轉移概率矩陣的組織關系,其行列均按照基準詞表中的關鍵詞進行同順序排列,以確定每個關鍵詞在行與列中的坐標;
計算轉移概率矩陣中的每個坐標位置所表示的由該坐標位置所在列所表示的關鍵詞向該坐標位置所在行所表示的關鍵詞可能單向轉移所確定的轉移概率,該轉移概率為兩個數之間的商值,商值對應的被除數是該坐標位置所在行、列分別所表示的兩個關鍵詞之間的有向邊權重,而商值對應的除數是該坐標位置所在列所表示的關鍵詞分別與各行的關鍵詞之間的有向邊權重之和;
將所述商值存儲于該轉移概率矩陣的相應坐標位置中成為相應的轉移概率。
4.一種計算機設備,其特征在于,包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述計算機可讀指令被所述處理器執行時,使得所述處理器執行如權利要求1至3中任一項權利要求所述核心產品詞識別方法的步驟。
5.一種存儲有計算機可讀指令的存儲介質,其特征在于,所述計算機可讀指令被一個或多個處理器執行時,使得一個或多個處理器執行如權利要求1至3中任一項權利要求所述核心產品詞識別方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州華多網絡科技有限公司,未經廣州華多網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110694603.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種泡菜的制作工藝
- 下一篇:一種隔膜壓縮機單雙級切換控制系統及方法





