[發(fā)明專利]一種適用于電子商務中文網站商品標簽化的方法有效
| 申請?zhí)枺?/td> | 201510828440.0 | 申請日: | 2015-11-25 |
| 公開(公告)號: | CN105320778B | 公開(公告)日: | 2019-04-02 |
| 發(fā)明(設計)人: | 沈華楠;趙亮亮;姜平;何學勇 | 申請(專利權)人: | 焦點科技股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/958 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 陳建和 |
| 地址: | 210003 江蘇省南京市高新*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 適用于 電子商務 中文 網站 商品 標簽 方法 | ||
1.一種適用于電子商務中文網站產品標簽化的方法,其特征在于,具體步驟包括分詞詞庫的構建方法、標簽采集的方法及標簽標示商品的方法;所謂分詞詞庫的構建方法,指基于對電子商務中文網站內各商品關鍵詞在不同商品描述中的頻次統計,保留頻次大于3的商品關鍵詞,并從中篩選出商品關鍵詞字數小于等于5的關鍵詞作為詞庫數據,當長度比較長的商品關鍵詞包含多個短的關鍵詞的時,這些長的詞將不會入庫;
所謂商品關鍵詞,是指由商家通過網站后臺系統自由添加的詞語,是商家對商品關
鍵特征的描述;
考慮到電子商務中文網站內商品關鍵詞通常由商品賣家添加,因而從這些關鍵詞中選取簡短精煉且高頻出現的詞列入分詞詞庫中,能最大程度保證分詞的準確性;
所謂標簽采集方法,指基于已構建的分詞詞庫,通過逆向最大匹配分詞算法對電子商務中文網站內所有商品名稱進行分詞處理;經最大逆向匹配算法的分詞處理后,按照漢語語法特點,即在“形容詞+名詞”的語句形式中,名詞位于句末,進而選取商品經分詞處理后形成的最后一個詞作為該商品的商品標簽;最終,這些所有標簽組成標簽數據集合;所謂商品名稱,是指由商家自行添加的一段對商品的簡短文字描述;所謂標簽標示商品的方法,指通過利用文本挖掘算法,尋找商品屬性和標簽之間的關系;利用文本挖掘算法的前提是商品屬性和標簽都具備能體現兩者關系且有代表性的內容作為判斷依據;商品屬性能多方位表明商品特征,如果標簽也有自己的特征數據,通過比較兩者在特征的相似性,即可確定商品屬性和標簽之間的相似關系;
標簽標示商品的方法具體步驟:
步驟1:標簽特征的獲?。?/p>
在標簽集合的基礎上確定隸屬每一個標簽的特征信息;如果某個商品的標簽出現在某個商品的商品名稱中,則默認這個標簽與該商品存在相關關系;
首先篩選出包含某一特定標簽詞的商品名稱,然后根據商品名稱找到該商品的商品特征信息數據,統計出所有商品特征信息數據作為該標簽的特征信息數據;商品特征信息數據來自于商品屬性信息;
步驟2:判斷商品和標簽間的相似關系,基于某一標簽的所有標簽特征,分析每個標簽特征的權重,評估每一個標簽特征在所有標簽的特征中的代表性;
步驟3:確定商品的相關標簽;
由于商品和標簽之間的相關程度有高低好壞之分,因而標簽和商品的相關程度系數值還不足直接將標簽賦予商品,需通過設定合理閾值 ,篩選出兩個空間向量間的相似度即商品和標簽之間相關關系系數在閾值 之上的標簽作為商品的標簽,閾值 范圍在0~1之間;閾值 的設定根據數據質量要求給出嚴格或寬松的值,若希望商品搜索過程更嚴格,閾值越接近1;此外,也能取所有相關程度系數值的平均值作為閾值 ;
為更準確地選取商品的標簽,視情況控制每個商品的標簽個數,并選擇限定個數以內的最相關的標簽作為商品標簽。
2.根據權利要求1所述的方法,其特征在于,步驟2中:判斷商品和標簽間的相似關系時,基于某一標簽的所有標簽特征,分析每個標簽特征的權重,評估每一個標簽特征在所有標簽的特征中的代表性,具體包括:
步驟2-1:分析每一個標簽特征在標簽集合的分布情況:如果一個標簽特征集中于一個標簽中,則默認該標簽特征的代表性強;如果一個標簽特征分布在多個標簽中,則默認該標簽特征的代表性不強;
步驟2-2:參照TF*IDF權重計算方法,針對代表性強的標簽特征,做加權;針對代表性弱的標簽特征,做降權;標簽特征在標簽中的權重Boostp參照如下公式:
其中,count(p,t)表示標簽特征p在標簽t中出現的次數,size(t)表示標簽t所包含的標簽特征的個數,N表示標簽集合中的標簽總數,tags(p,t)表示包含標簽特征p的標簽t的個數;
步驟2-3:將標簽的特征信息集合和商品的特征信息集合分別抽象成一個多維的空間向量,利用空間向量余弦相似性原理,通過計算兩個空間向量間的相似度,判定商品和標簽之間的相關關系;
3.根據權利要求2所述的方法,其特征在于,在標簽和商品關系的判斷過程中,首先篩選出包含某個標簽的商品名稱,然后根據商品名稱找到該商品的商品特征信息數據,統計出所有商品特征信息數據作為該標簽的特征信息數據;所述商品特征信息數據來自于商品屬性信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于焦點科技股份有限公司,未經焦點科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510828440.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:鋰離子導電材料和鋰電池
- 下一篇:具有邊緣保護裝置的模板元件及其制造方法





