[發明專利]商品領域的知識融合方法在審
| 申請號: | 201710117723.3 | 申請日: | 2017-03-01 |
| 公開(公告)號: | CN108536664A | 公開(公告)日: | 2018-09-14 |
| 發明(設計)人: | 楊靜;潘棟 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G06Q30/06 |
| 代理公司: | 上海隆天律師事務所 31282 | 代理人: | 臧云霄;夏彬 |
| 地址: | 200333 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 知識融合 商品數據 融合 商品領域 商品知識 詞向量 相似度 知識庫 抓取 距離計算 商品屬性 屬性映射 傳統的 維度 預設 登錄 集合 外部 服務 | ||
本發明提供了一種商品領域的知識融合方法,其中包括獲取待處理的商品數據;采用Word2Vector方法將各個屬性映射成具有多個維度的詞向量;根據屬性中屬性值的詞向量距離計算每兩個屬性之間的相似度;將相似度高于預設閾值的兩個屬性融合為同一類屬性,得到屬性融合后的商品數據集合。本發明提供了一種知識融合效果更好的知識融合方法,抓取了大量的商品數據進行訓練,在對商品屬性進行融合時,一方面大大減少了未登錄詞的出現,另一方面即使各別的屬性值不存在,不會影響到該方法的運行,因此比傳統的利用外部知識庫的方法更加具有實用性;本方法不僅適用于電商領域的商品知識融合,也適用于其他領域的商品知識融合,從而提供基于知識的更好的服務。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種應用簡便且知識融合效果更好的商品領域的知識融合方法。
背景技術
隨著社會的發展,每天產生的大量數據,由于不同數據庫,對于不同知識的表達不同,所以對于如何從不同數據庫中發現相同的知識,變得十分重要。對于自動化或半自動化構建本體或分類樹,有著重要的意義。人工進行知識融合,既花費人力又耗時。所以,對于從不同數據庫中發現相同知識并非易事,這需要讓計算機自動理解不同數據庫中的知識,并發現它們之間的關系。
知識融合,是指發現異構數據庫中相同概念的不同表達,它通過對分布式數據源和知識源進行組織和管理,結合應用需求對知識元素進行轉化、集成和融合等處理,從而獲取有價值或可用的新知識,同時對知識對象的結構和內涵進行優化,提供基于知識的服務。知識融合的研究對于分布式知識庫環境中的知識共享、知識系統的交互、集成和協同工作、知識服務質量的優化等方面具有一定的價值,特別對于研究基于知識內涵的知識發現以及新知識的創建、組織、評價和優化等方面具有相當重要的意義。
傳統的知識融合方法主要利用了結構化或半結構化數據庫,或利用外部知識庫,如HowNet和WordNet,發現不同數據庫中相同概念的不同表達。其中,HowNet中文名稱為知網,是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫。WordNet是由普林斯頓大學的心理學家、語言學家和計算機工程師聯合設計的一種基于認知語言學的英語詞典。它不光是把單詞以字母順序排列,而且按照單詞的意義組成一個單詞的網絡。因此,HowNet和WordNet實際上是兩種比較常用的外部數據庫。
然而針對電商領域,由于屬性值多由電商自己定義,很多詞并沒有被外部數據庫錄入,同時由于是同一商品類的屬性,屬性間的相關性較高,無法利用外部知識庫發現相似的屬性。所以目前亟需一種電商領域的知識融合方法。
發明內容
針對現有技術中的問題,本發明的目的在于提供一種商品領域的知識融合方法,只需抓取待處理的商品數據即可,應用簡便,在對商品屬性進行融合時,融合效果更好。
本發明實施例提供一種商品領域的知識融合方法,包括如下步驟:
獲取待處理的商品數據,所述商品數據包括商品的屬性和各個所述屬性所對應的屬性值;
采用Word2Vector方法將各個所述屬性映射成具有多個維度的詞向量,各個所述詞向量與所對應的屬性中的各個屬性值一一對應;
根據每兩個屬性中屬性值的詞向量距離計算每兩個屬性之間的相似度;
將相似度高于預設閾值的兩個屬性融合為同一類屬性,得到屬性融合后的商品數據集合。
可選地,獲取待處理的商品數據之后,還包括如下步驟:
對所述待處理的商品數據進行預處理,使得所述待處理的商品數據中的無語義文本具有上下文聯系。
可選地,對所述待處理的商品數據進行預處理,包括如下步驟:
對所述待處理的商品數據進行屬性值歸并;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710117723.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據標注方法及裝置
- 下一篇:一種短文本信息提取方法和裝置





