[發明專利]基于隨機游走的多標簽屬性值劃分方法和裝置在審
| 申請號: | 201910271878.1 | 申請日: | 2019-04-04 |
| 公開(公告)號: | CN109934306A | 公開(公告)日: | 2019-06-25 |
| 發明(設計)人: | 溫柳英;袁偉;閔帆 | 申請(專利權)人: | 西南石油大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 610500 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標簽屬性 隨機游走 方法和裝置 無向加權圖 樣本集合 樣本 標簽 構建 聚類 轉換 分類 | ||
本發明提供了一種基于隨機游走的多標簽屬性值劃分方法和裝置,該基于隨機游走的多標簽屬性值劃分方法包括:將樣本集合中樣本的屬性值轉換為符號型屬性值;確定樣本集合中每一個樣本包含的標簽;基于標簽和符號型屬性值,為同一類的符號型屬性值構建無向加權圖;基于隨機游走,對無向加權圖進行聚類。本發明提供的方案實現了對標簽屬性值的劃分,從而使分類更加準確。
技術領域
本發明涉及計算機技術領域,特別涉及一種基于隨機游走的多標簽屬性值劃分方法和裝置。
背景技術
隨著互聯網和大數據的發展,數據庫中存儲的數據量大量增加,而且很多數據可擁有多個標簽,即一個樣本可屬于多種類別。
目前,主要是基于單標簽學習分類,單標簽學習分類是基于一個只屬于一個標簽的樣本集合中學習,其中每一個標簽屬于互斥的不同標簽集合中,其中,各個標簽下的屬性值被標記為同一個標簽。比如一個電影在具有刑偵屬性值和愛情屬性值時,則往往會把其歸類于刑偵類標簽或者歸類于愛情類標簽,而不會對刑偵屬性值和愛情屬性值進行具體的劃分。即只是基于標簽分類,而并未考慮各種屬性值的差異,往往導致分類不準確。
發明內容
本發明實施例提供了一種基于隨機游走的多標簽屬性值劃分方法和裝置,實現了對標簽屬性值的劃分,從而使分類更加準確。
一種基于隨機游走的多標簽屬性值劃分方法,包括:
將樣本集合中樣本的屬性值轉換為符號型屬性值;
確定所述樣本集合中每一個所述樣本包含的標簽;
基于所述標簽和所述符號型屬性值,為同一類的所述符號型屬性值構建無向加權圖;
基于隨機游走,對所述無向加權圖進行聚類。
優選地,在所述確定所述樣本集合中每一個所述樣本包含的標簽之后,在所述為同一類的所述符號型屬性值構建無向加權圖之前,進一步包括:
針對每一個所述樣本,執行:將所述樣本對應的所有標簽,關聯至所述樣本對應的每一個所述符號型屬性值;
所述為同一類的所述符號型屬性值構建無向加權圖,包括:
根據關聯的結果,為同一類的所述符號型屬性值構建無向加權圖。
優選地,所述根據關聯的結果,為同一類的所述符號型屬性值構建無向加權圖,包括:
針對同一類的所述符號型屬性值,執行:
初始化無向加權圖;
從所述樣本集合包含的所有的所述標簽中,選定一個標簽為當前標簽,并循環執行下述N1至N8;
N1:確定所述當前標簽關聯的目標符號型屬性值;
N2:計算所述目標符號型屬性值的初始概率,并為所述目標符號型屬性值去重,當去重后的目標符號型屬性值的個數的大于預設數量時,執行N3,當去重后的目標符號型屬性值的個數不大于預設數量時,執行N4;
N3:按照所述初始概率的降序順序,從去重后的目標符號型屬性值中,為所述初始化無向加權圖選定預設數量的節點屬性值,其中,所述預設數量不小于3,并執行N5;
N4:將去重后的目標符號型屬性值直接作為節點屬性值;
N5:判斷選定的所述節點屬性值是否已經存在于所述無向加權圖中,如果是,則執行N7;否則,執行N6;
N6:將所述節點屬性值添加到所述無向加權圖中;
N7:計算與所述當前標簽相關的每兩個所述節點屬性值之間的邊權重,并將所述邊權重添加到所述無向加權圖中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南石油大學,未經西南石油大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910271878.1/2.html,轉載請聲明來源鉆瓜專利網。





