[發明專利]一種類別確定方法及裝置在審
| 申請號: | 202010263863.3 | 申請日: | 2020-04-07 |
| 公開(公告)號: | CN111476297A | 公開(公告)日: | 2020-07-31 |
| 發明(設計)人: | 孟雷;張劼;李永江 | 申請(專利權)人: | 中國民航信息網絡股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王嬌嬌 |
| 地址: | 100085 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 類別 確定 方法 裝置 | ||
本申請提供了類別確定方法及裝置,獲取待分類樣本和訓練樣本集,其中,訓練樣本集中包括歷史樣本及該每個歷史樣本所屬的類別。從訓練樣本集中選取與待分類樣本之間的距離最近的k個近鄰樣本。然后利用待分類樣本與k個近鄰樣本之間的距離獲得k個近鄰樣本所屬各個類別的權重。依據各個類別的權重,從各個類別中選取待分類樣本所屬的目標類別。其中,距離待分類樣本越近的歷史樣本對待分類樣本的類別確定的影響越大,該歷史樣本對應的類別權重越大。因此,利用該方案確定出的類別結果準確率更高,而且,降低了k的取值對類別結果的影響。
技術領域
本發明屬于分類技術領域,尤其涉及一種類別確定方法及裝置。
背景技術
分類的目的是確定一個樣本的類別,具體的類別是已知的,常用的算法是k近鄰算法(k-nearest neighbor,KNN),KNN算法是一種有監督學習算法,其基本方法是:給定測試數據,基于距離度量找出訓練樣本集中與測試數據最近的k個數據點(即,k個近鄰樣本),然后,基于這k個近鄰樣本確定測試數據所屬的類別。但是目前的KNN算法的分類結果準確率較低,無法適應于準確率較高的場景。
發明內容
有鑒于此,本申請的目的在于提供一種類別確定方法及裝置,以確定樣本所屬的類別,其具體的技術方案如下:
本申請提供了一種類別確定方法,包括:獲取待分類數據和訓練樣本集,所述訓練樣本集包括歷史樣本和該歷史樣本所屬的類別;從所述訓練樣本集中選取與所述待分類樣本之間的距離最近的k個近鄰樣本;利用所述待分類樣本分別與所述k個近鄰樣本之間的距離,計算所述k個近鄰樣本所屬的各個類別的權重;依據所述各個類別的權重,確定所述待分類樣本所屬的目標類別。
本申請提供的類別確定方法,獲取待分類樣本和訓練樣本集,其中,訓練樣本集中包括歷史樣本及該每個歷史樣本所屬的類別。從訓練樣本集中選取與待分類樣本之間的距離最近的k個近鄰樣本。然后利用待分類樣本與k個近鄰樣本之間的距離獲得k個近鄰樣本所屬各個類別的權重。依據各個類別的權重,從各個類別中選取待分類樣本所屬的目標類別。該方案依據待分類樣本的k個近鄰樣本與待分類樣本之間的距離計算得到k個近鄰樣本所屬類別的權重。距離待分類樣本越近的歷史樣本對待分類樣本的類別確定的影響越大,因此該歷史樣本對應的類別權重越大。因此,利用該方案確定出的類別結果準確率更高,而且,降低了k的取值對類別結果的影響。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是本申請實施例提供的一種類別確定方法的流程圖;
圖2是本申請實施例提供的另一種類別確定方法的流程圖;
圖3是本申請實施例提供的一種類別確定裝置的結構示意圖;
圖4是本申請實施例提供的一種電子設備的結構示意圖。
具體實施方式
下面將參照附圖更詳細地描述本申請的實施例。雖然附圖中顯示了本申請的某些實施例,然而應當理解的是,本申請可以通過各種形式來實現,而且不應該被解釋為限于這里闡述的實施例,相反提供這些實施例是為了更加透徹和完整地理解本申請。應當理解的是,本申請的附圖及實施例僅用于示例性作用,并非用于限制本申請的保護范圍。
需要注意,本申請中提及的“一個”、“多個”的修飾是示意性而非限制性的,本領域技術人員應當理解,除非在上下文另有明確指出,否則應該理解為“一個或多個”。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國民航信息網絡股份有限公司,未經中國民航信息網絡股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010263863.3/2.html,轉載請聲明來源鉆瓜專利網。





