[發(fā)明專利]一種數(shù)據(jù)的聚類方法和聚類裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201611032182.6 | 申請(qǐng)日: | 2016-11-22 |
| 公開(公告)號(hào): | CN106776751A | 公開(公告)日: | 2017-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 謝瑜;張昊;朱頻頻 | 申請(qǐng)(專利權(quán))人: | 上海智臻智能網(wǎng)絡(luò)科技股份有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京布瑞知識(shí)產(chǎn)權(quán)代理有限公司11505 | 代理人: | 孟潭 |
| 地址: | 201803 上海市嘉*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種數(shù)據(jù)處理方法和裝置,特別是涉及一種語料數(shù)據(jù)的處理方法和裝置。
背景技術(shù)
在語言處理的自動(dòng)問答領(lǐng)域中,需要對(duì)以語言為載體的問題進(jìn)行確定,進(jìn)而建立問題與答案的對(duì)應(yīng)關(guān)系,建立相似問題的問題集,即問題集的聚合是確定“問題-答案”業(yè)務(wù)邏輯的基礎(chǔ)技術(shù)和重要步驟。
在問題集的聚合處理過程中,現(xiàn)有技術(shù)采用自動(dòng)聚類,對(duì)相似問題語句進(jìn)行聚類形成不同的問題集。在聚類過程中需要確定聚類中心的數(shù)量和初始位置,以反映聚類中心的類間相異度。然后進(jìn)行聚類的迭代過程,直至聚類中心位置確定或達(dá)到預(yù)設(shè)精度或迭代次數(shù)。
由于問題集中存在一些特征分布稀疏不均勻的問題語句數(shù)據(jù),使得聚類區(qū)域的大小和形狀不規(guī)整,因此使得類間相異度量難于確定,聚類中心數(shù)量和初始位置無法優(yōu)化。這就造成進(jìn)行大樣本的問題集的聚類時(shí),對(duì)噪聲問題和離群孤立問題語句數(shù)據(jù)較敏感,使得少量數(shù)據(jù)對(duì)聚類結(jié)果產(chǎn)生較大影響,往往不能形成問題集的最優(yōu)聚類。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)的聚類方法和聚類裝置,用于解決現(xiàn)有問題集聚類過程中,受初始條件影響聚類效果差的技術(shù)問題。
本發(fā)明實(shí)施例的數(shù)據(jù)的聚類方法包括:
獲取待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括測試數(shù)據(jù)和非測試數(shù)據(jù);
對(duì)測試數(shù)據(jù)進(jìn)行第一分類處理,得到第一分類結(jié)果;
采用初始預(yù)設(shè)值對(duì)測試數(shù)據(jù)進(jìn)行第二分類處理,得到第二分類結(jié)果,所述第二分類處理包括:分別獲取第M句數(shù)據(jù)的句向量與已聚類的L個(gè)信息組的句向量平均值之間的最大相似度值,當(dāng)所述最大相似度值大于所述初始預(yù)設(shè)值時(shí),將第M句數(shù)據(jù)聚類到所述最大相似度值對(duì)應(yīng)的信息組中;當(dāng)所述最大相似度值小于所述初始預(yù)設(shè)值時(shí),將第M句數(shù)據(jù)作為第L+1個(gè)信息組,所述L小于或等于M-1;
比較所述第二分類結(jié)果和所述第一分類結(jié)果,當(dāng)以第一分類結(jié)果為標(biāo)準(zhǔn)得到第二分類結(jié)果的準(zhǔn)確率大于或等于閾值時(shí),將所述初始預(yù)設(shè)值作為目標(biāo)預(yù)設(shè)值;當(dāng)以第一分類結(jié)果為標(biāo)準(zhǔn)得到第二分類結(jié)果的準(zhǔn)確率小于閾值時(shí),不斷調(diào)整所述初始預(yù)設(shè)值,直至將所述初始預(yù)設(shè)值調(diào)整為目標(biāo)預(yù)設(shè)值時(shí)得到新的第二分類結(jié)果的準(zhǔn)確率大于或等于閾值;
采用目標(biāo)預(yù)設(shè)值對(duì)非測試數(shù)據(jù)進(jìn)行第二分類處理。
本發(fā)明實(shí)施例的數(shù)據(jù)的聚類裝置包括:
數(shù)據(jù)獲取模塊,用于獲取待處理數(shù)據(jù),將待處理數(shù)據(jù)劃分為測試數(shù)據(jù)和非測試數(shù)據(jù);
第一分類模塊,用于對(duì)測試數(shù)據(jù)進(jìn)行第一分類處理,得到第一分類結(jié)果;
第二分類模塊,用于采用初始預(yù)設(shè)值對(duì)測試數(shù)據(jù)進(jìn)行第二分類處理,得到第二分類結(jié)果,用于采用目標(biāo)預(yù)設(shè)值對(duì)非測試數(shù)據(jù)進(jìn)行分類處理;進(jìn)一步用于分別獲取第M句數(shù)據(jù)的句向量與已聚類的L個(gè)信息組的句向量平均值之間的最大相似度值,當(dāng)所述最大相似度值大于所述初始預(yù)設(shè)值時(shí),將第M句數(shù)據(jù)聚類到所述最大相似度值對(duì)應(yīng)的信息組中;當(dāng)所述最大相似度值小于所述初始預(yù)設(shè)值時(shí),將第M句數(shù)據(jù)作為第L+1個(gè)信息組,所述L小于或等于M-1;
參數(shù)確定模塊,用于比較第二分類結(jié)果和第一分類結(jié)果,當(dāng)以第一分類結(jié)果為標(biāo)準(zhǔn)得到第二分類結(jié)果的準(zhǔn)確率大于或等于閾值時(shí),將初始預(yù)設(shè)值作為目標(biāo)預(yù)設(shè)值;當(dāng)以第一分類結(jié)果為標(biāo)準(zhǔn)得到第二分類結(jié)果的準(zhǔn)確率小于閾值時(shí),不斷調(diào)整初始預(yù)設(shè)值,直至將初始預(yù)設(shè)值調(diào)整為目標(biāo)預(yù)設(shè)值時(shí)得到新的第二分類結(jié)果的準(zhǔn)確率大于或等于閾值。
本發(fā)明的聚類方法和聚類裝置將向量化的語料數(shù)據(jù)中的測試數(shù)據(jù)用于半監(jiān)督學(xué)習(xí)的聚類和自動(dòng)聚類,并根據(jù)半監(jiān)督學(xué)習(xí)的聚類結(jié)果調(diào)整自動(dòng)聚類算法的初始預(yù)設(shè)值形成目標(biāo)預(yù)設(shè)值,使得自動(dòng)聚類算法的聚類結(jié)果與半監(jiān)督學(xué)習(xí)的聚類結(jié)果滿足趨同。這樣利用采用目標(biāo)預(yù)設(shè)值的自動(dòng)聚類算法對(duì)向量化的語料數(shù)據(jù)中的非測試數(shù)據(jù)進(jìn)行聚類,可以有效提高初始分類數(shù)據(jù)的準(zhǔn)確性,改善聚類模型的聚類中心的初始參數(shù),使得類間相異度獲得保證,聚類中心位置也可以很好的確定聚類模型的穩(wěn)定性。使得實(shí)際應(yīng)用中問題集的聚類效果準(zhǔn)確,問題有效分組。
附圖說明
圖1為本發(fā)明的數(shù)據(jù)的聚類方法一實(shí)施例的流程圖。
圖2為本發(fā)明的數(shù)據(jù)的聚類方法一實(shí)施例的第二分類處理的流程圖。
圖3為本發(fā)明的數(shù)據(jù)的聚類裝置一實(shí)施例的架構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海智臻智能網(wǎng)絡(luò)科技股份有限公司,未經(jīng)上海智臻智能網(wǎng)絡(luò)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611032182.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種圖模一體化的配電網(wǎng)數(shù)字化預(yù)案系統(tǒng)
- 下一篇:一種應(yīng)用于無人機(jī)飛行數(shù)據(jù)的嵌入式文件存儲(chǔ)系統(tǒng)及方法
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





