[發(fā)明專利]信息交互平臺(tái)的交互數(shù)據(jù)分類方法、裝置及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202010061143.9 | 申請(qǐng)日: | 2020-01-19 |
| 公開(kāi)(公告)號(hào): | CN111259649A | 公開(kāi)(公告)日: | 2020-06-09 |
| 發(fā)明(設(shè)計(jì))人: | 曾冰清 | 申請(qǐng)(專利權(quán))人: | 深圳壹賬通智能科技有限公司 |
| 主分類號(hào): | G06F40/211 | 分類號(hào): | G06F40/211;G06F40/289;G06F40/30;G06K9/62 |
| 代理公司: | 北京鴻元知識(shí)產(chǎn)權(quán)代理有限公司 11327 | 代理人: | 袁文婷;王迎 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)前*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 信息 交互 平臺(tái) 數(shù)據(jù) 分類 方法 裝置 存儲(chǔ) 介質(zhì) | ||
1.一種信息交互平臺(tái)的交互數(shù)據(jù)分類方法,應(yīng)用于電子裝置,其特征在于,所述方法包括:
對(duì)從交互數(shù)據(jù)語(yǔ)料庫(kù)中獲取的交互數(shù)據(jù)做語(yǔ)句編號(hào)處理,得到編號(hào)語(yǔ)句;
根據(jù)預(yù)設(shè)的沒(méi)有語(yǔ)義價(jià)值的詞語(yǔ)集合,剔除所述編號(hào)語(yǔ)句中沒(méi)有語(yǔ)義價(jià)值的詞語(yǔ),得到精選編號(hào)語(yǔ)句;
利用預(yù)設(shè)的權(quán)重算法,計(jì)算出組成所述精選編號(hào)語(yǔ)句中的詞語(yǔ)在所述交互數(shù)據(jù)語(yǔ)料庫(kù)中出現(xiàn)的詞頻;
根據(jù)所述詞頻,確定組成所述精選編號(hào)語(yǔ)句的詞語(yǔ)在所述交互數(shù)據(jù)語(yǔ)料庫(kù)中的權(quán)重;
將組成所述精選編號(hào)語(yǔ)句的詞語(yǔ)在所述交互數(shù)據(jù)語(yǔ)料庫(kù)中的權(quán)重整理為編號(hào)特征向量;
根據(jù)所述編號(hào)特征向量計(jì)算每?jī)蓚€(gè)編號(hào)語(yǔ)句的相似值;
根據(jù)所述相似值對(duì)所述編號(hào)語(yǔ)句進(jìn)行歸類。
2.根據(jù)權(quán)利要求1所述的信息交互平臺(tái)的交互數(shù)據(jù)分類方法,其特征在于,所述對(duì)從交互數(shù)據(jù)語(yǔ)料庫(kù)中獲取的交互數(shù)據(jù)做語(yǔ)句編號(hào)處理的步驟包括:
將從所述交互數(shù)據(jù)語(yǔ)料庫(kù)中獲取的交互數(shù)據(jù)語(yǔ)句按時(shí)間順序進(jìn)行排序,得到時(shí)間排序語(yǔ)句;
確定出所述時(shí)間排序語(yǔ)句中的語(yǔ)料最小單元,其中,所述語(yǔ)料最小單元為用戶每次所發(fā)送的對(duì)話語(yǔ)句;
對(duì)所述語(yǔ)料最小單元進(jìn)行編號(hào)。
3.根據(jù)權(quán)利要求2所述的信息交互平臺(tái)的交互數(shù)據(jù)分類方法,其特征在于,所述根據(jù)預(yù)設(shè)的沒(méi)有語(yǔ)義價(jià)值的詞語(yǔ)集合,剔除所述編號(hào)語(yǔ)句中沒(méi)有語(yǔ)義價(jià)值的詞語(yǔ)的步驟包括:
將所述編號(hào)語(yǔ)句的語(yǔ)料最小單元進(jìn)行分詞處理,得到分詞集合;
將所述分詞集合與預(yù)設(shè)的沒(méi)有語(yǔ)義價(jià)值的詞語(yǔ)集合做差集處理,除去沒(méi)有語(yǔ)義價(jià)值的詞語(yǔ)。
4.根據(jù)權(quán)利要求1所述的信息交互平臺(tái)的交互數(shù)據(jù)分類方法,其特征在于,所述預(yù)設(shè)的權(quán)重算法為TF-IDF算法,所述TF-IDF算法的公式為:
TF-IDF=TF*log(N/Nw),
TF=Tn/Dn;
其中,TF表示詞語(yǔ)在聊天記錄語(yǔ)料庫(kù)中出現(xiàn)的詞頻,Tn表示詞語(yǔ)在聊天記錄語(yǔ)料庫(kù)中出現(xiàn)的次數(shù),Dn表示聊天記錄語(yǔ)料庫(kù)中的總詞數(shù),N表示語(yǔ)料最小單元的總個(gè)數(shù),Nw表示出現(xiàn)該詞語(yǔ)的語(yǔ)料最小單元的個(gè)數(shù)。
5.根據(jù)權(quán)利要求4所述的信息交互平臺(tái)的交互數(shù)據(jù)分類方法,其特征在于,所述根據(jù)所述詞頻,確定組成所述精選編號(hào)語(yǔ)句的詞語(yǔ)在所述聊天記錄語(yǔ)料庫(kù)中的權(quán)重的步驟包括:
將所述精選編號(hào)語(yǔ)句的詞語(yǔ)通過(guò)所述TF-IDF算法計(jì)算得到的參數(shù)值作為該詞語(yǔ)在所述交互數(shù)據(jù)語(yǔ)料庫(kù)中的權(quán)重。
6.根據(jù)權(quán)利要求1所述的信息交互平臺(tái)的交互數(shù)據(jù)分類方法,其特征在于,將組成所述精選編號(hào)語(yǔ)句的詞語(yǔ)在所述交互數(shù)據(jù)語(yǔ)料庫(kù)中的權(quán)重整理為編號(hào)特征向量的步驟包括:
將所述編號(hào)語(yǔ)句做分詞處理,得到編號(hào)語(yǔ)句詞集;
將所述編號(hào)語(yǔ)句詞集做并集處理,得到詞全集;
將所述詞全集中的詞語(yǔ)按照漢語(yǔ)拼音的字母順序進(jìn)行排序,得到有序詞集;
將所述精選編號(hào)語(yǔ)句的詞語(yǔ)在所述交互數(shù)據(jù)語(yǔ)料庫(kù)中的權(quán)重按照該詞語(yǔ)在所述有序詞集中的位置進(jìn)行排序處理,得到所述精選編號(hào)語(yǔ)句的詞語(yǔ)的權(quán)重序列集合;
將所述精選編號(hào)語(yǔ)句的詞語(yǔ)的權(quán)重序列表集合作為所述精選編號(hào)語(yǔ)句的編號(hào)特征向量。
7.根據(jù)權(quán)利要求1所述的信息交互平臺(tái)的交互數(shù)據(jù)分類方法,其特征在于,所述根據(jù)所述編號(hào)特征向量計(jì)算每?jī)蓚€(gè)編號(hào)語(yǔ)句的相似值的步驟包括:
利用余弦定理計(jì)算出每?jī)蓚€(gè)編號(hào)特征向量夾角的余弦值;
將每?jī)蓚€(gè)編號(hào)特征向量夾角的余弦值,作為與編號(hào)特征向量對(duì)應(yīng)的兩個(gè)編號(hào)語(yǔ)句的相似值。
8.根據(jù)權(quán)利要求7所述的信息交互平臺(tái)的交互數(shù)據(jù)分類方法,其特征在于,所述根據(jù)所述相似值對(duì)所述編號(hào)語(yǔ)句進(jìn)行歸類的步驟包括:
將每?jī)蓚€(gè)編號(hào)特征向量夾角的余弦值與預(yù)設(shè)閾值進(jìn)行比較,將大于或等于所述預(yù)設(shè)閾值的兩個(gè)編號(hào)特征向量所對(duì)應(yīng)的編號(hào)語(yǔ)句歸為同類。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳壹賬通智能科技有限公司,未經(jīng)深圳壹賬通智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010061143.9/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





