[發明專利]一種會話場景文本挖掘的方法及計算裝置在審
| 申請號: | 201811208617.7 | 申請日: | 2018-10-17 |
| 公開(公告)號: | CN111061865A | 公開(公告)日: | 2020-04-24 |
| 發明(設計)人: | 徐樂樂 | 申請(專利權)人: | 武漢斗魚網絡科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/332 |
| 代理公司: | 北京眾達德權知識產權代理有限公司 11570 | 代理人: | 徐松 |
| 地址: | 430000 湖北省武漢市東湖開*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 會話 場景 文本 挖掘 方法 計算 裝置 | ||
1.一種會話場景文本挖掘的方法,所述方法應用于大數據系統,所述大數據系統包括k個場景,N個文本,最大的迭代次數num,Nk,k為大于2的正整數,其特征在于,所述方法包括:
根據文本距離計算公式計算所述N個文本中任意兩個文本之間的距離d(ti,tj),其中,ti表示第i個文本,tj表示第j個文本;
選擇所述任意兩個文本之間的距離中最大距離對應的兩個文本t1和t2,其中,所述t1為第一簇中心點,所述t2為第二簇中心點;
當簇中心點的個數k為2時,根據所述文本距離計算公式,將N-k個文本分配到k個簇集合中,所述k個簇集合包括所述第一簇中心點和所述第二簇中心點,且同一個簇集合中包括所述第一簇中心點和所述第二簇中心點中的任意一個;
根據中心點最優函數計算每個簇集合中的新中心點;
在每個簇集合中,選取所述新中心點;
根據標準測度函數公式計算第一次分配的分配誤差Gi和第二次分配的分配誤差Gj;
當|Gi-Gj|≤ε時,停止迭代,其中,ε為所有簇集合中心點與簇集合內每個點的距離之和。
2.根據權利要求1所述的方法,其特征在于,當簇中心點的個數k為3時,所述方法還包括:
根據公式d(t1,t3)*d(t2,t3)≥d(t1,ti)*d(t2,tj),(i,j∈(1,N)),在N-2個文本中選擇第三簇中心點,其中,所述N-2個文本為N個文本中除去t1和t2的文本;
根據所述文本距離計算公式,將N-k個文本分配到k個簇集合中,所述k個簇集合包括所述第一簇中心點、所述第二簇中心點和所述第三簇中心點,且同一個簇集合中包括所述第一簇中心點、所述第二簇中心點和所述第三簇中心點中的任意一個。
3.根據權利要求1或2所述的方法,其特征在于,
所述文本距離計算公式為:其中,h表示調節系數,h∈(0,1)。
4.根據權利要求1或2所述的方法,其特征在于,
所述中心點最優函數為:
其中,Ci表示第i個簇集合,t表示每個簇集合內的文本,表示第i個簇集合的中心點,表示第i個簇集合選出的新中心點。
5.根據權利要求1或2所述的方法,其特征在于,
所述標準測度函數公式為:
其中,表示第i個簇集合的中心點,表示第i個簇集合選出的新中心點。
6.根據權利要求1或2所述的方法,其特征在于,所述方法還包括:
若|Gi-Gj|ε,且迭代次數為num,則停止迭代。
7.根據權利要求1或2所述的方法,其特征在于,在所述根據文本距離計算公式計算所述N個文本中兩兩之間的距離之前,所述方法還包括:
對所述N個文本進行word2vec向量化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢斗魚網絡科技有限公司,未經武漢斗魚網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811208617.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種帶壓花圖案的抗裂肌理夾芯及其制作方法
- 下一篇:裝飾組件





