[發明專利]基于聚類等級關系自動識別方法、系統、設備及存儲介質在審
| 申請號: | 202011138197.7 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN112307204A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 張凱;劉杰;周建設;趙晴 | 申請(專利權)人: | 首都師范大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/247 |
| 代理公司: | 北京清控智云知識產權代理事務所(特殊普通合伙) 11919 | 代理人: | 管士濤 |
| 地址: | 100089 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 等級 關系 自動識別 方法 系統 設備 存儲 介質 | ||
1.一種基于聚類的詞間等級關系自動識別方法,應用于電子設備,其特征在于,所述自動識別方法,包括:
S1、選定文檔作為同現窗口,獲取文檔中的每個詞,采用DICE測度對每個詞進行關聯度計算,并根據同現窗口的大小調整DICE測度的計算結果;
S2、根據各詞自身在文檔中的頻率、各詞之間的同現頻率以及調整因子來計算各詞之間的同現權重,從而得到各個詞間的關聯度;
S3、從中選取一個詞T,根據詞T與其他詞的同現權重,抽取與詞T最相關的K個詞,并構造特征向量;
S4、對各詞通過層次聚類算法進行聚類,將各詞單獨劃分為一簇,計算各個簇之間的語義相似度;設定閾值,將語義相似度小于閾值的簇進行合并,直至所有的詞合并為一個大簇;
S5、將簇內的詞根據等級系數劃到各等級中,并識別其上下位關系。
2.如權利要求1所述的方法,其特征在于,所述的各詞之間的同現權重,其計算公式為:
其中,W(Ti,Tj)表示詞Ti和Tj的同現權重,tf(TiTj)表示詞Ti和Tj在文檔中的同現頻率,tf(Ti)表示詞Ti在文檔中的頻率,WeightingFactor(Ti,Tj)為調整因子。
3.如權利要求2所述的方法,其特征在于,所述的調整因子,其計算公式為:
min(length(di))表示詞Ti和Tj同現文檔中的最小長度,表示同現文檔的平均長度,k為同現文檔篇數。
4.如權利要求1所述的方法,其特征在于,所述的特征向量,其計算公式為:
V(T)=(T1,W1,T2,W2,…,Tk,Wk)
其中,T1,T2,…,Tk表示與詞T相關的詞,W1,W2,…,Wk分別為詞T與T1,T2,…,Tk的同現權重。
5.如權利要求4所述的方法,其特征在于,所述的語義相似度,其計算公式為:
其中,Sim(T1,T2)表示詞T1和T2的語義相似度,W1i表示詞T1的特征向量第i維的值,W2i表示詞T2的特征向量第i維的值,k表示特征向量的維數,n表示特征向量中相同詞的個數。
6.如權利要求1所述的方法,其特征在于,所述的等級系數,其計算公式為:
H(Ti)是詞Ti的等級系數,tf(Ti)表示詞Ti的詞頻,len(Ti)表示詞長。
7.如權利要求1所述的方法,其特征在于,所述的層次聚類算法,包括:單連通、全連通以及平均連通。
8.如權利要求7所述的方法,其特征在于,所述的層次聚類算法優選為平均連通。
9.如權利要求8所述的方法,其特征在于,所述的閾值優選為0.1。
10.如權利要求1所述的方法,其特征在于,所述的識別簇內的詞上下位關系,其算法流程為:
步驟1:確定等級數,將簇內的詞按等級系數歸入到各詞級中;等級系數高的詞位于高詞級中,最高詞級為L0,其余依次為L1,L2,…,Li;
步驟2:在相鄰詞級間產生上下位關系;取詞級Li中的一個詞T,計算詞T與詞級Li-1中的每個詞的相似度,取相似度最大的詞作為詞T的上位詞;繼續從詞級Li中取詞,直至為Li中所有的詞建立上下位關系;檢查詞級Li-1中的詞,將沒有下位詞的詞移至詞級Li;
步驟3:判斷是否到達底層,是則結束,否則繼續執行步驟2的操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于首都師范大學,未經首都師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011138197.7/1.html,轉載請聲明來源鉆瓜專利網。





