[發(fā)明專利]基于聚類等級關(guān)系自動識別方法、系統(tǒng)、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011138197.7 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN112307204A | 公開(公告)日: | 2021-02-02 |
| 發(fā)明(設(shè)計)人: | 張凱;劉杰;周建設(shè);趙晴 | 申請(專利權(quán))人: | 首都師范大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/247 |
| 代理公司: | 北京清控智云知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11919 | 代理人: | 管士濤 |
| 地址: | 100089 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 等級 關(guān)系 自動識別 方法 系統(tǒng) 設(shè)備 存儲 介質(zhì) | ||
本申請的提出了一種基于聚類的詞間等級關(guān)系自動識別方法,通過結(jié)合同現(xiàn)統(tǒng)計和分布相似度計算,然后對詞間的等級關(guān)系進(jìn)行識別。其中,通過調(diào)整因子對DICE測度的計算方式進(jìn)行改進(jìn);再者,在相似度計算上增加了一個調(diào)整系數(shù);然后,將各個詞進(jìn)行聚類,形成簇;根據(jù)等級系數(shù)將簇內(nèi)的詞化到各等級中,并對其識別上下位關(guān)系。
技術(shù)領(lǐng)域
本申請涉及人工智能領(lǐng)域,具體而言,涉及一種基于聚類的詞間等級關(guān)系自動識別方法、系統(tǒng)、設(shè)備以及計算機(jī)存儲介質(zhì)。
背景技術(shù)
網(wǎng)絡(luò)的飛速發(fā)展,帶來了信息資源的爆炸性增長,為人們提供方便的同時也使人們逐漸意識到被“淹沒”在信息的海洋中,如何準(zhǔn)確、高效的從海量信息中獲取所需的信息成為亟待解決的問題。目前的網(wǎng)絡(luò)信息檢索工具(如搜索引擎等)大多采用基于關(guān)鍵詞字面匹配的全文檢索方式,這種方法簡單可行,查找方便,具有較高的檢全率,但檢索返回的信息過多,其中只有很少一部分符合檢索者的要求,檢準(zhǔn)率低,同時,也存在漏檢和誤檢現(xiàn)象。利用規(guī)范化控制的敘詞表,將其應(yīng)用到標(biāo)引和檢索過程中能有效提高檢準(zhǔn)率。然而傳統(tǒng)敘詞表在詞表編制和維護(hù),以及在網(wǎng)絡(luò)信息檢索環(huán)境中的應(yīng)用都面臨著一定的困難,因而研究如何自動構(gòu)造自然語言敘詞表具有十分重要的意義。
因此,如何準(zhǔn)確自動識別詞間關(guān)系,是目前急需解決的技術(shù)問題。
發(fā)明內(nèi)容
為了解決上述如何自動識別詞間關(guān)系的技術(shù)問題,本申請?zhí)峁┝艘环N基于聚類的詞間等級關(guān)系自動識別方法、系統(tǒng)、設(shè)備以及計算機(jī)存儲介質(zhì)。
本申請的第一方面提供了一種基于聚類的詞間等級關(guān)系自動識別方法,所述方法包括:
S1、選定文檔作為同現(xiàn)窗口,獲取文檔中的每個詞,采用DICE測度對每個詞進(jìn)行關(guān)聯(lián)度計算,并根據(jù)同現(xiàn)窗口的大小調(diào)整DICE測度的計算結(jié)果;
S2、根據(jù)各詞自身在文檔中的頻率、各詞之間的同現(xiàn)頻率以及調(diào)整因子來計算各詞之間的同現(xiàn)權(quán)重,從而得到各個詞間的關(guān)聯(lián)度;
S3、從中選取一個詞T,根據(jù)詞T與其他詞的同現(xiàn)權(quán)重,抽取與詞T最相關(guān)的K個詞,并構(gòu)造特征向量;
S4、對各詞通過層次聚類算法進(jìn)行聚類,將各詞單獨劃分為一簇,計算各個簇之間的語義相似度;設(shè)定閾值,將語義相似度小于閾值的簇進(jìn)行合并,直至所有的詞合并為一個大簇;
S5、將大簇內(nèi)的詞根據(jù)等級系數(shù)識別其上下位關(guān)系。
優(yōu)選地,所述的各詞之間的同現(xiàn)權(quán)重,其計算公式為:
其中,W(Ti,Tj)表示詞Ti和Tj的同現(xiàn)權(quán)重,tf(TiTj)表示詞Ti和Tj在文檔中的同現(xiàn)頻率,tf(Ti)表示詞Ti在文檔中的頻率,WeightingFactor(Ti,Tj)為調(diào)整因子;
優(yōu)選地,所述的調(diào)整因子,其計算公式為:
min(length(di))表示詞Ti和Tj同現(xiàn)文檔中的最小長度,表示同現(xiàn)文檔的平均長度,k為同現(xiàn)文檔篇數(shù)。
優(yōu)選地,所述的特征向量,其計算公式為:
V(T)=(T1,W1,T2,W2,…,Tk,Wk)
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于首都師范大學(xué),未經(jīng)首都師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011138197.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





