[發(fā)明專利]基于萬有引力模型的關(guān)鍵詞自動抽取方法在審

申請?zhí)枺?/td>	201811566766.0	申請日：	2018-12-21
公開（公告）號：	CN109614626A	公開（公告）日：	2019-04-12
發(fā)明（設(shè)計）人：	呂學(xué)強;董志安;游新冬	申請（專利權(quán)）人：	北京信息科技大學(xué)
主分類號：	G06F17/27	分類號：	G06F17/27
代理公司：	暫無信息	代理人：	暫無信息
地址：	100192 北***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	萬有引力詞語自動抽取引力詞表位置偏移距離關(guān)鍵詞提取技術(shù)規(guī)范距離計算客觀反映模板規(guī)則語義距離傳統(tǒng)的數(shù)據(jù)集構(gòu)建句法標(biāo)注樣本通用應(yīng)用改進(jìn) 制定
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于萬有引力模型的關(guān)鍵詞自動抽取方法，其特征在于，包括：

步驟1)構(gòu)建通用詞表；步驟2)表示詞語質(zhì)量；步驟3)計算詞語距離；步驟4)計算詞間引力。

2.根據(jù)權(quán)利要求1所述的關(guān)鍵詞自動抽取方法，其特征在于，在步驟1)中，結(jié)合信息熵原理引入詞頻-文檔分布熵的概念自動構(gòu)建通用詞表，將單詞w看作隨機變量，詞頻-文檔分布熵是指單詞w在文檔集中分布狀態(tài)的不確定性度量。

3.根據(jù)權(quán)利要求1所述的關(guān)鍵詞自動抽取方法，其特征在于，在步驟1)中，設(shè)包含n個文本的文檔集表示為D＝{d₁，d₂...d_i...d_n}，記單詞w的詞頻-文檔分布熵為H(w)，則H(w)計算公式為

其中P(w，d_i)為單詞w在文檔d_i中出現(xiàn)的概率，根據(jù)最大似然估計法，P(w，d_i)計算公式為

f(w，d_i)為單詞w在文檔d_i中出現(xiàn)的次數(shù)。

4.根據(jù)權(quán)利要求1-3所述的關(guān)鍵詞自動抽取方法，其特征在于，在步驟2)中，以當(dāng)前文本中最大詞長為參考標(biāo)準(zhǔn)，以w_i詞長與最大詞長的比值為基數(shù)，同時結(jié)合單詞內(nèi)部大寫字母個數(shù)與詞長之比計算長度權(quán)重Len(w_i)，

其中，u為大寫字母個數(shù)，為單詞詞長，l_max為當(dāng)前文本中的最大詞長；計算詞語外部重要性Ex(w_i)的公式為

fre(w_i)為單詞w_i在當(dāng)前文檔中出現(xiàn)的頻率，N表示文檔集中的文本總數(shù)，為包含單詞w_i的文本數(shù)目；

將詞語關(guān)聯(lián)度作為單詞的內(nèi)部重要性度量，綜合內(nèi)部重要性和外部重要性表示單詞w_i的質(zhì)量M(w_i)。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京信息科技大學(xué)，未經(jīng)北京信息科技大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811566766.0/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計算機輔助設(shè)計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】