[發明專利]一種企業標簽的獲取方法、獲取裝置、存儲介質和計算機設備在審
| 申請號: | 202011264990.1 | 申請日: | 2020-11-13 |
| 公開(公告)號: | CN112434158A | 公開(公告)日: | 2021-03-02 |
| 發明(設計)人: | 柴源 | 申請(專利權)人: | 北京創業光榮信息科技有限責任公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/335;G06F40/289;G06F40/284;G06K9/62 |
| 代理公司: | 廣州華享智信知識產權代理事務所(普通合伙) 44576 | 代理人: | 王晶 |
| 地址: | 100022 北京市朝陽區建國路108號、甲108、乙108、110、*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 企業 標簽 獲取 方法 裝置 存儲 介質 計算機 設備 | ||
1.一種企業標簽的獲取方法,其特征在于,包括如下步驟:
獲取待提取文本,所述待提取文本包括至少一個企業基本信息文本、至少一個企業投融資文本以及至少一個企業商業模式文本,并根據所述待提取文本的內容確定所述待提取文本的文本類型;
對每個文本類型的所述待提取文本進行分詞得到候選關鍵詞,并獲取每個所述候選關鍵詞的初始權重;
獲取每個所述候選關鍵詞和其他文本類型的候選關鍵詞的相似度值;
獲取每個所述候選關鍵詞的熱度值;
根據每個所述候選關鍵詞的相似度值、熱度值和初始權重,得到每個所述候選關鍵詞的權重優化值;
將權重優化值超過預設閾值的候選關鍵詞確定為企業標簽。
2.根據權利要求1所述的企業標簽的獲取方法,其特征在于,獲取每個所述候選關鍵詞的初始權重:
根據所述候選關鍵詞在所述待提取文本中的位置,得到所述候選關鍵詞的位置參數ri1,且當所述候選關鍵詞同時出現在所述待提取文本的標題和正文時,ri1=2;當所述候選關鍵詞同時出現在所述待提取文本的標題或正文時,ri1=1;
根據所述候選關鍵詞在所述待提取文本中的重復次數,得到所述候選關鍵詞的重復參數ri2,且其中:ai為第i個候選關鍵詞的重復次數,n為所述候選關鍵詞的個數;
根據所述候選關鍵詞在所述待提取文本中的獨立表意能力,得到所述候選關鍵詞的表達參數ri3,且當所述候選關鍵詞可以獨立表意時,ri3=1;當所述候選關鍵詞不能獨立表意時,ri3=0;
根據所述候選關鍵詞在所述待提取文本中的詞性,得到所述候選關鍵詞的詞性參數ri4,且當所述候選關鍵詞為動詞、形容詞、數量詞和代詞時,ri4=0;當所述候選關鍵詞為名詞時,ri4=1;
根據所述位置參數、所述重復參數、所述表達參數和所述詞性參數,得到所述候選關鍵詞的初始權重ωi0,則其中:n為所述候選關鍵詞的個數。
3.根據權利要求2所述的企業標簽的獲取方法,其特征在于,獲取每個所述候選關鍵詞和其他文本類型的候選關鍵詞的相似度值包括如下步驟:
根據所述候選關鍵詞的所述位置參數、所述重復參數、所述表達參數和所述詞性參數構造第一向量A,且第一向量為A=(ri1,ri2,ri3,ri4),其中:ri1,ri2,ri3,ri4分別第i個候選關鍵詞的位置參數、重復參數、表達參數和詞性參數;
根據關聯詞所述候選關鍵詞的所述位置參數、所述重復參數、所述表達參數和所述詞性參數構造第二向量B,且第一向量為B=(rj1,rj2,rj3,rj4),其中:rj1,rj2,rj3,rj4分別為第j個所述候選關鍵詞的位置參數、重復參數、表達參數和詞性參數,且所述關聯詞為其他文本類型的候選關鍵詞;
利用第一向量和第二向量計算所述候選關鍵詞和所述關聯詞的相似度值,且相似度值的計算公式為:
4.根據權利要求3所述的企業標簽的獲取方法,其特征在于,獲取每個所述候選關鍵詞的熱度值包括如下步驟:
將候選關鍵詞作為統計項目統計候選關鍵詞的詞匯熱度;
將各候選關鍵詞的集合作為統計項目統計投資人同時關注多個候選關鍵詞的集合熱度;
將所述詞匯熱度和所述集合熱度相加,得到候選關鍵詞的檢索熱度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京創業光榮信息科技有限責任公司,未經北京創業光榮信息科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011264990.1/1.html,轉載請聲明來源鉆瓜專利網。





