[發明專利]關鍵詞挖掘方法、裝置、電子設備及存儲介質有效
| 申請號: | 202010007306.5 | 申請日: | 2020-01-04 |
| 公開(公告)號: | CN111222918B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 熊超;莊良基;張迎金;林溪;付永鋼;王智謹 | 申請(專利權)人: | 廈門二五八網絡科技集團股份有限公司 |
| 主分類號: | G06Q30/0251 | 分類號: | G06Q30/0251;G06Q30/0241 |
| 代理公司: | 福州君越知識產權代理事務所(普通合伙) 35299 | 代理人: | 朱玉珍 |
| 地址: | 361000 福建省廈門市思明區觀音山宜蘭路5號天瑞·99商務中心401、4*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞 挖掘 方法 裝置 電子設備 存儲 介質 | ||
1.一種關鍵詞挖掘方法,其特征在于,包括:
顯示關鍵詞挖掘界面,并偵聽字符串輸入指令;在關鍵詞挖掘界面中提供了字符串輸入口;從偵聽到的所述字符串輸入指令中解析出源詞,并在已構建關系圖譜中搜索與所述源詞具有擴展關系的衍生詞;
針對包含所述源詞及其具有擴展關系衍生詞的關系子圖,偵聽關鍵詞挖掘指令;
當偵聽得到所述關鍵詞挖掘指令,計算所述關系子圖中所述衍生詞與所述源詞的關系強度,輸出關鍵詞集合,所述關鍵詞集合中衍生詞與所述源詞的關系強度符合設定規則;
在已構建關系圖譜中搜索與所述源詞具有擴展關系的衍生詞之后,所述方法還包括:如果已構建的所述關系圖譜中未包含所述源詞,則為所述源詞擴展具有擴展關系的衍生詞;
將所述源詞及其具有擴展關系的衍生詞,按照所述源詞及其衍生詞之間的擴展關系,添加至所述關系圖譜中;在關系圖譜中構建一條關系路徑,該關系路徑連接在源詞及其具有擴展關系的衍生詞之間,用于表示源詞及其衍生詞之間的擴展關系;
返回執行所述在已構建關系圖譜中搜索與所述源詞具有擴展關系的衍生詞的步驟;
所述為所述源詞擴展具有擴展關系的衍生詞,包括:對所述源詞進行一級擴展,得到與所述源詞具有擴展關系的第一級關鍵詞;
對所述第一級關鍵詞進行二級擴展,得到與所述第一級關鍵詞具有擴展關系的第二級關鍵詞;將所述第一級關鍵詞和所述第二級關鍵詞,作為與所述源詞具有擴展關系的衍生詞;
偵聽關鍵詞挖掘指令之前,所述方法還包括:響應于關系擴展輸入指令,進行所述關系子圖的關系路徑擴展,以使所述關鍵詞挖掘指令的偵聽是針對添加了所述關系路徑的關系子圖進行的;
所述響應于關系擴展輸入指令,進行所述關系子圖的關系路徑擴展,包括:在所述關鍵詞挖掘界面中,展示包含所述源詞及其具有擴展關系衍生詞的關系子圖,并偵聽所述關系擴展輸入指令;
從偵聽到的所述關系擴展輸入指令中解析得到關鍵詞擴展信息,所述關鍵詞擴展信息用于指示用戶請求擴展的衍生詞;
按照所述關鍵詞擴展信息的指示,為展示在所述關鍵詞挖掘界面中的所述關系子圖構建一條關系路徑,所述關系路徑連接在所述源詞與所述用戶請求擴展的衍生詞之間,用于表示所述源詞與所述用戶請求擴展的衍生詞之間的擴展關系;
在所述關鍵詞挖掘界面中,展示添加了所述關系路徑的關系子圖;
執行針對添加了所述關系路徑的關系子圖,偵聽關鍵詞挖掘指令的步驟,或者,返回執行所述偵聽所述關系擴展輸入指令的步驟;
基于關系子圖進行的關鍵詞挖掘,是通過關系路徑所表示的衍生詞與源詞之間的擴展關系,對關系子圖中的衍生詞進行篩選的過程;
具體地,根據關系路徑所表示的衍生詞與源詞之間的擴展關系,計算衍生詞與源詞的關系強度,進而基于衍生詞與源詞之間的關系強度,篩選得到與源詞的關系強度符合設定規則的衍生詞,進而形成關鍵詞集合;所述當偵聽得到所述關鍵詞挖掘指令,計算所述關系子圖中所述衍生詞與所述源詞的關系強度,輸出關鍵詞集合,包括:當偵聽得到所述關鍵詞挖掘指令,針對所述關系子圖中的每一個衍生詞,根據該衍生詞與所述源詞之間的至少一種擴展關系,確定所述至少一種擴展關系對應的擴展屬性值;
從所述關鍵詞挖掘指令中解析得到所述至少一種擴展屬性值對應的權重值;權重值將封裝至關鍵詞挖掘指令中;
針對每一種擴展關系,對該種擴展關系分別對應的擴展屬性值和權重值進行乘法運算,得到該衍生詞關于該種擴展關系的關系強度;
根據該衍生詞關于每一種擴展關系的關系強度,計算得到該衍生詞與所述源詞的關系強度;按照所述關系子圖中各衍生詞與所述源詞的關系強度,輸出所述關鍵詞集合;
所述擴展關系包括父子關系、三元關系、同義關系、收錄關系、命中關系、競價關系、長尾關系、查詢關系、共現關系、疑問關聯關系中的任意一種或者幾種;所述關系強度包括共現強度、疑問關聯強度、競爭強度、查詢強度、長尾強度、收錄強度、同義強度中的任意一種或者幾種;
其中,共現關系對應的擴展屬性值,記為Cc,基于素材倒排索引,在頁面素材庫中分別統計包含具有共現關系的衍生詞與源詞的文檔總數,記為Ca和Cb,則Cc=m/(Ca+Cb),其中,m表示針對頁面素材庫,為具有共現關系的衍生詞與源詞統計共現間隔5個詞以內的文檔命中數量;
疑問關聯關系對應的擴展屬性值,記為Cq,則Cq=m’/(Ca’+Cb’),其中,m’表示針對頁面素材庫,為具有疑問關聯關系的衍生詞與源詞統計共現間隔5個詞以內的文檔命中數量,Ca’表示基于素材倒排索引,在頁面素材庫中統計的包含具有疑問關聯關系中衍生詞的文檔總數,Cb’表示基于素材倒排索引,在頁面素材庫中統計的包含具有疑問關聯關系中源詞的文檔總數;
查詢關系對應的擴展屬性值,為與衍生詞具有查詢關系的所有源詞在有限擴展級數內的所有具有查詢關系的衍生詞的數量;
長尾關系對應的擴展屬性值,為與衍生詞具有長尾關系的所有源詞在有限擴展級數內的所有具有長尾關系的衍生詞的數量;
收錄關系對應的擴展屬性值,為與衍生詞具有收錄關系的所有源詞在有限擴展級數內的所有具有收錄關系的衍生詞的數量;
同義關系對應的擴展屬性值,確定過程包括:基于衍生詞及其具有同義關系的所有源詞,由與衍生詞具有共現關系的源詞生成第一詞集合,由與該衍生詞具有同義關系的各源詞分別具有共現關系的衍生詞生成若干第二詞集合,取第一詞集合分別與若干第二詞集合的交集,將各個交集中的詞的數量累加,即得到同義關系對應的擴展屬性值;
命中關系對應的擴展屬性值,是新建的鏈接在前N頁結果頁面中的排名值,而該新建的鏈接是各搜索引擎使用衍生詞搜索采集到的;
競價關系對應的擴展屬性值,首先統計與衍生詞之間建立了競價關系的鏈接的數量,記為Kc,然后,確定與該衍生詞之間建立了命中關系的鏈接,進而確定與該鏈接之間建立了包含鏈接關系的站點實體的競爭度Ms/Max(Ms),記為Kts,最后通過Pc=Wc1×Kc/10+Wc2×Kts計算得到競價關系對應的擴展屬性值Pc;其中,Wc1、Wc2表示Kc、Kts對應的權重值,根據應用場景的實際需要靈活地調整;
在此,對站點實體的競爭度Ms/Max(Ms)的計算過程進行如下說明;
首先,確定該站點實體下具有包含鏈接關系的所有鏈接,并確定各鏈接所形成的命中關系對應的擴展屬性值;
然后,針對擴展屬性值排名進入前3,前10,前30,前100名的命中關系,統計形成該些命中關系的源或者衍生詞的數量,以此作為該站點實體的排名屬性值m3、m10、m30、m100;之后,通過Ms=(Wp3×m3+Wp10×10+Wp30×m30+Wp100×m100)計算得到Ms;其中,Wp3、Wp10、Wp30、Wp100分別為該站點實體的排名屬性值m3、m10、m30、m100對應的權重值,根據應用場景的實際需要靈活地調整;
最終,計算出的所有站點的Ms求取最大值Max(Ms),根據Ms和Max(Ms)進行歸一化處理,從而形成各個站點的競爭度Ms/Max(Ms);
關系強度具體計算如下:
Rp=(Wq×Pq+Wl×Pl+Wi×Pi)×(1-Wc×Pc);
其中,Wq、Wl、Wi、Wc分別表示查詢關系對應的權重值、長尾關系對應的權重值、收錄關系對應的權重值、競價關系對應的權重值;Pq、Pl、Pi、Pc分別表示查詢關系對應的擴展屬性值、長尾關系對應的擴展屬性值、收錄關系對應的擴展屬性值、競價關系對應的擴展屬性值;Wq×Pq、Wl×Pl、Wi×Pi、Wc×Pc分別表示衍生詞關于詢關系的關系強度、關于長尾關系的關系強度、關于收錄關系的關系強度、關于競價關系的關系強度;Rp表示衍生詞與源詞的關系強度;
由此,便可計算得到關系子圖中所有衍生詞與源詞的關系強度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門二五八網絡科技集團股份有限公司,未經廈門二五八網絡科技集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010007306.5/1.html,轉載請聲明來源鉆瓜專利網。





