[發(fā)明專利]基于圖數據結構的檢索詞優(yōu)化方法有效

申請?zhí)枺?/td>	201510910407.2	申請日：	2015-12-10
公開（公告）號：	CN105574085A	公開（公告）日：	2016-05-11
發(fā)明（設計）人：	涂君蘭;楊偉鋒	申請（專利權）人：	天津海量信息技術有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	天津市尚儀知識產權代理事務所(普通合伙) 12217	代理人：	王山
地址：	300020 天津市和***	國省代碼：	天津;12
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于數據結構檢索優(yōu)化方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發(fā)明涉及互聯(lián)網信息采集的技術領域，具體說是一種基于圖數據結構的檢索詞優(yōu)化方法。

背景技術

隨著互聯(lián)網技術的發(fā)展，各種各樣的數據浩瀚如海，新聞類，微博類，論壇類，電商類等，有的客戶關注某個事件的動態(tài)，有的客戶關注某個品牌的口碑，有的客戶關注的是某個企業(yè)的信譽，如何能精確快速的從互聯(lián)網上獲取客戶真正關心的數據，需通過搜索引擎幫助篩選過濾數據，然而檢索詞選擇洽當與否，直接影響檢索效果。檢索詞中無用詞過多，會導致檢索效果降低，出現相關數據較少甚至零結果，而檢索詞限定過少，又會導致檢索到的數據量過大，還需進一步進行數據篩選，擴大了檢索的工作量。

現有技術中有一種基于規(guī)則引擎的標引服務，該服務能將現實生活中用自然語言表達的用戶需求抽象出來，畫成可視易懂的圖形，這些圖形按照規(guī)則引擎預定義的格式，將原始需求轉換成成千上萬條規(guī)則，通過這些規(guī)則來標引用戶感興趣的數據。

發(fā)明內容

本發(fā)明要解決的技術問題是提供一種基于圖數據結構的檢索詞優(yōu)化方法。

本發(fā)明為解決公知技術中存在的技術問題所采取的技術方案是:

本發(fā)明的基于圖數據結構的檢索詞優(yōu)化方法，包括以下步驟：

A、從圖形的規(guī)則中抽取多個詞集以及這些詞集間的關系，這些原始檢索詞被抽象為N行與或表達式；

B、整理詞集和詞集間關系：為每個詞集按行號及在行中所處位置命名，對于含有相同詞的集合進行合并；

C、分析每行表達式，統(tǒng)計同名詞集出現的次數，以及每個詞數集的詞數，尋找詞數少且覆蓋表達式行數多的詞數集計算該詞的行數覆蓋率，以詞數的倒數加權到覆蓋率上，獲取中間權值；

D、對詞集進行濾噪處理，使用分詞功能判斷詞的詞性，去掉副詞，感嘆詞，連詞等無實際含義的詞語；同時從近一個月詞集樣本中獲取每個詞的倒文檔率，即該詞的常見度，通過詞性和倒文檔率獲取詞與主題特征的相關度，從而為每個詞設置一個權重；

E、綜合詞數集的中間權值和詞數集下每個詞的權重，計算出每個詞數集的最終權值，選取最終權值最高且覆蓋所有邏輯條件的詞數集作為本次的檢索詞；最終權值=中間權值+詞集中詞的平均權重的開方值。

本發(fā)明具有的優(yōu)點和積極效果是:

本發(fā)明的基于圖數據結構的檢索詞優(yōu)化方法，能夠從成千上萬條規(guī)則中快速提取出最小且需求關聯(lián)度最高的檢索詞集，其中分詞和倒文檔率能夠較好的識別詞性，從而準確的分析出詞集與主題的關聯(lián)度，在標引流程中獲得較高的召回率，覆蓋邏輯表達式最全且最小詞數集的優(yōu)化方法，使得最終產生的采集任務量減少，從而提高企業(yè)的生產效率。

具體實施方式

以下通過具體實施例對本發(fā)明進行詳細說明。

發(fā)明的基于圖數據結構的檢索詞優(yōu)化方法，包括以下步驟：

A、從圖形的規(guī)則中抽取多個詞集以及這些詞集間的關系，這些原始檢索詞被抽象為N行與或表達式；

B、整理詞集和詞集間關系：為每個詞集按行號及在行中所處位置命名，對于含有相同詞的集合進行合并；

C、分析每行表達式，統(tǒng)計同名詞集出現的次數，以及每個詞數集的詞數，尋找詞數少且覆蓋表達式行數多的詞數集，根據這兩個維度給每個詞數集賦上一個權值；權值計算公式中，覆蓋率占主要部分，覆蓋率越高的詞集說明與主題相關度越大；詞數的多少則影響最終生成的采集量，為了以較低的采集量獲取最全的數據，以詞數的倒數加權到覆蓋率上，獲取中間權值；

D、對詞集進行濾噪處理，使用分詞功能判斷詞的詞性，去掉副詞，感嘆詞，連詞等無實際含義的詞語；同時從近一個月詞集樣本中獲取每個詞的倒文檔率，即該詞的常見度。通過詞性和倒文檔率獲取詞與主題特征的相關度，從而為每個詞設置一個權重；

E、綜合步驟C中詞數集的權值和詞數集下每個詞的權重，計算出每個詞數集的最終權值，選取最終權值最高且覆蓋所有邏輯條件的詞數集作為本次的檢索詞。根據大量樣本的實驗調研，詞性和倒文檔率對權重的影響應該限定在微調范圍，故最終權值=中間權值+詞集中詞的平均權重的開方值。

以上所述，僅是本發(fā)明的較佳實施例而已，并非對本發(fā)明作任何形式上的限制，雖然本發(fā)明已以較佳實施例公開如上，然而，并非用以限定本發(fā)明,任何熟悉本專業(yè)的技術人員，在不脫離本發(fā)明技術方案范圍內,當然會利用揭示的技術內容作出些許更動或修飾，成為等同變化的等效實施例,但凡是未脫離本發(fā)明技術方案的內容，依據本發(fā)明的技術實質對以上實施例所作的任何簡單修改、等同變化與修飾，均屬于本發(fā)明技術方案的范圍內。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于天津海量信息技術有限公司，未經天津海量信息技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201510910407.2/2.html，轉載請聲明來源鉆瓜專利網。