[發(fā)明專利]基于圖數據結構的檢索詞優(yōu)化方法有效
| 申請?zhí)枺?/td> | 201510910407.2 | 申請日: | 2015-12-10 |
| 公開(公告)號: | CN105574085A | 公開(公告)日: | 2016-05-11 |
| 發(fā)明(設計)人: | 涂君蘭;楊偉鋒 | 申請(專利權)人: | 天津海量信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 天津市尚儀知識產權代理事務所(普通合伙) 12217 | 代理人: | 王山 |
| 地址: | 300020 天津市和*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 數據結構 檢索 優(yōu)化 方法 | ||
技術領域
本發(fā)明涉及互聯(lián)網信息采集的技術領域,具體說是一種基于圖數據結構的檢索詞優(yōu)化方法。
背景技術
隨著互聯(lián)網技術的發(fā)展,各種各樣的數據浩瀚如海,新聞類,微博類,論壇類,電商類等,有的客戶關注某個事件的動態(tài),有的客戶關注某個品牌的口碑,有的客戶關注的是某個企業(yè)的信譽,如何能精確快速的從互聯(lián)網上獲取客戶真正關心的數據,需通過搜索引擎幫助篩選過濾數據,然而檢索詞選擇洽當與否,直接影響檢索效果。檢索詞中無用詞過多,會導致檢索效果降低,出現相關數據較少甚至零結果,而檢索詞限定過少,又會導致檢索到的數據量過大,還需進一步進行數據篩選,擴大了檢索的工作量。
現有技術中有一種基于規(guī)則引擎的標引服務,該服務能將現實生活中用自然語言表達的用戶需求抽象出來,畫成可視易懂的圖形,這些圖形按照規(guī)則引擎預定義的格式,將原始需求轉換成成千上萬條規(guī)則,通過這些規(guī)則來標引用戶感興趣的數據。
發(fā)明內容
本發(fā)明要解決的技術問題是提供一種基于圖數據結構的檢索詞優(yōu)化方法。
本發(fā)明為解決公知技術中存在的技術問題所采取的技術方案是:
本發(fā)明的基于圖數據結構的檢索詞優(yōu)化方法,包括以下步驟:
A、從圖形的規(guī)則中抽取多個詞集以及這些詞集間的關系,這些原始檢索詞被抽象為N行與或表達式;
B、整理詞集和詞集間關系:為每個詞集按行號及在行中所處位置命名,對于含有相同詞的集合進行合并;
C、分析每行表達式,統(tǒng)計同名詞集出現的次數,以及每個詞數集的詞數,尋找詞數少且覆蓋表達式行數多的詞數集計算該詞的行數覆蓋率,以詞數的倒數加權到覆蓋率上,獲取中間權值;
D、對詞集進行濾噪處理,使用分詞功能判斷詞的詞性,去掉副詞,感嘆詞,連詞等無實際含義的詞語;同時從近一個月詞集樣本中獲取每個詞的倒文檔率,即該詞的常見度,通過詞性和倒文檔率獲取詞與主題特征的相關度,從而為每個詞設置一個權重;
E、綜合詞數集的中間權值和詞數集下每個詞的權重,計算出每個詞數集的最終權值,選取最終權值最高且覆蓋所有邏輯條件的詞數集作為本次的檢索詞;最終權值=中間權值+詞集中詞的平均權重的開方值。
本發(fā)明具有的優(yōu)點和積極效果是:
本發(fā)明的基于圖數據結構的檢索詞優(yōu)化方法,能夠從成千上萬條規(guī)則中快速提取出最小且需求關聯(lián)度最高的檢索詞集,其中分詞和倒文檔率能夠較好的識別詞性,從而準確的分析出詞集與主題的關聯(lián)度,在標引流程中獲得較高的召回率,覆蓋邏輯表達式最全且最小詞數集的優(yōu)化方法,使得最終產生的采集任務量減少,從而提高企業(yè)的生產效率。
具體實施方式
以下通過具體實施例對本發(fā)明進行詳細說明。
發(fā)明的基于圖數據結構的檢索詞優(yōu)化方法,包括以下步驟:
A、從圖形的規(guī)則中抽取多個詞集以及這些詞集間的關系,這些原始檢索詞被抽象為N行與或表達式;
B、整理詞集和詞集間關系:為每個詞集按行號及在行中所處位置命名,對于含有相同詞的集合進行合并;
C、分析每行表達式,統(tǒng)計同名詞集出現的次數,以及每個詞數集的詞數,尋找詞數少且覆蓋表達式行數多的詞數集,根據這兩個維度給每個詞數集賦上一個權值;權值計算公式中,覆蓋率占主要部分,覆蓋率越高的詞集說明與主題相關度越大;詞數的多少則影響最終生成的采集量,為了以較低的采集量獲取最全的數據,以詞數的倒數加權到覆蓋率上,獲取中間權值;
D、對詞集進行濾噪處理,使用分詞功能判斷詞的詞性,去掉副詞,感嘆詞,連詞等無實際含義的詞語;同時從近一個月詞集樣本中獲取每個詞的倒文檔率,即該詞的常見度。通過詞性和倒文檔率獲取詞與主題特征的相關度,從而為每個詞設置一個權重;
E、綜合步驟C中詞數集的權值和詞數集下每個詞的權重,計算出每個詞數集的最終權值,選取最終權值最高且覆蓋所有邏輯條件的詞數集作為本次的檢索詞。根據大量樣本的實驗調研,詞性和倒文檔率對權重的影響應該限定在微調范圍,故最終權值=中間權值+詞集中詞的平均權重的開方值。
以上所述,僅是本發(fā)明的較佳實施例而已,并非對本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實施例公開如上,然而,并非用以限定本發(fā)明,任何熟悉本專業(yè)的技術人員,在不脫離本發(fā)明技術方案范圍內,當然會利用揭示的技術內容作出些許更動或修飾,成為等同變化的等效實施例,但凡是未脫離本發(fā)明技術方案的內容,依據本發(fā)明的技術實質對以上實施例所作的任何簡單修改、等同變化與修飾,均屬于本發(fā)明技術方案的范圍內。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津海量信息技術有限公司,未經天津海量信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510910407.2/2.html,轉載請聲明來源鉆瓜專利網。





