[發明專利]一種結合視覺分辨難度的文本串權重計算方法及裝置無效
| 申請號: | 201310725839.7 | 申請日: | 2013-12-26 |
| 公開(公告)號: | CN103744900A | 公開(公告)日: | 2014-04-23 |
| 發明(設計)人: | 劉偉;姚鍵;潘柏宇;盧述奇 | 申請(專利權)人: | 合一網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 視覺 分辨 難度 文本 權重 計算方法 裝置 | ||
技術領域
本申請涉及搜索引擎領域,具體地,涉及一種結合視覺分辨難度的文本串權重計算方法及裝置。
背景技術
搜索引擎在建立倒排索引時,需要計算每個文檔中的詞在該文檔中的權重。現有技術中多是基于文檔中詞頻和詞在文檔集合中出現的文檔頻率(即TF·IDF)來計算詞在一個文檔中的權重。TF·IDF算法是搜索引擎領域里的經典算法,在具體實現到系統的過程中,使用者一般均會進行適應性修改,以符合其所屬領域數據分布的特征。
但上述的各種適應性的修改的TF·IDF的方法均沒有考慮到作為搜索結果觀察者的用戶對文本串視覺上的識別順暢性。當用戶對搜索結果的“第一眼”識別過程中,用戶往往會把注意力首先集中在其最容易識別、讀懂和理解的結果上。
因此,如何能夠結合每個漢字的不同視覺分辨難度,對文本串權重計算方法進行改進成為亟需解決的技術問題。
發明內容
本發明的目的在于提出一種結合視覺分辨難度的文本串權重計算方法及裝置,使得文本串的視覺密度、文本串和字符的易識別程度能夠對經典TF·IDF的文本串權重產生影響。
為達此目的,本發明采用以下技術方案:
一種結合視覺分辨難度的文本串權重計算方法,包括如下步驟:
構造文檔集合并統計詞數據步驟S110:構建文檔集合,并得到文本串的統計數據,具體包括:
文檔集合構建子步驟S111:收集視頻信息庫中的視頻標題,從查詢日志中隨機取出等量的用戶輸入的查詢串,將這兩部分文本一起作為下一步要處理的文檔集合;
數據統計子步驟S112:切分所述文檔集合中的每個文檔,每個文檔經過切分后得到一個文本串序列,統計每個文本串出現在單個文檔中的頻次、每個文本串出現在文檔集合中的總頻次,對出現在文本串中的所有漢字統計其筆畫數量,如果不是漢字,則按照一畫統計;
中間權重結果計算步驟S120:對需要計算文本串權重的待測文檔D進行切詞,得到一個由k個文本串組成的序列,通過如下步驟分別得到幾種中間結果權重:
TF·IDF值計算子步驟S121:對所述文本串序列中的文本串Ti采用公式(1)計算其TF·IDF值,其中1≤i≤k,?
?????????公式(1),
其中,N為文檔集合中文檔數量,ND(Ti)為文本串Ti在待測文檔D中出現的次數,N(Ti)為文檔集合中含有文本串Ti的文檔數量;
視覺密度計算子步驟S122:對所述文本串序列中的文本串Ti,采用公式(2)計算其視覺密度:
?????公式(2),
其中,文本串Ti含有m個字符,BH(Cj)為Ti中第j個字符Cj的筆畫數,?1≤j≤m,f1和fm為調權因子;?
易識別度計算子步驟S123:利用公式(3)計算文本串Ti的易識別度:
????????????公式(3),
m表示文本串Ti含有m個字符,CF(Cj)表示字符Cj易識別度,對文本串Ti中的首尾字符利用調權因子y1和ym進行調權,字符C易識別度CF(C)通過公式(4)計算得到:
??????????公式(4),
CWF為字符C在整個文檔集合中不同的文本串中出現的次數,TCl表示在整個文檔集合中含有字符C的第l個文本串,BH(C)為字符C的筆畫數,u為最易識別單字的筆畫數,f為調權因子,IDF(TCl)為含有字符C的全體文檔集合中含有字符C的第l個文本串的逆文檔頻率,通過公式(5)計算得到:
?????????????????????公式(5),
N為文檔集合中文檔數量,N(Tl)為文檔集合中含有文本串Tl的文檔數量;
綜合權重計算步驟S130:利用中間權重結果,采用公式(6)計算文本串Ti相對待測文檔D的權重,
??????公式(6)
其中,為TF·IDF值權重調權因子,為文本串視覺分辨難度調權因子;?
歸一化權重計算步驟S140:將待測文檔D中的文本串Ti的權重利用公式(7)進行歸一化,得到文本串Ti的歸一化權重,
?????????????????????公式(7)。
優選地,在視覺密度計算子步驟中,f1=1.3,fm=1.2。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合一網絡技術(北京)有限公司,未經合一網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310725839.7/2.html,轉載請聲明來源鉆瓜專利網。





