[發(fā)明專利]一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法及裝置無效
| 申請?zhí)枺?/td> | 201310725839.7 | 申請日: | 2013-12-26 |
| 公開(公告)號: | CN103744900A | 公開(公告)日: | 2014-04-23 |
| 發(fā)明(設(shè)計)人: | 劉偉;姚鍵;潘柏宇;盧述奇 | 申請(專利權(quán))人: | 合一網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100080 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)合 視覺 分辨 難度 文本 權(quán)重 計算方法 裝置 | ||
1.一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法,包括如下步驟:
構(gòu)造文檔集合并統(tǒng)計詞數(shù)據(jù)步驟S110:構(gòu)建文檔集合,并得到文本串的統(tǒng)計數(shù)據(jù),具體包括:
文檔集合構(gòu)建子步驟S111:收集視頻信息庫中的視頻標題,從查詢?nèi)罩局须S機取出等量的用戶輸入的查詢串,將這兩部分文本一起作為下一步要處理的文檔集合;
數(shù)據(jù)統(tǒng)計子步驟S112:切分所述文檔集合中的每個文檔,每個文檔經(jīng)過切分后得到一個文本串序列,統(tǒng)計每個文本串出現(xiàn)在單個文檔中的頻次、每個文本串出現(xiàn)在文檔集合中的總頻次,對出現(xiàn)在文本串中的所有漢字統(tǒng)計其筆畫數(shù)量,如果不是漢字,則按照一畫統(tǒng)計;
中間權(quán)重結(jié)果計算步驟S120:對需要計算文本串權(quán)重的待測文檔D進行切詞,得到一個由k個文本串組成的序列,通過如下步驟分別得到幾種中間結(jié)果權(quán)重:
TF·IDF值計算子步驟S121:對所述文本串序列中的文本串Ti采用公式(1)計算其TF·IDF值,其中1≤i≤k,?
?????????公式(1),
其中,N為文檔集合中文檔數(shù)量,ND(Ti)為文本串Ti在待測文檔D中出現(xiàn)的次數(shù),N(Ti)為文檔集合中含有文本串Ti的文檔數(shù)量;
視覺密度計算子步驟S122:對所述文本串序列中的文本串Ti,采用公式(2)計算其視覺密度:
?????公式(2),
其中,文本串Ti含有m個字符,BH(Cj)為Ti中第j個字符Cj的筆畫數(shù),?1≤j≤m,f1和fm為調(diào)權(quán)因子;?
易識別度計算子步驟S123:利用公式(3)計算文本串Ti的易識別度:
????????????公式(3),
m表示文本串Ti含有m個字符,CF(Cj)表示字符Cj易識別度,對文本串Ti中的首尾字符利用調(diào)權(quán)因子y1和ym進行調(diào)權(quán),字符C易識別度CF(C)通過公式(4)計算得到:
??????????公式(4),
CWF為字符C在整個文檔集合中不同的文本串中出現(xiàn)的次數(shù),TCl表示在整個文檔集合中含有字符C的第l個文本串,BH(C)為字符C的筆畫數(shù),u為最易識別單字的筆畫數(shù),f為調(diào)權(quán)因子,IDF(TCl)為含有字符C的全體文檔集合中含有字符C的第l個文本串的逆文檔頻率,通過公式(5)計算得到:
?????????????????????公式(5),
N為文檔集合中文檔數(shù)量,N(Tl)為文檔集合中含有文本串Tl的文檔數(shù)量;
綜合權(quán)重計算步驟S130:利用中間權(quán)重結(jié)果,采用公式(6)計算文本串Ti相對待測文檔D的權(quán)重,
??????公式(6)
其中,為TF·IDF值權(quán)重調(diào)權(quán)因子,為文本串視覺分辨難度調(diào)權(quán)因子;?
歸一化權(quán)重計算步驟S140:將待測文檔D中的文本串Ti的權(quán)重利用公式(7)進行歸一化,得到文本串Ti的歸一化權(quán)重,
?????????????????????公式(7)。
2.根據(jù)權(quán)利要求1所述的結(jié)合視覺分辨難度的文本串權(quán)重計算方法,其特征在于:
在視覺密度計算子步驟中,f1=1.3,fm=1.2。
3.根據(jù)權(quán)利要求1所述的結(jié)合視覺分辨難度的文本串權(quán)重計算方法,其特征在于:
在易識別度計算子步驟中,y1=1.2,?ym=1.2。
4.根據(jù)權(quán)利要求1所述的結(jié)合視覺分辨難度的文本串權(quán)重計算方法,其特征在于:
在易識別度計算子步驟中,u=9.7,f=3.5。
5.根據(jù)權(quán)利要求1,其特征在于:
在綜合權(quán)重計算步驟中,,均為1。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于合一網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)合一網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310725839.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





