[發(fā)明專利]一種為文本添加超級(jí)鏈接的方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201210087642.0 | 申請(qǐng)日: | 2012-03-29 |
| 公開(公告)號(hào): | CN103365831B | 公開(公告)日: | 2017-07-21 |
| 發(fā)明(設(shè)計(jì))人: | 賀翔;卞琪;焦峰 | 申請(qǐng)(專利權(quán))人: | 深圳市世紀(jì)光速信息技術(shù)有限公司 |
| 主分類號(hào): | G06F17/22 | 分類號(hào): | G06F17/22 |
| 代理公司: | 北京潤澤恒知識(shí)產(chǎn)權(quán)代理有限公司11319 | 代理人: | 蘇培華 |
| 地址: | 518057 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 添加 超級(jí)鏈接 方法 裝置 | ||
1.一種為文本添加超級(jí)鏈接的方法,其特征在于,包括:
預(yù)先生成一個(gè)超鏈詞列表,并收集各種文本,通過對(duì)各文本進(jìn)行切詞處理,生成一個(gè)特征詞列表,針對(duì)每個(gè)特征詞,分別確定其與每個(gè)超鏈詞的共現(xiàn)頻率;
針對(duì)每個(gè)待添加超級(jí)鏈接的文本X,分別進(jìn)行如下處理:
對(duì)文本X進(jìn)行切詞處理;
從切詞結(jié)果中提取出在超鏈詞列表中出現(xiàn)的超鏈詞以及在特征詞列表中出現(xiàn)的特征詞,并確定每個(gè)提取出的超鏈詞和每個(gè)提取出的特征詞的權(quán)值;
根據(jù)每個(gè)提取出的特征詞與每個(gè)提取出的超鏈詞的共現(xiàn)頻率以及每個(gè)確定出的權(quán)值,分別得到每個(gè)提取出的超鏈詞的最終權(quán)值;
按照最終權(quán)值由大到小的順序?qū)μ崛〕龅母鞒溤~進(jìn)行排序,為排序后處于前K位的超鏈詞添加超級(jí)鏈接,K為正整數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過對(duì)各文本進(jìn)行切詞處理,生成一個(gè)特征詞列表包括:
將切詞得到的所有不重復(fù)詞均作為特征詞;
或者,從切詞得到的所有不重復(fù)詞中去除高頻詞、停用詞和低頻詞,將剩余詞作為特征詞。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述針對(duì)每個(gè)特征詞,分別確定其與每個(gè)超鏈詞的共現(xiàn)頻率包括:
針對(duì)每個(gè)特征詞y和每個(gè)超鏈詞x,分別計(jì)算兩者的共現(xiàn)頻率P(x|y):
P(x|y)=xy共現(xiàn)次數(shù)/y出現(xiàn)次數(shù);
其中,xy共現(xiàn)次數(shù)表示在收集到的所有文本中,同時(shí)出現(xiàn)了特征詞y和超鏈詞x的文本的個(gè)數(shù),y出現(xiàn)次數(shù)表示在收集到的所有文本中,出現(xiàn)了特征詞y的文本的個(gè)數(shù);
或者,
針對(duì)每個(gè)特征詞y和每個(gè)超鏈詞x,分別計(jì)算兩者的共現(xiàn)頻率P(x|y):
P(x/y)=H(x,y)/I(x,y);
其中,H表示信息熵,I表示互信息。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,
所述生成一個(gè)特征詞列表之后,進(jìn)一步包括:針對(duì)每個(gè)特征詞,分別確定其逆文本頻率IDF值,IDF值通過用收集到的所有文本的個(gè)數(shù)除以出現(xiàn)了該特征詞的文本個(gè)數(shù),再將得到的商取對(duì)數(shù)得到;
所述確定每個(gè)提取出的超鏈詞和每個(gè)提取出的特征詞的權(quán)值包括:
針對(duì)每個(gè)提取出的超鏈詞H,分別計(jì)算其權(quán)值WH:
WH=TFH*IDFH;
其中,TFH表示超鏈詞H的詞頻TF值,即超鏈詞H在文本X中的出現(xiàn)次數(shù),IDFH表示超鏈詞H的IDF值;
針對(duì)每個(gè)提取出的特征詞F,分別計(jì)算其權(quán)值WF:
WF=TFF*IDFF;
其中,TFF表示特征詞F的TF值,IDFF表示特征詞F的IDF值。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)每個(gè)提取出的特征詞與每個(gè)提取出的超鏈詞的共現(xiàn)頻率以及每個(gè)確定出的權(quán)值,分別得到每個(gè)提取出的超鏈詞的最終權(quán)值包括:
針對(duì)每個(gè)提取出的超鏈詞H,分別計(jì)算其最終權(quán)值WH’:
其中,n表示提取出的特征詞的個(gè)數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市世紀(jì)光速信息技術(shù)有限公司,未經(jīng)深圳市世紀(jì)光速信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210087642.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 在計(jì)算機(jī)系統(tǒng)中預(yù)覽文件
- 移動(dòng)通信終端和在其上顯示HTML文檔的方法
- 一種網(wǎng)絡(luò)收藏夾的實(shí)現(xiàn)方法
- 專利數(shù)據(jù)庫的檢索方法及其輸出檢索結(jié)果精要表
- 語音啟用鏈接的方法和可視界面
- 移動(dòng)手機(jī)片花的超級(jí)鏈接系統(tǒng)與方法
- 可即時(shí)上網(wǎng)與無線超鏈接學(xué)習(xí)機(jī)
- 一種IPTV業(yè)務(wù)內(nèi)容分級(jí)保護(hù)的系統(tǒng)、裝置及方法
- 從網(wǎng)絡(luò)平臺(tái)向客戶端推送應(yīng)用的方法和系統(tǒng)
- 通過單窗口鏈接網(wǎng)頁瀏覽器瀏覽網(wǎng)頁的系統(tǒng)和方法
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





