[發明專利]文本分析方法及裝置在審
| 申請號: | 201210374329.5 | 申請日: | 2012-09-27 |
| 公開(公告)號: | CN103699521A | 公開(公告)日: | 2014-04-02 |
| 發明(設計)人: | 翟俊杰;姚從磊;王亮;溫泉;李亞楠 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 滕一斌 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分析 方法 裝置 | ||
1.一種文本分析方法,其特征在于,所述方法包括:
獲得目標文本的一種或多種特征信息;
對所述目標文本的每種特征信息分別計算量化得分;
對所述目標文本的每種特征信息的量化得分與各自對應的權重相乘后進行累計獲得所述目標文本的總得分。
2.根據權利要求1所述的文本分析方法,其特征在于,所述特征信息包括標題字數、標題中關鍵詞字數與標題字數的比例、標題中類別興趣詞匯的數量、標題中熱點詞匯的數量、標題中是否包含廣告詞、正文字數、正文中標點數與正文字數的比例、正文中連接詞數與句子數的比例、正文詞匯信息熵、正文獨立詞性數、正文詞性信息熵、正文段落數、正文圖文混排性、帖子時新性、帖子回復數、帖子回復趨勢、帖子瀏覽數、正文是否為主貼、帖子精華等級、帖子作者等級和帖子版塊等級中的一種或者幾種。
3.根據權利要求2所述的文本分析方法,其特征在于,所述對所述目標文本的每種特征信息分別計算量化得分,具體包括:
若所述特征信息包括所述正文中標點數與正文字數的比例、所述正文中連接詞數與句子數的比例、所述正文詞匯信息熵和所述正文詞性熵中的一種或者幾種,則通過第一類型函數對所述正文中標點數與正文字數的比例、所述正文中連接詞數與句子數的比例、所述正文詞匯信息熵或所述正文詞性熵各自計算量化得分,所述第一類型函數為兩端衰減的函數;
和/或,若所述特征信息包括所述標題中關鍵詞字數與標題字數的比例、所述標題中類別興趣詞匯的數量、所述標題中熱點詞匯的數量、所述帖子回復數、所述帖子回復趨勢、所述帖子瀏覽數、所述帖子作者等級和所述帖子版塊等級中的一種或者幾種,則通過第二類型函數對所述標題中關鍵詞字數與標題字數的比例、所述標題中類別興趣詞匯的數量、所述標題中熱點詞匯的數量、所述帖子回復數、所述帖子回復趨勢、所述帖子瀏覽數、所述帖子作者等級或所述帖子版塊等級各自計算量化得分,所述第二類型函數為單向遞增的函數;
和/或,若所述特征信息包括所述標題字數、所述標題中是否包含廣告詞、所述正文字數、所述正文獨立詞性數、所述正文段落數和所述正文是否為主貼中的一種或者幾種,則計算所述標題字數、所述標題中是否包含廣告詞、所述正文字數、所述正文獨立詞性數、所述正文段落數或所述正文是否為主貼的量化得分為兩值量化中的第一預定值或者第二預定值;
和/或,若所述特征信息包括所述圖文混排性,則計算所述圖文混排性的量化得分為所述圖片與正文的間隔序列方差與圖片數的乘積;
和/或,若所述特征信息包括所述帖子時新性,則根據第三類型函數對帖子存在時間進行計算來得到所述帖子時新性的量化得分,所述第三類型函數為單向遞減的函數;
和/或,若所述特征信息包括所述帖子精華等級,則根據精華等級與權重之間的預定對應關系,計算當前精華等級與對應的權重的乘積為所述帖子精華等級的量化得分。
4.根據權利要求3所述的文本分析方法,其特征在于,所述第一類型函數為:
f(x)=exp(-d*(x-μ)2);
其中,μ控制橫移特性,d控制兩端衰減特性且d不等于0;
所述第二類型函數為:
其中,a調整衰減特性且a不等于0,k調整橫移特性,b調整縱移特性;
所述第三類型函數為:
f(x)=e-ax;
其中,a調整衰減特征且a不等于0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210374329.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種衛星通信手持天線
- 下一篇:一種煙支煙蒂長度畫線輔助裝置





