[發明專利]漢英跨語言新聞話題檢測方法及系統無效
| 申請號: | 201110159605.1 | 申請日: | 2011-06-14 |
| 公開(公告)號: | CN102253973A | 公開(公告)日: | 2011-11-23 |
| 發明(設計)人: | 夏云慶 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 漢英 語言 新聞 話題 檢測 方法 系統 | ||
1.一種漢英跨語言新聞話題檢測方法,其特征在于,包括以下步驟:
S1、將跨語言新聞切分為語句,再將所述語句切分為詞匯,所述跨語言新聞包括漢語新聞和英語新聞;
S2、將切分后的漢語新聞和英語新聞表示為跨語言廣義向量空間內的跨語言向量;
S3、計算漢-漢新聞之間、漢-英新聞之間及英-英新聞之間的語義相似度;
S4、基于步驟S3的計算結果對跨語言新聞進行基于語義的話題聚類,從而找出若干個跨語言話題。
2.如權利要求1所述的方法,其特征在于,步驟S1中,在進行語句切分時采用標點符號判斷語句邊界;在進行漢語詞匯切分時采取雙向最大匹配策略判斷詞匯邊界;在進行英語詞匯切分時借助空格字符和標點符號判斷詞匯邊界。
3.如權利要求1所述的方法,其特征在于,步驟S2包括:
S21、根據漢英語義知識和漢英平行語料的統計信息,計算詞匯間的語義相似度,包括同語言詞匯間的語義相似度和漢英跨語言詞匯間的語義相似度;
S22、進行基于向量空間模型的跨語言新聞文檔表示。
4.如權利要求3所述的方法,其特征在于,步驟S22具體為:通過計算詞匯的特征權重進行特征選擇,然后用向量表示跨語言新聞;其中,選擇權重超過一定閾值的詞匯為特征,所述向量的每一維表示一個特征,而向量在這一維上的數值等于該特征的權重。
5.如權利要求4所述的方法,其特征在于,所述跨語言新聞以文檔的方式儲存,利用下式(1)計算所述特征的權重:
ws(t,d)=TFs(t,d)log(L/DFs(t))????(1)
其中,t為特征詞,d為目標新聞文檔,TFs為特征詞t在文檔d中的軟詞頻,DFs為t的軟文檔頻,L為文檔d包含的詞匯總數。
6.如權利要求5所述的方法,其特征在于,利用下式(2)計算所述軟詞頻TFs:
TFs(t,d)=∑iTFi×SimWD(t,wi)????(2)
其中,wi為文檔d所包含的第i個詞匯,SimWD是計算詞匯語義相似度的函數。
7.如權利要求6所述的方法,其特征在于,利用下式(3)計算所述軟文檔頻DFs:
其中D為跨語言新聞文檔集合,wi,j為第j個新聞文檔dj所包含的第i個詞匯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110159605.1/1.html,轉載請聲明來源鉆瓜專利網。





