[發明專利]漢英跨語言新聞話題檢測方法及系統無效
| 申請號: | 201110159605.1 | 申請日: | 2011-06-14 |
| 公開(公告)號: | CN102253973A | 公開(公告)日: | 2011-11-23 |
| 發明(設計)人: | 夏云慶 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 漢英 語言 新聞 話題 檢測 方法 系統 | ||
技術領域
本發明涉及跨語言新聞話題檢測技術領域,特別是涉及一種漢英跨語言新聞話題檢測方法及系統。
背景技術
漢語和英語是國際社會的兩種主流語言,漢英新聞數量占絕對優勢。新聞閱讀是人們了解世界、把握時局的最重要的途徑。隨著互聯網的快速普及,新聞數量急劇膨脹,人們不得不每日縱身新聞海洋,從成千上萬的漢英新聞中獲取信息。這時,人們主要面臨兩個困難:第一,新聞數量巨大,短時間內無法閱讀所有新聞,必然造成信息的片面性;若企圖閱讀所有新聞,則需要消耗大量時間,普通人難以接受。第二,語言障礙嚴重阻礙了外文閱讀,人們多數選擇閱讀母語新聞,卻難以對其他語言的新聞進行有選擇地閱讀,也造成信息的片面性。為應對上述需求,各種新聞話題分析和文摘技術不斷涌現,自動地將大量的新聞歸類為不同的話題,以方便人們快速瀏覽。
實現跨語言新聞話題檢測的技術難度較大。近年來,研究人員主要嘗試了兩類方法。第一類是借助多語詞典將外文詞匯轉換為母語詞匯,然后對新聞進行話題分析。這個方法的主要問題在于,不同語言中的詞匯多數不是一一對應關系,而武斷地確定一個對應關系容易造成錯誤,導致最終話題檢測效果難以接受。第二類方法是機器翻譯辦法,先將外文新聞翻譯成母語,然后將母語新聞歸類為不同的話題。這個方法的主要問題是機器翻譯系統準確度低,時間復雜度高,難以快速、準確地滿足人們的需求,無法達到實用水平。隨著語義詞典和平行語料庫的出現,融合語義知識和跨語言統計信息的跨語言話題檢測研究逐漸引起了研究者的興趣。
發明內容
(一)要解決的技術問題
本發明要解決的技術問題是:如何提供一種漢英跨語言新聞話題檢測方案,并提高跨語言新聞話題檢測的準確度。
(二)技術方案
為解決上述技術問題,本發明提供了一種漢英跨語言新聞話題檢測方法,包括以下步驟:
S1、將跨語言新聞切分為語句,再將所述語句切分為詞匯,所述跨語言新聞包括漢語新聞和英語新聞;
S2、將切分后的漢語新聞和英語新聞表示為跨語言廣義向量空間內的跨語言向量;
S3、計算漢-漢新聞之間、漢-英新聞之間及英-英新聞之間的語義相似度;
S4、基于步驟S3的計算結果對跨語言新聞進行基于語義的話題聚類,從而找出若干個跨語言話題。
步驟S1中,在進行語句切分時采用標點符號判斷語句邊界;在進行漢語詞匯切分時采取雙向最大匹配策略判斷詞匯邊界;在進行英語詞匯切分時借助空格字符和標點符號判斷詞匯邊界。
步驟S2包括:
S21、根據漢英語義知識和漢英平行語料的統計信息,計算詞匯間的語義相似度,包括同語言詞匯間的語義相似度和漢英跨語言詞匯間的語義相似度;
S22、進行基于向量空間模型的跨語言新聞文檔表示。
步驟S22具體為:通過計算詞匯的特征權重進行特征選擇,然后用向量表示跨語言新聞;其中,選擇權重超過一定閾值的詞匯為特征,所述向量的每一維表示一個特征,而向量在這一維上的數值等于該特征的權重。
所述跨語言新聞以文檔的方式儲存,利用下式(1)計算所述特征的權重:
ws(t,d)=TFs(t,d)log(L/DFs(t))????(1)
其中,t為特征詞,d為目標新聞文檔,TFs為特征詞t在文檔d中的軟詞頻,DFs為t的軟文檔頻,L為文檔d包含的詞匯總數。
利用下式(2)計算所述軟詞頻TFs:
TFs(t,d)=∑iTFi×SimWD(t,wi)????(2)
其中,wi為文檔d所包含的第i個詞匯,SimWD是計算詞匯語義相似度的函數,能計算漢-漢詞匯間、漢-英詞匯間和英-英詞匯間的語義相似度。
利用下式(3)計算所述軟文檔頻DFs:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110159605.1/2.html,轉載請聲明來源鉆瓜專利網。





