[發明專利]一種基于多流行關聯矩陣分解的無障礙文本展現方法有效
| 申請號: | 201310217406.0 | 申請日: | 2013-06-03 |
| 公開(公告)號: | CN103345471A | 公開(公告)日: | 2013-10-09 |
| 發明(設計)人: | 卜佳俊;李平;陳純;王北斗;高珊 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵;黃美娟 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 流行 關聯 矩陣 分解 障礙 文本 展現 方法 | ||
技術領域
本發明涉及無障礙文本展現方法的技術領域,特別是基于多流行關聯矩陣分解的無障礙文本展現方法。
背景技術
我國人口基數大,組成群體呈多樣化特點,而其中的重要群體殘疾人的總量已達8500萬,是構建和諧社會和發展國民經濟中的一支重要力量,也是各級政府和各類團體重點幫扶的群體。據中國殘疾人聯合會的統計報表發現,各類殘疾人的數據在過去的幾十年中呈逐年上升趨勢。在大數據驅動的信息時代,越來越多的殘疾人利用快速便捷的互聯網獲取日常學習和生活的信息資源,成為網民中不可忽視的群體。在互聯網這個巨大的信息共享平臺上,文本媒介占據信息展現的壓倒性比例,比如時事新聞、體育報道、書評影評等的絕大部分信息通過文本形式呈現給殘疾人用戶。相比普通人,許多殘疾人由于身體或心理的各種缺陷而很難有效地瀏覽所需的網頁信息,而互聯網上的文本信息琳瑯滿目,因此急需發明一種無障礙的文本展現方法,方便殘疾人群體閱讀互聯網上的文本信息。
眾所周知,各類網站上提供的網頁信息組織松散,缺乏集中分類管理,而殘疾人用戶僅僅有興趣閱讀某些特定主題的網頁文本,這造成文本信息豐富雜亂與殘疾人閱讀感興趣的網頁困難之間的矛盾。特別對于那些聽力殘疾人或肢體殘疾人來說,在互聯網上查找并閱讀網頁文本信息的步驟更加耗時,容易造成身心疲憊和精神困乏。如果能將各類網頁中的文本信息根據主題快速放到小的集合中,再依照不同主題展現給殘疾人用戶,將有利于減輕網頁文本閱讀壓力,提高文本的閱讀效率和殘疾人用戶的體驗度。
在信息檢索和數據挖掘領域,主要基于網頁文本的余弦相似度并在此基礎上進行文本的聚類,形成各類主題的文本集合。在對網頁文檔進行文本的TF-IDF特征提取并向量化表示后,根據文本和單詞之間的相互依存關系,使用數據挖掘中的k-means等聚類算法,可將網頁文本按照不同的主題分成多個不同子集合呈現給用戶。
發明內容
為了幫助殘疾人用戶能夠快速方便地瀏覽同一主題的網頁文本,以提高文本閱讀的體驗度,本發明提出了一種基于多流行關聯矩陣分解的無障礙文本展現方法,該方法包括以下步驟:
1、從互聯網抓取網頁文本后,針對文本進行以下操作:
1)對文本進行分詞,提取文本統計特征信息,包括詞頻和反向文檔頻率,形成文本的TF-IDF向量化特征表示;
2)構建若干文本流行和單詞流行,基于多流行的關聯矩陣分解考慮文本與單詞之間的對偶性,獲得低維的文本表示和單詞表示;
3)對文本的低維表示進行聚類,相同或相近主題的文本分為一組,以分組的形式重新展現文本信息。
2、步驟1)中所述的提取文本統計特征信息具體步驟是:
1.1)每個網頁文本可看成一個文檔,對文本提取兩種統計信息,即詞頻(TF:Term?Frequency)和反向文檔頻率(IDF:Inverse?Document?Frequency),若文本中出現的單詞有m個,則形成m維的TF-IDF向量化特征表示;
1.2)對所有文本的TF-IDF特征表示進行統一的歸一化處理。
3、步驟2)中所述的構建若干文本流行和單詞流行具體步驟是:
2.1)流行結構能夠反映數據的本征結構,它通過圖拉普拉斯矩陣進行構建,而文本流行和單詞流行能分別反映文本數據和單詞數據的本征結構;
2.2)構建文本的圖拉普拉斯矩陣Ls,首先從互聯網上獲取n個網頁文本,第i個文本的特征表示為第j個文本的特征表示為將每個文本看成無向圖上的頂點,若兩個文本的歐式距離較近,則在相應的頂點間連接一條邊并賦予邊權重,這樣可以建立一張反映文本數據流行結構的無向圖;各文本間的關聯權重組成大小為n×n的權重矩陣Ws,對Ws的每列元素依次累加并放置在對角矩陣Ds的對角線上,Ds中非對角線上的元素均置為0,則可通過Ls=Ds-Ws得到文本的圖拉普拉斯矩陣Ls;
2.3)構建若干文本的圖拉普拉斯矩陣Ls,通過賦予無向圖中所連接邊的不同權重Ws實現,即利用三種不同的權重策略:二值權重、余弦相似度和高斯核權重;若與的歐式距離較遠,即兩個頂點間無邊連接,則兩個文本的邊權重為0;若與的歐式距離較近,即兩個頂點間有邊連接,則:
a.對于二值權重,兩個文本的邊權重為1;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310217406.0/2.html,轉載請聲明來源鉆瓜專利網。





