[發明專利]一種融合多種語言文獻的聚類機制有效
| 申請號: | 201310416693.8 | 申請日: | 2013-09-12 |
| 公開(公告)號: | CN103455623A | 公開(公告)日: | 2013-12-18 |
| 發明(設計)人: | 袁子牧;彭澎;季統凱;岳強 | 申請(專利權)人: | 廣東電子工業研究院有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 523808 廣東省東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 多種 語言 文獻 機制 | ||
技術領域
本發明涉及信息檢索技術領域,特別涉及一種融合多種語言文獻的聚類機制。
背景技術
接觸互聯網的用戶時常會在搜索引擎上查找自身關注的內容。類似于搜索引擎這類信息檢索系統,通常是針對大批量數據進行過濾檢索,并且要求處理時間足夠快,以提供給用戶及時的響應,避免用戶的等待。
信息檢索系統中的聚類技術為檢索時以足夠快的速度為用戶提供充分的信息提供了保障。聚類是指對信息檢索系統中的信息進行類別劃分,它是對信息檢索系統的一種有效改進策略,能提供給用戶較為齊全的信息。在信息檢索中應用聚類技術能使用戶在檢索信息的過程中快速定位到自己感興趣的內容。相較未引用聚類技術的信息檢索系統,使用聚類技術能起到降低用戶等待時間的作用,有若分類更加清晰的特點。
發明內容
本發明解決的技術問題設計一種聚類機制,使得其能融合多種語言文獻。
本發明解決上述技術問題的技術方案是:
按如下步驟進行:
步驟1,建立包含多種語言詞匯的近義詞庫;
步驟2,提取8種特征值;
步驟3,根據特征值,計算任意兩篇文獻i和j的相似度;
步驟4,在文獻集合中選擇聚點,建立聚類;
步驟5,將文獻集合中剩余的文獻加入到聚類之中;
步驟6,將聚類置于圓環結構之中。
步驟1中,在詞庫的每一行中,都記錄著意思相同或相近的多種語言詞匯,并標記該詞匯是動詞還是名詞。
所述的步驟2中特征值包括引用關系(f1)、相同參考文獻(f2)、相同字符串(f3)、近義字符串(f4)、相同名詞(f5)、近義名詞(f6)、相同動詞(f7)、近義動詞(f8)這八個特征值;這些特征值并不限定于某一種特定的語言,可將多種語言文獻融合到聚類分類之中;其中引用文獻指在文獻中列出的所參考文獻,相同字符串指一段組成單詞完全相同的字符串,近義字符串指一段組成單詞相同或者是近義詞庫中記載的近義詞的字符串,相同名詞指完全相同的名詞,近義名詞指近義詞庫中記載在同一行的名詞,相同動詞指完全相同的動詞,近義動詞指義詞庫中記載在同一行的動詞;對于某一篇文獻i,其特征向量F(i)即為:
F(i)=(f1(i),f2(i),f3(i),f4(i),f5(i),f6(i),f7(i),f8(i))。
步驟3中,八個特征值的重要性為f1>f2>f3>f4>f5>f6>f7>f8;
任意兩篇文獻i和j的在特征值上的乘積運算:
引用文獻的乘積f1(i)f1(j),定義W為i和j中的其中一篇文獻被另一篇文獻所引用的權值;bool為是否存在引用關系。bool的取值為0或者1,為0表示不存在引用關系,為1表示存在引用關系。計算表達式為:
f1(i)f1(j)=bool×W
相同參考文獻的乘積f2(i)f2(j),定義d為權重除法因子并且d≥1;Refs指示參考文獻的數目,則Max{Refs(i),Refs(j)}指在i和j中選擇參考文獻數目的最大值;CommonRefs(i,j)指i和j這兩篇文獻中相同的參考文獻數目;計算表達式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電子工業研究院有限公司,未經廣東電子工業研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310416693.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于環網柜的多通道臭氧探測儀
- 下一篇:藥物活性成分篩選方法





