[發明專利]關聯詞典構建方法和裝置有效
申請號: | 201310565554.1 | 申請日: | 2013-11-13 |
公開(公告)號: | CN103605712A | 公開(公告)日: | 2014-02-26 |
發明(設計)人: | 田晉坤 | 申請(專利權)人: | 北京銳安科技有限公司 |
主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/28 |
代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 胡彬 |
地址: | 100044 北京市海*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 關聯 詞典 構建 方法 裝置 | ||
1.一種關聯詞典構建方法,其特征在于,包括:
從網絡詞典網頁上獲取源術語集合和目標術語集合;
根據源術語與目標術語在所述網絡詞典網頁上共同出現的情況構建初始直接關聯矩陣;
對所述源術語集合和目標術語集合進行擴充,使得擴充后的關聯矩陣為方陣;
對擴展后的關聯矩陣進行冪運算,得到不同冪次的間接關聯矩陣;
對不同冪次的間接關聯矩陣進行加權平均,得到表示不同術語之間的關聯度的關聯矩陣。
2.根據權利要求1所述的關聯詞典構建方法,其特征在于,根據源術語與目標術語在所述網絡詞典網頁上共同出現的情況構建初始直接關聯矩陣包括:
對源術語與目標術語共同出現網絡詞典網頁的文本進行語義分析,確定源術語與目標術語之間的指入-指出關系;
根據所述指入-指出關系在所述初始直接關聯矩陣的相應位置添加非零矩陣元素。
3.根據權利要求1所述的關聯詞典構建方法,其特征在于,對所述源術語集合和目標術語集合進行擴充,使得擴充后的關聯矩陣為方陣包括:
使用從網絡詞典網頁上獲取的術語對所述源術語集合和所述目標術語集合進行擴充,使得擴充后的源術語集合和目標術語集合中的術語數目相同;
根據擴充后的源術語集合和目標術語集合構建擴充后的直接關聯矩陣,其中,所述擴充后的直接關聯矩陣是方陣;
將所述擴充后的直接關聯矩陣與所述擴充后的直接關聯矩陣的轉置矩陣求和,得到擴充后的關聯矩陣。
4.根據權利要求3所述的關聯詞典構建方法,其特征在于,在使用從網絡詞典網頁上獲取的術語對所述源術語集合和所述目標術語集合進行擴充之前,對所述源術語集合和目標術語集合進行擴充,使得擴充后的關聯矩陣為方陣還包括:
使用內容分類器對所述源術語集合和所述目標術語集合中的術語進行分類,確定獲取用于擴充的術語的網絡詞典網頁的領域。
5.根據權利要求1至4任一所述的關聯詞典構建方法,其特征在于,在對所述源術語集合和目標術語集合進行擴充,使得擴充后的關聯矩陣為方陣之后,還包括:
如果所述擴充后的關聯矩陣中一行或一列元素的和大于預定閾值,采用關聯度降低算法將該行或該列元素的取值降低。
6.一種關聯詞典構建裝置,其特征在于,包括:
術語集合獲取模塊,用于從網絡詞典網頁上獲取源術語集合和目標術語集合;
初始直接關聯矩陣構建模塊,用于根據源術語與目標術語在所述網絡詞典網頁上共同出現的情況構建初始直接關聯矩陣;
術語集合擴充模塊,用于對所述源術語集合和目標術語集合進行擴充,使得擴充后的關聯矩陣為方陣;
間接關聯矩陣獲取模塊,用于對擴展后的關聯矩陣進行冪運算,得到不同冪次的間接關聯矩陣;
關聯矩陣計算模塊,用于對不同冪次的間接關聯矩陣進行加權平均,得到表示不同術語之間的關聯度的關聯矩陣。
7.根據權利要求6所述的關聯詞典構建裝置,其特征在于,所述初始直接關聯矩陣構建模塊包括:
指入-指出關系確定子模塊,用于對源術語與目標術語共同出現網絡詞典網頁的文本進行語義分析,確定源術語與目標術語之間的指入-指出關系;
非零矩陣元素添加子模塊,用于根據所述指入-指出關系在所述初始直接關聯矩陣的相應位置添加非零矩陣元素。
8.根據權利要求6所述的關聯詞典構建裝置,其特征在于,所述術語集合擴充模塊包括:
術語集合擴充子模塊,用于使用從網絡詞典網頁上獲取的術語對所述源術語集合和所述目標術語集合進行擴充,使得擴充后的源術語集合和目標術語集合中的術語數目相同;
直接關聯矩陣構建子模塊,用于根據擴充后的源術語集合和目標術語集合構建擴充后的直接關聯矩陣,其中,所述擴充后的直接關聯矩陣是方陣;
轉置求和子模塊,用于將所述擴充后的直接關聯矩陣與所述擴充后的直接關聯矩陣的轉置矩陣求和,得到擴充后的關聯矩陣。
9.根據權利要求8所述的關聯詞典構建裝置,其特征在于,所述術語集合擴充模塊還包括:
網絡詞典網頁領域確定子模塊,用于在使用從網絡詞典網頁上獲取的術語對所述源術語集合和所述目標術語集合進行擴充之前,使用內容分類器對所述源術語集合和所述目標術語集合中的術語進行分類,確定獲取用于擴充的術語的網絡詞典網頁的領域。
10.根據權利要求6至9任一所述的關聯詞典構建裝置,其特征在于,還包括:
關聯度降低模塊,用于在對所述源術語集合和目標術語集合進行擴充,使得擴充后的關聯矩陣為方陣之后,如果所述擴充后的關聯矩陣中一行或一列元素的和大于預定閾值,采用關聯度降低算法將該行或該列元素的取值降低。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳安科技有限公司,未經北京銳安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310565554.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多重保護的緊急切斷閥
- 下一篇:一種帶輪