[發明專利]一種依據貢獻度排序的方法及裝置有效
| 申請號: | 201110460665.7 | 申請日: | 2011-12-31 |
| 公開(公告)號: | CN103186647A | 公開(公告)日: | 2013-07-03 |
| 發明(設計)人: | 田建峰;張朝勝;于亮 | 申請(專利權)人: | 北京金山軟件有限公司;北京金山數字娛樂科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 逯長明;李兆嶺 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 依據 貢獻 排序 方法 裝置 | ||
技術領域
本發明涉及排序領域,尤其是涉及一種依據貢獻度向量排序的方法及裝置。
背景技術
一個詞條在詞典中常常具有多個釋義項,但每一釋義項對用戶來講并非是等同的。有一些釋義項是大多數用戶在生活中常用的,用戶希望能在詞典中第一眼就看到這些釋義項。有一些是比較生僻的,通常情況下不會被用到。因此,為了增強詞典的易用性,通常在詞典的編纂過程中會將常用的釋義項放在靠前的位置,第一眼就給用戶顯示其最想要的解釋,而將較生僻的釋義項放在靠后的位置。詞典領域屬于特定的技術領域,該領域中對于通過多本詞典合并后的綜合詞典,現有技術通過隨機排序,或者依靠人工排序進行排列,費時、費力而且還會摻雜大量的主觀因素進去。另外還有一種詞典排序的方法是基于機器統計的,但這種方法考慮因素單一,得到的效果不好。比如只根據釋義項在語料庫中出現的頻次對釋義項進行排序。但這種方法考慮因素單一,人工對比分析發現,所獲得的排序結果不夠準確,排序方法不夠智能。首先,一個釋義項是否是常用的釋義項并不僅僅由該釋義項在語料庫中出現的頻次決定。換句話說,在語料庫中出現頻次多的釋義項并非一定是常用的釋義項。其次,對在語料庫中頻次相同的釋義項無法區分,也就無法對其排序。因此,現有技術不能有效的對詞典的中某一詞條的釋義項進行精確的排序。
這一問題同樣出現在現在的搜索引擎或論壇評論中。在搜索引擎或查看論壇評論時同樣會出現多個結果,現有技術也未提供一種有效的排序方法。
發明內容
本發明提供了一種依據貢獻度排序的方法及裝置,通過計算并綜合排序目標項在至少兩個維度的貢獻度向量,利用綜合后的貢獻度向量對排序目標項排序,提高了對排序目標項排序的準確度,使排序目標項的順序更符合用戶的使用習慣。
本發明提供了一種依據貢獻度排序的方法,所述方法包括:
確定排序目標項,并根據所述排序目標項的特征,選取至少兩個維度;
統計所述排序目標項在所述至少兩個維度上的排序參數;
根據所述排序參數,計算所述排序目標項在所述至少兩個維度上的貢獻度向量;
依據所述維度的權重對歸一化的所述貢獻度向量計算綜合貢獻度向量;
根據所述綜合貢獻度向量對所述排序目標項進行排序。
優選的,當所述排序目標項為詞條釋義項的代表釋義項時,所述至少兩個維度為以下維度中的至少兩個維度:
字頻;長度頻度;例句中出現頻度;語料庫中出現頻度;詞典中出現的頻度;排列順序;規范性;
所述統計所述排序目標項在所述至少兩個維度上的排序參數包括:
統計所述代表釋義項在所述至少兩個維度上的排序參數;
所述根據所述排序參數,計算所述排序目標項在所述至少兩個維度上的貢獻度向量包括:
根據所述排序參數,計算所述代表釋義項在所述至少兩個維度上的貢獻度向量;
所述根據所述綜合貢獻度向量對所述排序目標項進行排序包括:
根據所述綜合貢獻度向量對所述代表釋義項進行排序。
優選的,當所述至少兩個維度中的一個維度為字頻時,所述統計所述代表釋義項在所述至少兩個維度上的排序參數包括:
統計所述詞條所有釋義項中每個字的頻次;
根據所述統計的頻次計算所述代表釋義項的平均字頻;
所述根據所述排序參數,計算所述代表釋義項在所述至少兩個維度上的貢獻度向量包括:
根據所述代表釋義項的平均字頻和所述代表釋義項的平均字頻和,計算所述代表釋義項的字頻貢獻度向量。
優選的,當所述至少兩個維度中的一個維度為長度頻度時,所述統計所述代表釋義項在所述至少兩個維度上的排序參數包括:
統計所述詞條所有釋義項的長度及所述長度的頻次;
獲取所述代表釋義項的長度的頻次;
所述根據所述排序參數,計算所述代表釋義項在所述至少兩個維度上的貢獻度向量包括:
根據所述代表釋義項的長度的頻次和所述代表釋義項的長度的頻次和,計算所述代表釋義項的長度貢獻度向量。
優選的,當所述至少兩個維度中的一個維度為例句中出現頻度時,所述統計所述代表釋義項在所述至少兩個維度上的排序參數包括:
統計所述代表釋義項在查詢結果的例句中出現的頻次;
計算所述代表釋義項在查詢結果的例句中出現的頻次和;
所述根據所述排序參數,計算所述代表釋義項在所述至少兩個維度上的貢獻度向量包括:
根據所述在查詢結果的例句中出現的頻次和所述在查詢結果的例句中出現的頻次和,計算所述代表釋義項的例句頻度貢獻度向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山軟件有限公司;北京金山數字娛樂科技有限公司,未經北京金山軟件有限公司;北京金山數字娛樂科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110460665.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于處理粘液的試劑
- 下一篇:一種魚油亞麻籽油軟膠囊及其制備方法





