[發明專利]一種從文檔集中抽取熱詞短語的方法和裝置有效
| 申請號: | 201410265383.5 | 申請日: | 2014-06-13 |
| 公開(公告)號: | CN104077274B | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 黃民烈;朱小燕 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京漢昊知識產權代理事務所(普通合伙)11370 | 代理人: | 朱海波 |
| 地址: | 100084 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 集中 抽取 短語 方法 裝置 | ||
1.一種從文檔集中抽取熱詞短語的方法,包括:
對所述文檔集中的每個分句進行分詞;
針對每個分句中所有K個以下連續詞組成的短語,判斷短語邊界明顯度和/或短語中各詞之間關系的緊密程度,其中K是正整數,邊界明顯度指示短語與短語左右的詞的搭配自由度;
基于短語邊界明顯度和/或短語中各詞之間關系的緊密程度的判斷結果,從所述K個以下連續詞組成的短語中至少抽取一部分短語作為熱詞短語輸出;其中,
判斷短語邊界明顯度包括:
通過計算所述短語的左、右信息熵并與相應閾值比較,判斷短語邊界明顯度;或
通過獲取在所述文檔集中所述短語左、右側出現的詞的集合,計算集合中各詞在所述文檔集中與所述短語相鄰出現的次數與所述短語在所述文檔集中出現的次數的比值的方差,并與相應閾值比較,判斷短語邊界明顯度;其中,
通過以下公式計算所述短語的左、右信息熵:
所述短語的左信息熵的計算如下:
或
其中,w表示所述短語,ai表示所述文檔集中緊挨著短語w的左側詞集合{a1,a2,a3,…,as}中的任一詞,N(w)表示短語w在所述文檔集中出現的總次數,m>1,C(ai,w)表示緊挨著短語w的左邊出現在所述文檔集中的次數,LCE(w)表示短語w的左信息熵;
所述短語的右信息熵的計算如下:
或
其中,w表示所述短語,bi表示所述文檔集中緊挨著短語w的右側詞集合{b1,b2,b3,…,bp}中的任一詞,N(w)表示短語w在所述文檔集中出現的總次數,n>1,C(w,bi)表示詞bi緊挨著短語w的右邊出現在所述文檔集中的次數,RCE(w)表示短語w的右信息熵。
2.根據權利要求1所述的方法,還包括:
基于短語頻率tf、語段頻率df、以及tf·loga(M/df)中的至少一個,對所述輸出的熱詞短語進行排序,并基于排序從輸出的熱詞短語中進一步過濾掉一部分熱詞短語,其中,a>1,短語頻率tf表示所述短語在所述文檔集中出現的總次數,語段頻率,df表示所述文檔集中包含所述短語的語段數目,M表示所述文檔集所包含語段的數目。
3.根據權利要求1所述的方法,其中所述短語中各詞之間關系的緊密程度包括短語中詞間關聯度或/和內聚度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410265383.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于呈現數據的方法和裝置
- 下一篇:一種實現易失性存儲器備份的裝置





