[發明專利]標識文檔內的關鍵短語有效
| 申請號: | 201110415245.7 | 申請日: | 2011-12-02 |
| 公開(公告)號: | CN102591914A | 公開(公告)日: | 2012-07-18 |
| 發明(設計)人: | S·蓋爾曼;K·穆克吉 | 申請(專利權)人: | 微軟公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 楊潔 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標識 文檔 關鍵 短語 | ||
1.一種在包括一個或多個處理器和系統存儲器的計算機系統處的用來標識文檔內的關鍵短語的方法,所述方法包括:
訪問文檔(112)的動作;
計算所述文檔(112)內多個不同文本短語(131,132,133)的出現頻率(141,142,143)的動作,每一文本短語(131,132,133)包括指定語言的一個或多個單詞;
訪問所述指定語言的語言模型(159)的動作,所述語言模型(159)至少為所述指定語言的各單詞(161,162)定義期望出現頻率(171,172);
對于所述多個不同文本短語(131,132,133)中的每一文本短語,計算所述文本短語的交叉熵值(151,152,153)的動作,所述交叉熵值(151,152,153)從所述文檔(112)內所述文本短語的出現頻率(141,142,143)和所述指定語言內所述文本短語的出現頻率(171,172)來計算;
基于所計算的交叉熵值(151,152,153)從所述文檔(112)內選擇指定數量的統計上顯著的文本短語(132,191,192)的動作;以及
用表示所選的指定數量的統計上顯著的文本短語(132,191,192)中的每一個的數據來填充關鍵短語數據結構(107)的動作。
2.如權利要求1所述的方法,其特征在于,計算所述文檔內多個不同文本短語的出現頻率的所述動作,包括計算所述指定語言的單個單詞的出現頻率的動作。
3.如權利要求1所述的方法,其特征在于,計算所述文檔內多個不同文本短語的出現頻率的所述動作包括,計算包含所述指定語言的一個或多個單詞的指定文本短語的出現頻率的動作。
4.如權利要求3所述的方法,其特征在于,還包括推斷所述指定語言內指定的文本短語的期望出現頻率的動作,所推斷的期望出現頻率從所述一個或多個單詞的已定義的期望出現頻率推斷,至少第一單詞的所述已定義的出現頻率在所述語言模型中定義。
5.如權利要求1所述的方法,其特征在于,從所述文檔內選擇指定數量的統計上顯著的文本短語的所述動作包括,使用加權函數對所述多個不同文本短語相對于彼此的統計顯著性進行加權的動作。
6.如權利要求5所述的方法,其特征在于,使用加權函數對所述多個不同文本短語相對于彼此的統計顯著性進行加權的所述動作包括,使用對所述多個不同文本短語中的每一個考慮如下內容的加權函數:所述文檔內所述文本短語的出現頻率、包含所述文檔的文檔的語料庫內的所述文本短語的反文檔頻率、所述語言模型,和所述文檔的長度。
7.如權利要求1所述的方法,其特征在于,還包括,在訪問所述指定語言的語言模型之前:
將一個或多個搜索項輸入至搜索引擎的動作,所述搜索項與包括在所述文檔中的文本短語相關;
從所述搜索引擎接收結果的動作,所述結果包括包含所述一個或多個搜索項的文檔;以及
從自所述搜索引擎返回的結果生成所述語言模型的動作。
8.如權利要求1所述的方法,其特征在于,還包括,在訪問所述指定語言的語言模型之前:
使用用戶選擇語句向數據庫查詢一個或多個數據庫索引的動作;
從所述數據庫接收查詢結果的動作,所述查詢結果包括包含所述一個或多個數據庫索引的文檔;以及
從所述查詢結果生成所述語言模型的動作。
9.一種在包括一個或多個處理器和系統存儲器的計算機系統處的用來標識文檔內的關鍵短語的方法,所述方法包括:
訪問包含多個文本短語(331,332,333)的文檔(312)的動作;
對于包含在所述文檔中的多個文本短語中的每一文本短語(331,332,333):
生成所述文本短語的位置列表(341,342,343)的動作,所述位置列表指示所述文檔內所述文本短語的一個或多個位置;
相對于所述文本短語在訓練數據集合(359)中的出現,基于所述文本短語的位置列表(341,342,343)的內容,為所述文本短語(331,332,333)分配分數(351,342,353)的動作;
根據所分配的分數對所述多個文本短語排序的動作;
基于排序從所述文檔內選擇所述多個文本短語的子集(332,393,394)的動作;以及
使用所選的多個文本短語的子集填充關鍵短語數據結構(307)的動作。
10.一種供在計算機系統處使用的計算機程序產品,所述計算機程序產品實現一種用來標識文檔內的關鍵短語的方法,所述計算機程序產品包括其上存儲有計算機可執行指令的一個或多個計算機可讀介質,所述計算機可執行指令當在處理器處執行時使所述計算機系統執行所述方法,其特征在于,所述方法包括以下動作:
訪問文檔(112);
計算所述文檔(112)內多個不同文本短語(131、132、133)的出現頻率(141、142、143),每一文本短語(131、132、133)包括指定語言的一個或多個單詞;
訪問所述指定語言的語言模型(159),所述語言模型(159)至少為所述指定語言的各單詞(161,162)定義期望出現頻率(171,172);
對于所述多個不同文本短語(131,132,133)中的每一文本短語,計算所述文本短語的交叉熵值(151,152,153),所述交叉熵值(151,152,153)從所述文檔(112)內所述文本短語的出現頻率(141,142,143)和所述指定語言內所述文本短語的出現頻率(171,172)來計算;
基于所計算的交叉熵值(151,152,153)從所述文檔(112)內選擇指定數量的統計上顯著的文本短語(132,191,192);以及
用表示所選的指定數量的統計上顯著的文本短語(132,191,192)中的每一個的數據填充來關鍵短語數據結構(107)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟公司,未經微軟公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110415245.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息處理設備和方法
- 下一篇:中藥組合物制劑中紅景天、甘草含量測定方法





