[發明專利]標識文檔內的關鍵短語有效

申請號：	201110415245.7	申請日：	2011-12-02
公開（公告）號：	CN102591914A	公開（公告）日：	2012-07-18
發明（設計）人：	S·蓋爾曼;K·穆克吉	申請（專利權）人：	微軟公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	上海專利商標事務所有限公司 31100	代理人：	楊潔
地址：	美國華***	國省代碼：	美國;US
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	標識文檔關鍵短語
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種在包括一個或多個處理器和系統存儲器的計算機系統處的用來標識文檔內的關鍵短語的方法，所述方法包括：

訪問文檔(112)的動作；

計算所述文檔(112)內多個不同文本短語(131，132，133)的出現頻率(141，142，143)的動作，每一文本短語(131，132，133)包括指定語言的一個或多個單詞；

訪問所述指定語言的語言模型(159)的動作，所述語言模型(159)至少為所述指定語言的各單詞(161，162)定義期望出現頻率(171，172)；

對于所述多個不同文本短語(131，132，133)中的每一文本短語，計算所述文本短語的交叉熵值(151，152，153)的動作，所述交叉熵值(151，152，153)從所述文檔(112)內所述文本短語的出現頻率(141，142，143)和所述指定語言內所述文本短語的出現頻率(171，172)來計算；

基于所計算的交叉熵值(151，152，153)從所述文檔(112)內選擇指定數量的統計上顯著的文本短語(132，191，192)的動作；以及

用表示所選的指定數量的統計上顯著的文本短語(132，191，192)中的每一個的數據來填充關鍵短語數據結構(107)的動作。

2.如權利要求1所述的方法，其特征在于，計算所述文檔內多個不同文本短語的出現頻率的所述動作，包括計算所述指定語言的單個單詞的出現頻率的動作。

3.如權利要求1所述的方法，其特征在于，計算所述文檔內多個不同文本短語的出現頻率的所述動作包括，計算包含所述指定語言的一個或多個單詞的指定文本短語的出現頻率的動作。

4.如權利要求3所述的方法，其特征在于，還包括推斷所述指定語言內指定的文本短語的期望出現頻率的動作，所推斷的期望出現頻率從所述一個或多個單詞的已定義的期望出現頻率推斷，至少第一單詞的所述已定義的出現頻率在所述語言模型中定義。

5.如權利要求1所述的方法，其特征在于，從所述文檔內選擇指定數量的統計上顯著的文本短語的所述動作包括，使用加權函數對所述多個不同文本短語相對于彼此的統計顯著性進行加權的動作。

6.如權利要求5所述的方法，其特征在于，使用加權函數對所述多個不同文本短語相對于彼此的統計顯著性進行加權的所述動作包括，使用對所述多個不同文本短語中的每一個考慮如下內容的加權函數：所述文檔內所述文本短語的出現頻率、包含所述文檔的文檔的語料庫內的所述文本短語的反文檔頻率、所述語言模型，和所述文檔的長度。

7.如權利要求1所述的方法，其特征在于，還包括，在訪問所述指定語言的語言模型之前：

將一個或多個搜索項輸入至搜索引擎的動作，所述搜索項與包括在所述文檔中的文本短語相關；

從所述搜索引擎接收結果的動作，所述結果包括包含所述一個或多個搜索項的文檔；以及

從自所述搜索引擎返回的結果生成所述語言模型的動作。

8.如權利要求1所述的方法，其特征在于，還包括，在訪問所述指定語言的語言模型之前：

使用用戶選擇語句向數據庫查詢一個或多個數據庫索引的動作；

從所述數據庫接收查詢結果的動作，所述查詢結果包括包含所述一個或多個數據庫索引的文檔；以及

從所述查詢結果生成所述語言模型的動作。

9.一種在包括一個或多個處理器和系統存儲器的計算機系統處的用來標識文檔內的關鍵短語的方法，所述方法包括：

訪問包含多個文本短語(331，332，333)的文檔(312)的動作；

對于包含在所述文檔中的多個文本短語中的每一文本短語(331，332，333)：

生成所述文本短語的位置列表(341，342，343)的動作，所述位置列表指示所述文檔內所述文本短語的一個或多個位置；