[發明專利]標識文檔內的關鍵短語有效
| 申請號: | 201110415245.7 | 申請日: | 2011-12-02 |
| 公開(公告)號: | CN102591914A | 公開(公告)日: | 2012-07-18 |
| 發明(設計)人: | S·蓋爾曼;K·穆克吉 | 申請(專利權)人: | 微軟公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 楊潔 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標識 文檔 關鍵 短語 | ||
技術領域
本發明涉及標識文檔內的關鍵短語的技術。
背景技術
1.背景和相關技術
計算機系統和相關技術影響社會的許多方面。的確,計算機系統處理信息的能力已轉變了人們生活和工作的方式。計算機系統現在通常執行在計算機系統出現以前手動執行的許多任務(例如,文字處理、日程安排和會計等)。最近,計算機系統彼此耦合并耦合到其他電子設備以形成計算機系統和其他電子設備可以在其上傳輸電子數據的有線和無線計算機網絡。因此,許多計算任務的執行跨多個不同的計算機系統和/或多個不同的計算環境分布。
對于許多組織而言,文檔很容易按量構成最大信息資產。如此,按其顯著特征(諸如其關鍵詞和短語)來表征文檔是一種重要的功能。
用于表征文檔的一種技術包括使用在全文本倒排索引中挖掘文檔的全文本搜索解決方案。用于表征文檔的另一技術挖掘文檔級語義(例如,以標識文檔之間的相似度)。這兩種技術中任一種的正確實現可能需要在計算機硬件和個人資源兩方面進行大量投資。
此外,文檔解析、挖掘等操作通常在這兩種技術之間是重復的。如此,最終用戶因必須投資(可能多達雙倍)資源才能獲得搜索和對他們的文檔的語義洞察的好處而支付另外的成本。另外,許多更復雜的文檔挖掘技術需要將不同的系統集成在一起,并且導致進一步的成本才能滿足一組織的文檔處理需求。
發明內容
本發明涉及用于標識文檔中的關鍵短語的方法、系統,以及計算機程序產品。在一些實施例中,訪問文檔。計算文檔內多個不同文本短語的出現頻率。每一文本短語包括指定語言的一個或多個單詞。訪問該指定語言的語言模型。該語言模型至少為該指定語言的各單詞定義期望出現頻率。
對于多個不同文本短語中的每一文本短語,計算文本短語的交叉熵值。交叉熵值是從文檔內的文本短語出現頻率和指定語言內的文本短語出現頻率計算出的。基于計算的交叉熵值從文檔內選擇指定數量的統計上顯著的文本短語。用表示所選的指定數量的統計上顯著的文本短語的每一個的數據來填充關鍵短語數據結構。
在其他實施例中,訪問包含多個文本短語的文檔。對于包含在文檔中的多個文本短語中的每一文本短語,生成文本短語的位置列表。位置列表指示文檔內的文本短語的一個或多個位置。對于包含在文檔中的多個文本短語中的每一文本短語,將分數分配給文本短語。相對于文本短語在訓練數據集合中的出現,該分數基于文本短語的位置列表內容。
根據分配的分數對多個文本短語排序。基于排序從文檔內選擇多個文本短語的子集。從所選的多個文本短語的子集填充關鍵短語數據結構。
提供本發明內容以便以簡化的形式介紹將在以下的具體實施方式中進一步描述的一些概念。本發明內容并非旨在標識所要求保護的主題的關鍵特征或必要特征,也不旨在用于幫助確定所要求保護的主題的范圍。
本發明的附加特征和優點將在以下描述中敘述,且其一部分根據本描述將是顯而易見的,或可通過對本發明的實踐來獲知。本發明的特征和優點可通過在所附權利要求書中特別指出的工具和組合來實現和獲得。本發明的這些和其他特征將通過以下描述和所附權利要求書變得更加顯而易見,或可通過對下文中所述的本發明的實踐來領會。
附圖說明
為了描述可獲得本發明的上述和其他優點和特征的方式,將通過參考附圖中示出的本發明的具體實施例來呈現以上簡要描述的本發明的更具體描述。可以理解,這些附圖僅描述本發明的典型實施例,從而不被認為是對其范圍的限制,本發明將通過使用附圖用附加特征和細節來描述和說明,在附圖中:
圖1示出了便于標識文檔內的關鍵短語的示例計算機體系結構。
圖2示出了用于標識文檔內的關鍵短語的示例方法的流程圖。
圖3示出了便于標識文檔內的關鍵短語的示例計算機體系結構。
圖4示出了用于標識文檔內的關鍵短語的示例方法的流程圖。
具體實施方式
本發明涉及用于標識文檔中的關鍵短語的方法、系統,以及計算機程序產品。訪問一文檔。計算文檔內多個不同文本短語的出現頻率。每一文本短語包括指定語言的一個或多個單詞。訪問該指定語言的語言模型。語言模型至少為該指定語言的各單詞定義期望出現頻率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟公司,未經微軟公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110415245.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息處理設備和方法
- 下一篇:中藥組合物制劑中紅景天、甘草含量測定方法





