[發明專利]文檔集摘要獲取方法及裝置無效
| 申請號: | 200810239344.2 | 申請日: | 2008-12-10 |
| 公開(公告)號: | CN101751425A | 公開(公告)日: | 2010-06-23 |
| 發明(設計)人: | 萬小軍;楊建武;肖建國 | 申請(專利權)人: | 北京大學;北大方正集團有限公司;北京方正電子政務信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 黃志華 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 摘要 獲取 方法 裝置 | ||
技術領域
本發明涉及語言文字處理領域以及信息檢索技術領域,尤其涉及一種文檔集摘要獲取方法及裝置。
背景技術
隨著互聯網技術的快速推廣和應用,文檔集摘要的獲取技術已經被廣泛的應用于文本/網站內容的檢索領域。文檔集摘要獲取技術是指:由計算機系統自動從一個包含多篇文檔的文檔集中,獲取反映該文檔集中文檔內容要點的信息。該技術可以為用戶提供文檔集簡明扼要的內容描述,為用戶查閱大量文檔內容提供了便利。例如,某互聯網門戶網站所提供的新聞服務的基本實現原理為首先收集網絡上的各種新聞信息,并按照主題和文檔類型,對收集到的新聞信息進行歸類,形成多個文檔集,使用上述文檔集摘要的獲取技術獲取每個文檔集的摘要,以便于用戶能夠快捷方便的瀏覽感興趣的新聞。
現有的文檔集摘要獲取方法主要分為兩類:基于句子抽取(Extraction)的文檔集摘要獲取方法和基于句子生成(Abstraction)的文檔集摘要獲取方法。其中,基于句子抽取的文檔集摘要獲取方法的實現原理為對文檔集中的每篇文檔,按句進行分割,根據預定的句子權重值衡量指標,例如句子位置、詞語類簇、主題簽名、關鍵詞頻率/倒序索引頻率(TF/IDF)等,確定分割得到的每個句子在文檔集中的重要性權重值,選擇重要性權重值最大的至少一個句子形成所述文檔集的摘要。基于句子生成的文檔集摘要獲取方法的實現原理為根據自然語言理解技術,對文檔集中的每個句子進行語法和語義分析,并使用信息抽取或自然語言生成技術產生新的句子,從而獲得所述文檔集的摘要。從以上的描述可以看出,基于句子抽取的文檔集摘要獲取方法所獲取的文檔集的摘要,是由文檔集中文檔所包含的已有句子組成的,不需要借助復雜的深層自然語言理解技術對文檔集中所包含內容信息進行分析,因此基于句子抽取的文檔集摘要獲取方法與基于句子生成的文檔集摘要獲取方法相比,實現較為簡單。
現有的基于句子抽取的文檔集摘要獲取方法在確定文檔集中每個句子的重要性權重值時,除上述介紹的基于預定的句子權重值衡量指標的方式之外,也可以使用基于圖模型的方法。例如,文章Summarizing?Similarities?andDifferences?Among?Related?Documents(作者是I.Mani?and?E.Bloedorn,發表于2000年出版的期刊Information?Retrieval)公開了一種名為WebSumm的方法,WebSumm方法利用圖連接模型,其中圖連接模型中的頂點分別代表文檔集中的每個句子,假設與其它頂點連接越多的頂點所代表的句子的重要性越高,以此來對確定文檔集中的句子的重要性權重值,從而獲得文檔集的摘要。
在上述介紹的基于圖模型確定文檔集中每個句子的重要性權重值的方法中,只考慮了文檔集中句子之間的關系,沒有考慮句子與文檔的關系對句子的重要性的影響,即假定文檔集中所有文檔的重要性都是相等的,然而通常文檔集中不同文檔的重要性是不同的,現有的基于圖模型的文檔集摘要獲取方法并不能反映文檔集中不同文檔的重要性差異對獲取文檔集摘要結果的影響,因此文檔集摘要的獲取效果不佳。
發明內容
本發明實施例提供一種文檔集摘要獲取方法及裝置,用以解決現有基于圖模型獲取文檔集摘要的方式文檔集摘要獲取效果不佳的問題。
本發明實施例提供的技術方案如下:
一種文檔集摘要獲取方法,包括:
提取文檔集中各個文檔中包含的各個句子,組成句子集合;
基于文檔集中的文檔和句子集合中的句子之間的文本相似度,確定句子集合中各個句子的重要性權重值;
根據確定的重要性權重值,按照重要性權重值由高至低的選擇順序,選擇規定數目的句子組成文檔集摘要。
一種文檔集摘要獲取裝置,包括:
句子集合提取單元,用于提取文檔集中各個文檔中包含的各個句子,組成句子集合;
句子重要性權重值確定單元,用于基于文檔集中的文檔和句子集合中的句子之間的文本相似度,確定句子集合中各個句子的重要性權重值;
摘要確定單元,用于根據句子重要性權重值確定單元確定的重要性權重值,按照重要性權重值由高至低的選擇順序,選擇規定數目的句子組成文檔集摘要。
本發明實施例提出的多文檔摘要獲取方法,利用了文檔集中句子和文檔之間的關系,考慮了文檔集中不同文檔重要性的差異對句子重要性權重值的影響,因此能夠更準確的確定文檔集中句子的重要性權重值,并選擇重要性權重值高的句子組成文檔集摘要,因此能夠獲得更佳的文檔集摘要獲取效果。
附圖說明
圖1為本發明實施例的主要實現原理流程圖;
圖2為本發明實施例中文檔集二部圖的示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學;北大方正集團有限公司;北京方正電子政務信息科技有限公司,未經北京大學;北大方正集團有限公司;北京方正電子政務信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810239344.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據壓縮/解壓縮方法及其裝置
- 下一篇:一種以太網環網算法切換方法





