[發明專利]摘要生成裝置和摘要生成方法有效
| 申請號: | 201010560580.1 | 申請日: | 2010-11-23 |
| 公開(公告)號: | CN102479196A | 公開(公告)日: | 2012-05-30 |
| 發明(設計)人: | 樂寧;吳波;吳亞棟 | 申請(專利權)人: | 夏普株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李偉;張浩 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 摘要 生成 裝置 方法 | ||
技術領域
本發明涉及摘要生成裝置和摘要生成方法。
背景技術
為了電子書籍的檢索等目的而應用從表示文章的文章數據生成表示摘要的摘要數據的技術。作為摘要生成的步驟,例如有對于構成文章的各句根據各種各樣的基準計算分值而抽出分值較高的句子的步驟。
例如JP特開2003-281164號公報記載有利用單詞詞頻作為分值計算的基準的方式。這是因為詞頻較高的單詞被推測為文章中重要的單詞。
文章由多個句子構成,句子由多個單詞構成。并且,在各個單詞中存在不只有一個詞義而具有多個詞義的單詞。但是,在JP特開2003-281164號公報記載的方法中,在利用單詞詞頻時未考慮單詞的詞義。
關于具有多個詞義的單詞,即使詞頻高也存在與各詞義對應的詞頻低的情況。因此,具有多個詞義的單詞即使詞頻高也可能并非重要單詞。因此,按照JP特開2003-281164號公報記載的方法,對于具有多個詞義的單詞不加考慮地僅基于各單詞的詞頻計算分值,即使抽出了句子也無法生成適當的摘要。
發明內容
本發明為了解決上述課題而做出,其目的在于提供摘要生成裝置和摘要生成方法,通過對具有多個詞義的單詞進行考慮而能夠生成適當的摘要。
本發明是摘要生成裝置,其特征在于,具有:存儲文章數據的文章數據存儲部;
詞頻統計部,對由上述文章數據表示的文章中的多個單詞,基于該文章數據統計各單詞的詞頻,當上述文章中的單詞具有多個詞義時,按照每個詞義作為不同的副單詞處理,統計與各副單詞對應的詞頻;
句子選擇部,基于上述文章數據和表示上述文章中的單詞和副單詞中通過上述詞頻統計部統計的詞頻最高者的數據,選擇上述文章中的多個句子,從而生成摘要數據。
根據本發明,詞頻統計部,當文章中的單詞具有多個詞義時,按照每個詞義作為不同的副單詞處理,統計與各副單詞對應的詞頻。并且,句子選擇部,基于表示文章中的單詞和副單詞中通過詞頻統計部統計的詞頻最高者的數據,選擇句子來生成摘要數據。因此,本發明的摘要生成裝置,能夠生成考慮了具有多個詞義的單詞的適當的摘要。
并且本發明的摘要生成裝置,其特征在于,上述詞頻統計部具有:
存儲將單詞、與該單詞對應的多個詞義、與該多個詞義各自對應的搭配語關聯起來的詞典數據的詞典數據存儲部;
基于上述文章數據和上述詞典數據判斷上述文章中的各單詞是否具有多個詞義的單詞判斷部;
基于上述文章數據和上述詞典數據從包含通過上述單詞判斷部判斷為具有多個詞義的單詞的句子中檢出與該單詞關聯的搭配語的搭配語檢出部;
出現數取得部,基于上述文章數據和上述詞典數據,對通過上述單詞判斷部判斷為不具有多個詞義的單詞,取得在上述文章中出現的該單詞的數量作為詞頻,對通過上述單詞判斷部判斷為具有多個詞義的單詞,按照與通過上述搭配語檢出部檢出的搭配語對應的每個詞義作為不同的副單詞處理,取得在上述文章中出現的該副單詞的數量作為詞頻。
并且根據本發明,能夠基于在詞典數據存儲部中存儲的詞典數據,通過搭配語檢出部檢出與具有多個詞義的單詞關聯的搭配語。并且,能夠通過出現數取得部對具有多個詞義的單詞,按照與搭配語檢出部檢出的搭配語對應的每個詞義作為不同的副單詞處理,取得在文章中出現的該副單詞的數量作為詞頻。
并且本發明的摘要生成裝置,其特征在于,上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含上述判斷為具有多個詞義的單詞的句子的前一句和后一句的至少一方中,檢測與該單詞關聯的搭配語。
并且根據本發明,搭配語檢出部從包含具有多個詞義的單詞的句子的前一句和后一句的至少一方中檢出搭配語。因此,即使包含具有多個詞義的單詞的句子中不存在搭配語,對于該單詞,也能夠按照與搭配語對應的每個詞義作為不同的副單詞處理,從而能夠生成適當的摘要。
并且本發明的摘要生成裝置,其特征在于,上述詞典數據將單詞與跟該單詞對應的同義詞建立關聯,
上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含該單詞的句子中檢測與上述判斷為具有多個詞義的單詞對應的同義詞關聯的搭配語,
上述出現數取得部構成為,對通過上述搭配語檢出部檢出與上述同義詞關聯的搭配語的單詞,按照與該搭配語對應的每個詞義作為不同的第二副單詞處理,取得在上述文章中出現的該第二副單詞的數量作為詞頻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于夏普株式會社,未經夏普株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010560580.1/2.html,轉載請聲明來源鉆瓜專利網。





