[發明專利]摘要生成裝置和摘要生成方法有效
| 申請號: | 201010560580.1 | 申請日: | 2010-11-23 |
| 公開(公告)號: | CN102479196A | 公開(公告)日: | 2012-05-30 |
| 發明(設計)人: | 樂寧;吳波;吳亞棟 | 申請(專利權)人: | 夏普株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李偉;張浩 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 摘要 生成 裝置 方法 | ||
1.一種摘要生成裝置,其特征在于,具有:
存儲文章數據的文章數據存儲部;
詞頻統計部,對由上述文章數據表示的文章中的多個單詞,基于該文章數據統計各單詞的詞頻,當上述文章中的單詞具有多個詞義時,按照每個詞義作為不同的副單詞處理,統計與各副單詞對應的詞頻;
句子選擇部,基于上述文章數據和表示上述文章中的單詞和副單詞中通過上述詞頻統計部統計的詞頻最高者的數據,選擇上述文章中的多個句子,從而生成摘要數據。
2.根據權利要求1所述的摘要生成裝置,其特征在于,
上述詞頻統計部具有:
存儲將單詞、與該單詞對應的多個詞義、與該多個詞義各自對應的搭配語關聯起來的詞典數據的詞典數據存儲部;
基于上述文章數據和上述詞典數據判斷上述文章中的各單詞是否具有多個詞義的單詞判斷部;
基于上述文章數據和上述詞典數據從包含通過上述單詞判斷部判斷為具有多個詞義的單詞的句子中檢測與該單詞關聯的搭配語的搭配語檢出部;
出現數取得部,基于上述文章數據和上述詞典數據,對通過上述單詞判斷部判斷為不具有多個詞義的單詞,取得在上述文章中出現的該單詞的數量作為詞頻,對通過上述單詞判斷部判斷為具有多個詞義的單詞,按照與通過上述搭配語檢出部檢出的搭配語對應的每個詞義作為不同的副單詞處理,取得在上述文章中出現的該副單詞的數量作為詞頻。
3.根據權利要求2所述的摘要生成裝置,其特征在于,
上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含上述判斷為具有多個詞義的單詞的句子的上下文中,檢出與該單詞關聯的搭配語。
4.根據權利要求2或3所述的摘要生成裝置,其特征在于,
上述詞典數據將單詞與跟該單詞對應的同義詞建立關聯,
上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含該單詞的句子中檢測與上述判斷為具有多個詞義的單詞對應的同義詞關聯的搭配語,
上述出現數取得部構成為,對通過上述搭配語檢出部檢出與上述同義詞關聯的搭配語的單詞,按照與該搭配語對應的每個詞義作為不同的第二副單詞處理,取得在上述文章中出現的該第二副單詞的數量作為詞頻。
5.根據權利要求2~4中任一項所述的摘要生成裝置,其特征在于,
上述詞典數據將單詞與跟該單詞對應的近義詞建立關聯,
上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含該單詞的句子中檢測與上述判斷為具有多個詞義的單詞對應的近義詞關聯的搭配語,
上述出現數取得部構成為,對通過上述搭配語檢出部檢出與上述近義詞關聯的搭配語的單詞,按照與該搭配語對應的每個詞義作為不同的第三副單詞處理,取得在上述文章中出現的該第三副單詞的數量作為詞頻。
6.根據權利要求2~5中任一項所述的摘要生成裝置,其特征在于,
上述詞典數據將單詞與跟該單詞對應的反義詞建立關聯,
上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含該單詞的句子中檢測與上述判斷為具有多個詞義的單詞對應的反義詞關聯的搭配語,
上述出現數取得部構成為,對通過上述搭配語檢出部檢出與上述反義詞關聯的搭配語的單詞,按照與該搭配語對應的每個詞義作為不同的第四副單詞處理,取得在上述文章中出現的該第四副單詞的數量作為詞頻。
7.一種摘要生成方法,是從文章數據生成摘要數據的摘要生成裝置生成摘要數據時的摘要生成方法,其特征在于,包含以下步驟:
詞頻統計步驟,對由上述文章數據表示的文章中的多個單詞,基于該文章數據統計各單詞的詞頻,當上述文章中的單詞有多個詞義時,按照每個詞義作為不同的副單詞處理,統計與各副單詞對應的詞頻;
句子選擇步驟,基于上述文章數據和表示上述文章中的單詞和副單詞中在上述詞頻統計步驟中統計的詞頻最高者的數據,選擇上述文章中的多個句子,從而生成摘要數據。
8.根據權利要求7所述的摘要生成方法,其特征在于,
上述詞頻統計步驟包含:
基于上述文章數據以及、將單詞、與該單詞對應的多個詞義、與該多個詞義各自對應的搭配語關聯起來的詞典數據,判斷上述文章中的各單詞是否具有多個詞義的單詞判斷步驟;
基于上述文章數據和上述詞典數據,從包含在上述單詞判斷步驟中判斷為具有多個詞義的單詞的句子中檢出與該單詞關聯的搭配語的搭配語檢出步驟;
出現數取得步驟,基于上述文章數據和上述詞典數據,對在上述單詞判斷步驟中判斷為不具有多個詞義的單詞,取得在上述文章中出現的該單詞的數量作為詞頻,對在上述單詞判斷步驟中判斷為具有多個詞義的單詞,按照與在上述搭配語檢出步驟中檢出的搭配語對應的每個詞義作為不同的副單詞處理,取得在上述文章中出現的該副單詞的數量作為詞頻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于夏普株式會社,未經夏普株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010560580.1/1.html,轉載請聲明來源鉆瓜專利網。





