[發(fā)明專利]要點抽出裝置以及要點抽出方法有效
| 申請?zhí)枺?/td> | 201310068363.4 | 申請日: | 2013-03-04 |
| 公開(公告)號: | CN103324653A | 公開(公告)日: | 2013-09-25 |
| 發(fā)明(設計)人: | 新田早織;加納敏行 | 申請(專利權(quán))人: | 株式會社東芝;東芝解決方案株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京銀龍知識產(chǎn)權(quán)代理有限公司 11243 | 代理人: | 許靜;郭鳳麟 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 要點 抽出 裝置 以及 方法 | ||
1.一種要點抽出裝置,其特征在于,具有:
存儲單元,其預先對應地存儲線索詞和用于從包含該線索詞的句子中抽出要點的抽出規(guī)則;該線索詞表示成為用于從構(gòu)成文檔的句子中抽出要點的線索的至少一個單詞;
輸入單元,其輸入用戶指定的由包含多個單詞的句子構(gòu)成的文檔;
分析單元,其通過分析構(gòu)成上述輸入的文檔的句子,生成表示在該句子中包含的多個單詞以及這些單詞間的修飾關系的結(jié)構(gòu)樹;
判定單元,其根據(jù)上述生成的結(jié)構(gòu)樹,判定上述存儲單元中存儲的線索詞是否包含在構(gòu)成上述輸入的文檔的句子中;
抽出單元,其在判定為上述存儲單元中存儲的線索詞包含在構(gòu)成上述輸入的文檔的句子中的情況下,對于上述生成的結(jié)構(gòu)樹應用與該線索詞對應地在上述存儲單元中存儲的抽出規(guī)則,從該結(jié)構(gòu)樹中抽出表示該句子的要點的部分結(jié)構(gòu)樹。
2.根據(jù)權(quán)利要求1所述的要點抽出裝置,其特征在于,
上述存儲單元中存儲的線索詞,包含多個單詞以及這些單詞間的修飾關系的結(jié)構(gòu)樹,
上述判定單元,判定上述存儲單元中存儲的線索詞中包含的結(jié)構(gòu)樹是否作為部分結(jié)構(gòu)樹包含在上述生成的結(jié)構(gòu)樹中。
3.根據(jù)權(quán)利要求1所述的要點抽出裝置,其特征在于,
在構(gòu)成上述輸入的文檔的句子中包含的多個單詞,包含獨立詞以及連接助詞,
在構(gòu)成上述輸入的文檔的句子中包含的多個單詞間的修飾關系包含從屬連接關系以及從屬連接修飾關系,來作為在該多個單詞中包含的獨立詞以及連接助詞間的修飾關系,
上述生成的結(jié)構(gòu)樹,通過表示構(gòu)成上述輸入的文檔的句子中包含的多個單詞的多個節(jié)點以及通過連接該多個節(jié)點之間表示由該多個節(jié)點表示的多個單詞間的修飾關系的弧線來表現(xiàn),
上述存儲單元中存儲的線索詞包含表示上述單詞的第一節(jié)點,
上述抽出單元包含:
第一確定單元,其在上述生成的結(jié)構(gòu)樹中確定第二節(jié)點,該第二節(jié)點表示通過表示從屬連接關系的第一弧線與上述線索詞中包含的第一節(jié)點連接的連接助詞;
第二確定單元,其在上述生成的結(jié)構(gòu)樹中確定第三節(jié)點,該第三節(jié)點表示通過表示從屬連接修飾關系的第二弧線與上述確定的第二節(jié)點連接的獨立詞;和
分割單元,其通過切斷上述第二弧線,把上述生成的結(jié)構(gòu)樹分割為兩個部分結(jié)構(gòu)樹,
提取上述分割后的兩個部分結(jié)構(gòu)樹中的包含通過上述第二確定單元確定的第三節(jié)點的部分結(jié)構(gòu)樹,來作為表示構(gòu)成上述輸入的文檔的句子中的要點的部分結(jié)構(gòu)樹。
4.根據(jù)權(quán)利要求1所述的要點抽出裝置,其特征在于,
上述存儲單元,對應地存儲與表示文檔的類別或者內(nèi)容的該文檔的每一觀點對應的上述線索詞和上述抽出規(guī)則,
上述輸入單元還輸入上述用戶指定的文檔的觀點,
上述判定單元判定與上述輸入的文檔的觀點對應的線索詞是否包含在構(gòu)成上述輸入的文檔的句子中。
5.一種要點抽出裝置執(zhí)行的要點抽出方法,所述要點抽出裝置具有儲單元,該存儲單元預先對應地存儲線索詞和用于從包含該線索詞的句子中抽出要點的抽出規(guī)則,該線索詞表示成為用于從構(gòu)成文檔的句子中抽出要點的線索的至少一個單詞,所述要點抽出方法的特征在于,具有:
輸入用戶指定的由包含多個單詞的句子構(gòu)成的文檔的步驟;
通過分析構(gòu)成上述輸入的文檔的句子,生成表示在該句子中包含的多個單詞以及這些單詞間的修飾關系的結(jié)構(gòu)樹的步驟;
根據(jù)上述生成的結(jié)構(gòu)樹,判定上述存儲單元中存儲的線索詞是否包含在構(gòu)成上述輸入的文檔的句子中的步驟;以及
在判定為上述存儲單元中存儲的線索詞包含在構(gòu)成上述輸入的文檔的句子中的情況下,對于上述生成的結(jié)構(gòu)樹應用與該線索詞對應地在上述存儲單元中存儲的抽出規(guī)則,從該結(jié)構(gòu)樹中抽出表示該句子的要點的部分結(jié)構(gòu)樹的步驟。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于株式會社東芝;東芝解決方案株式會社,未經(jīng)株式會社東芝;東芝解決方案株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310068363.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





