[發(fā)明專利]要點(diǎn)抽出裝置以及要點(diǎn)抽出方法有效
| 申請?zhí)枺?/td> | 201310068363.4 | 申請日: | 2013-03-04 | 
| 公開(公告)號: | CN103324653A | 公開(公告)日: | 2013-09-25 | 
| 發(fā)明(設(shè)計(jì))人: | 新田早織;加納敏行 | 申請(專利權(quán))人: | 株式會社東芝;東芝解決方案株式會社 | 
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 | 
| 代理公司: | 北京銀龍知識產(chǎn)權(quán)代理有限公司 11243 | 代理人: | 許靜;郭鳳麟 | 
| 地址: | 日本*** | 國省代碼: | 日本;JP | 
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關(guān)鍵詞: | 要點(diǎn) 抽出 裝置 以及 方法 | ||
本申請基于先前在2012年3月21日遞交的日本專利申請2012-064373,并享受其優(yōu)先權(quán)的好處;其全部內(nèi)容被收容于本申請中,以資參考。
技術(shù)領(lǐng)域
本發(fā)明涉及從文檔中抽出要點(diǎn)的要點(diǎn)抽出裝置以及要點(diǎn)抽出方法。
背景技術(shù)
一般,例如在產(chǎn)品支持中心等中,為了分析顧客的要求等,需要確認(rèn)每一個蓄積的詢問文檔(記述來自該顧客的詢問的文檔),掌握該詢問中的重要的內(nèi)容。
因此,考慮例如通過抽出與表示詢問的謂語(例如“教えて”)有關(guān)的句節(jié),自動地抽出詢問文檔中的要點(diǎn)。此外,像表示詢問的謂語那樣,把為了在文檔中抽出要點(diǎn)而成為線索的詞稱為線索詞。
如上所述,通過抽出與表示詢問的謂語那樣的線索詞有關(guān)的句節(jié),能夠抽出詢問文檔中的要點(diǎn)。
但是,在把這樣的方法應(yīng)用在其他的文檔(例如記述對于詢問的回答的回答文檔等)的情況下,不一定能夠抽出適當(dāng)?shù)囊c(diǎn)。
例如,在回答文檔中包含“××すると○○できる?!边@樣的句子的情況下,作為在相應(yīng)回答文檔中的回答的要點(diǎn),希望抽出“××”的部分。
具體說,在包含“プリンタをUSBケ-ブルでパソコンと繫ぐとパソコンのデ-タの印刷ができます。”這樣的句子的回答文檔的情況下,該回答文檔中應(yīng)該抽出的回答的要點(diǎn)是“プリンタをUSBケ-ブルでパソコンと繫ぐ”。
但是,在把上述的回答文檔中的線索詞例如設(shè)為“できる”的情況下,從該回答文檔中抽出的要點(diǎn)成為涉及該線索詞“できる”的句節(jié)“パソコンのデ-タの印刷ができます”,不適當(dāng)。
亦即,如上述僅簡單地抽出涉及線索詞的句節(jié),有時不能抽出適當(dāng)?shù)囊c(diǎn)。
發(fā)明內(nèi)容
本發(fā)明要解決的課題在于,提供能夠從文檔中抽出適當(dāng)?shù)囊c(diǎn)的要點(diǎn)抽出裝置以及要點(diǎn)抽出方法。
本實(shí)施方式的要點(diǎn)抽出裝置具有存儲單元、輸入單元、分析單元、判定單元、和抽出單元。
存儲單元,對應(yīng)地存儲線索詞以和用于從包含該線索詞的句子中抽出要點(diǎn)的抽出規(guī)則,線索詞表示成為用于從構(gòu)成文檔的句子中抽出要點(diǎn)的線索的至少一個單詞。
輸入單元,用于輸入由包含用戶指定的多個單詞的句子構(gòu)成的文檔。
分析單元,通過分析構(gòu)成上述輸入的文檔的句子,生成表示在該句子中包含的多個單詞以及這些單詞間的修飾關(guān)系的結(jié)構(gòu)樹。
判定單元,根據(jù)上述生成的結(jié)構(gòu)樹,判定在上述存儲單元中存儲的線索詞是否包含在構(gòu)成上述輸入的文檔的句子中。
抽出單元,在判定為在上述存儲單元中存儲的線索詞包含在構(gòu)成上述輸入的文檔的句子中的情況下,對于上述生成的結(jié)構(gòu)樹應(yīng)用與該線索詞對應(yīng)在上述存儲單元中存儲的抽出規(guī)則,從該結(jié)構(gòu)樹中抽出表示該句子的要點(diǎn)的部分結(jié)構(gòu)樹。
根據(jù)上述結(jié)構(gòu)的要點(diǎn)抽出裝置,能夠從文檔中抽出適當(dāng)?shù)囊c(diǎn)。
附圖說明
圖1是表示實(shí)施方式的要點(diǎn)抽出裝置的硬件結(jié)構(gòu)的框圖。
圖2是表示圖1表示的要點(diǎn)抽出裝置30的主要功能結(jié)構(gòu)的框圖。
圖3是表示本實(shí)施方式的要點(diǎn)抽出裝置30的處理過程的流程圖。
圖4是表示使用表示兩個節(jié)點(diǎn)以及這些節(jié)點(diǎn)間的修飾關(guān)系的弧線表現(xiàn)的依存結(jié)構(gòu)樹的圖。
圖5是表示“一郎が速いボ-ルを軽々投げた”這樣的句子的依存結(jié)構(gòu)樹的一例的圖。
圖6是表示對應(yīng)關(guān)系存儲部22的數(shù)據(jù)結(jié)構(gòu)的一例的圖。
圖7是表示對應(yīng)關(guān)系存儲部22的數(shù)據(jù)結(jié)構(gòu)的一例的圖。
圖8是表示通過句子結(jié)構(gòu)分析部32生成的第一句“プリンタを買う予定ですが、スキャナ-とコピ-機(jī)の一體型を探しています?!钡囊来娼Y(jié)構(gòu)樹的一例的圖。
圖9是用于具體說明對于第一句的依存結(jié)構(gòu)樹應(yīng)用第一抽出規(guī)則的情況的圖。
圖10是表示從第一句的依存結(jié)構(gòu)樹中抽出的表示第一句的要點(diǎn)的部分結(jié)構(gòu)樹的圖。
圖11是表示通過句子結(jié)構(gòu)分析部32生成的第二句“性能や價格を考えると、別々に買うことをお勧めします。”的依存結(jié)構(gòu)樹的一例的圖。
圖12是用于具體說明對于第二句的依存結(jié)構(gòu)樹應(yīng)用了第一抽出規(guī)則的情況的圖。
圖13是表示從第二句的依存結(jié)構(gòu)樹中抽出的表示第二句的要點(diǎn)的部分結(jié)構(gòu)樹的圖。
圖14是表示通過句子結(jié)構(gòu)分析部32生成的第三句“プリンタをUSBケ-ブルでパソコンと繫ぐとパソコンのデ-タの印刷ができます。”的依存結(jié)構(gòu)樹的一例的圖。
圖15是用于具體說明對于第三句的依存結(jié)構(gòu)樹應(yīng)用了第二抽出規(guī)則的情況的圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于株式會社東芝;東芝解決方案株式會社,未經(jīng)株式會社東芝;東芝解決方案株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310068363.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 接收裝置以及接收方法、以及程序
- 凈水濾芯以及凈水裝置、以及洗漱臺
- 隱匿檢索系統(tǒng)以及公開參數(shù)生成裝置以及加密裝置以及用戶秘密密鑰生成裝置以及查詢發(fā)布裝置以及檢索裝置以及計(jì)算機(jī)程序以及隱匿檢索方法以及公開參數(shù)生成方法以及加密方法以及用戶秘密密鑰生成方法以及查詢發(fā)布方法以及檢索方法
- 編碼方法以及裝置、解碼方法以及裝置
- 編碼方法以及裝置、解碼方法以及裝置
- 圖片顯示方法以及裝置以及移動終端
- ENB以及UEUL發(fā)送以及接收的方法
- X射線探測方法以及裝置以及系統(tǒng)
- 圖書信息錄入方法以及系統(tǒng)以及書架
- 護(hù)耳器以及口罩以及眼鏡





