[發明專利]學習裝置、判斷裝置、學習方法和判斷方法有效
| 申請號: | 201110414927.6 | 申請日: | 2011-12-13 |
| 公開(公告)號: | CN102609406A | 公開(公告)日: | 2012-07-25 |
| 發明(設計)人: | 浜田伸一郎 | 申請(專利權)人: | 株式會社東芝;東芝解決方案株式會社 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 永新專利商標代理有限公司 72002 | 代理人: | 楊謙;胡建新 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 學習 裝置 判斷 學習方法 方法 | ||
本申請基于并要求2011年1月18日在先提出的日本專利申請2011-007663的優先權,在此引用其全部內容。
技術領域
本發明的實施方式涉及學習裝置、判斷裝置、學習方法和判斷方法。
背景技術
所述共參照是一種在文章內構成該文章的要素(稱為構成要素)組表示相同實體的語言現象。在該組中,特殊地將位于最后方的構成要素叫做照應詞,將其他構成要素叫做先行詞。將進行找出這種組的處理(稱為共參照分析)的程序(模塊)叫做共參照分析器。作為共參照現象,按照構成要素的類別分有名詞短語共參照、謂語共參照和語句共參照、或橫跨構成要素類別的共參照等。以下為了簡單地進行說明,作為共參照對象而找出的構成要素,設僅對名詞(短語)進行處理。將以名詞短語為基礎的共參照分析器擴展成還能處理其他類別構成要素的器件是很容易的。
共參照分析器一般進行學習處理和判斷處理。在學習處理中,共參照分析器以示出由人工等預先給予了表示是共參照組的標記后的文章的數據(稱為訓練數據)為參考,進行獲得判斷基準的處理,所述判斷基準用于給予表示共參照組的標記群。另一方面,在判斷處理中,共參照分析器對未帶表示共參照組的標記的通常文章(文本)和在該文本內用戶想知道是否處于共參照的關系(共參照關系)的多個名詞短語,適用已在上述學習處理中獲得的判斷基準,進行判斷有無共參照關系的處理。
訓練數據本質上具有在文章中示出名詞短語群來作為成為共參照組的構成要素的標記、和示出它們是否指同一實體的標記。根據它們就能夠確定哪個名詞短語與哪個名詞短語具有對應關系(鏈接)??梢哉f這種訓練數據是用標記直接地表現了共參照現象的數據。
以下示出訓練數據的表現方法的一例。用<>括起來的范圍是作為共參照組來指定的構成要素的名詞短語。將<>叫做共參照要素標記。此外,將[]叫做鏈接標記,將用[]括起來的數字在此叫做鏈接ID。在用共參照要素標記示出的名詞短語群中,具有相同鏈接ID的組可以解釋為處于共參照關系。
“<鮑伯>[1]出現了。<他>[1]是學生?!?/p>
--(9900)
“感受到捕捉<海味類>[2]等<事物>[2]的感性?!???????--(9901)
“與<摩納哥的外交官>[3]會面了。<他>[3]好像很忙?!?--(9902)
共參照分析器使用這樣的訓練數據進行學習處理,獲得能夠對訓練數據文本盡量給予相同標記的判斷基準。此外,在判斷處理中,共參照分析器對未被給予標記的任意文本適用學習處理中獲得的判斷基準來給予標記。作為標記的實例,例如有使用XML(Extensible?Markup?Language:可擴展標記語言)的方法。
可是,在由這樣的訓練數據示出的共參照要素標記,指定了作為成為共參照組的構成要素的名詞短語是什么范圍,即、范圍的成為前方的位置(稱為前方邊界)和成為后方的位置(稱為后方邊界)。例如,以詞素為單位或者以字符為單位指定這樣的位置。例如,在上述(9900)~(9902)的訓練數據的例子中,關于成為先行詞的名詞短語,分別作為包含1個詞素、2個詞素、4個詞素的范圍而指定了前方邊界和后方邊界。即,利用共參照要素標記示出判斷詞素串的作用上的塊(稱為組塊(chunk))的結果,也就是應該將從哪個詞素到哪個詞素的串(稱為詞素串)作為成為共參照組的名詞短語。一般將這樣地進行詞素串的組塊判斷的任務叫做組塊任務。若將對成為共參照組的名詞短語間的對應關系進行判斷的任務叫做狹義的共參照任務,則在進行要適合于這種訓練數據的學習處理時,本質上同時解決了共參照任務和組塊任務(稱為同時學習)。
發明內容
但是,現有的共參照分析器有以下兩個問題。一個是,為了進行同時學習而狹義的共參照任務的性能低下,而且由于組塊任務自身也很難,因此不能發揮出充分的性能,從而有可能兩方面都差。此外,另一個是,在應用中要求的多是由狹義共參照任務輸出的有關鏈接的信息,即使沒有由組塊任務輸出的信息也行。以下,關于各個問題詳細地說明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社東芝;東芝解決方案株式會社,未經株式會社東芝;東芝解決方案株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110414927.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:餐廚垃圾前分選裝置
- 下一篇:一種筑路用的赤泥固化劑及其制備方法





