[發明專利]語句結構向量化裝置、語句結構向量化方法及語句結構向量化程序在審
| 申請號: | 201980086927.2 | 申請日: | 2019-01-31 |
| 公開(公告)號: | CN113330430A | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 伍井啟恭 | 申請(專利權)人: | 三菱電機株式會社 |
| 主分類號: | G06F16/00 | 分類號: | G06F16/00 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 馬建軍;鄧毅 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語句 結構 量化 裝置 方法 程序 | ||
語句結構向量化裝置(100)具有:詞素分析部(110),其對輸入語句進行詞素分析,由此生成多個詞素;依賴分析部(120),其對多個詞素進行依賴分析,由此生成與多個詞素相關的依存結構圖;以及語句結構向量化部(130),其從依存結構圖中提取多個部分結構信息,將與多個部分結構信息對應的詞素串轉換成數值序列,由此生成語句結構向量。
技術領域
本發明涉及語句結構向量化裝置、語句結構向量化方法及語句結構向量化程序。
背景技術
由于萬維網(World Wide Web)的普及擴大,積累有以自然語言記述的大量電子化文本(以下也稱作“文本”)。因此,從積累的文本中找出希望的文本的全文檢索技術、結合記述內容對積累的文本進行分類的文檔分類技術等的重要性不斷提高。例如,在全文檢索技術中,基于輸入的查詢文本(即,提問語句文本)與檢索對象文本之間的內容相似度,決定檢索對象文本的排序(即,位次)。另外,在文檔分類技術中,基于文本間的內容相似度,將各文本分類成多個類別中的任意一個。
為了求出文本間的內容相似度即文本中包含的語句間的語義相似度,已知有從文本中提取被稱作概念向量的特征量的技術。例如,專利文獻1提出有如下系統:對文本進行詞素分析,提取內容詞(即,詞條),并且生成基于詞條的索引,將各詞條作為根據文本內的重要度加權后的詞條向量進行處理,通過對詞條向量進行合成而得到的向量來表現各文本的特征量。在檢索時,使用對加權后的詞條向量進行合成而得到的檢索查詢向量,計算查詢文本與檢索對象文本的相似度。相似度例如是2個向量所成的角的余弦即余弦(cosine)相似度。但是,在該方法中,由于使用通過詞素分析得到的各個詞條來構成向量,因此,存在以下問題:即使是彼此的語義不同的文本,對于內容詞組(Bag-of-Words:BoW,詞袋模型)相同的文本,也判定為相似度高。
為了解決該問題,專利文獻2提出有如下方法:通過對文本的結構進行依賴分析,將文本的結構轉換成帶標簽的順序樹(即,依存結構樹),將該依存結構樹的部分結構作為特征量進行向量化。但是,近年來,已知并列結構等語句的語義結構不能利用依存結構樹來充分地表現。
為了解決該問題,非專利文獻1提出有使用依賴圖結構(dependency graph)來表現語句的語義結構的方法。
現有技術文獻
專利文獻
專利文獻1:日本特開2002-14970號公報
專利文獻2:日本特開2003-271599號公報
非專利文獻
非專利文獻1:Schuster、Sebastian以及另外1名,“Enhanced English UniversalDependencies:An Improved Representation for Natural Language UnderstandingTasks”,LREC Stanford University,ID 779,2016年
非專利文獻2:Marie-Catherine de Marneffe以及另外1名,“Stanford typeddependencies manual”,Revised for the Stanford Parser v.3.7.0,2016年9月
發明內容
發明要解決的課題
然而,在從依賴圖結構中提取作為其部分結構的部分圖的情況下,提取出的部分圖的數量對應于依賴圖結構的大小而呈指數函數地增加,因此,存在用于文本結構向量化的計算量增大的問題。
本發明正是為了解決上述課題而完成的,提供一種能夠以較少的計算量適當地對語句結構進行向量化的語句結構向量化裝置、語句結構向量化方法及語句結構向量化程序。
用于解決課題的手段
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三菱電機株式會社,未經三菱電機株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980086927.2/2.html,轉載請聲明來源鉆瓜專利網。





