[發(fā)明專利]分析系統(tǒng)有效
| 申請?zhí)枺?/td> | 201880003912.0 | 申請日: | 2018-05-10 |
| 公開(公告)號: | CN109844742B | 公開(公告)日: | 2020-10-09 |
| 發(fā)明(設計)人: | 橫山淳 | 申請(專利權(quán))人: | 艾梅崔克斯持株公司株式會社 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F17/16;G06F40/242;G06F40/216;G06F16/901;G06K9/00;G06K9/62;G06N20/00 |
| 代理公司: | 北京三友知識產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 于英慧;崔成哲 |
| 地址: | 日本神*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分析 系統(tǒng) | ||
提供利用了能夠分析節(jié)點間復雜關(guān)聯(lián)性的圖表理論的分析方法。本發(fā)明的利用了圖表理論的分析方法包含如下步驟:根據(jù)字典數(shù)據(jù)計算表示節(jié)點間的關(guān)聯(lián)性的N維矢量;以及制成由計算出的N維矢量進行矢量化后的圖表數(shù)據(jù)。
技術(shù)領(lǐng)域
本發(fā)明涉及利用了圖表理論的分析方法,涉及根據(jù)圖表理論來分析多義或復雜的關(guān)聯(lián)性的方法。
背景技術(shù)
作為用于提取用戶的偏好的方法,有從作為分析對象的文章數(shù)據(jù)中提取用戶感興趣的單詞等的方法。例如,專利文獻1公開了從多個用戶制成的文章中統(tǒng)一地提取表示偏好的數(shù)據(jù)的方法。另外,專利文獻2公開了如下方法:利用單詞彼此意思越近則單詞彼此的距離越近的語義空間,根據(jù)多個單詞在語義空間中的分布來估計表示對象的概率分布,并計算相似度。
現(xiàn)有技術(shù)文獻
專利文獻
專利文獻1:日本特開2017-27168號公報
專利文獻2:日本特開2017-27106號公報
發(fā)明內(nèi)容
發(fā)明要解決的課題
作為自然語言的分析方法,有預先定義要評價的單詞,將有無其出現(xiàn)作為數(shù)據(jù)的“詞袋(Bag of Words)”這樣的方法。該方法由于要判斷有無預先定義的單詞的出現(xiàn),因此無法處理沒有定義的單詞,另外,無法考慮語序等。例如,將圖1所示的“這是一支筆(Thisis a pen)”的文本數(shù)據(jù)按每個單詞切分,如果“這個(this)”是被定義的單詞,生成表示其命中的數(shù)據(jù)“1”。
另外,有將文本數(shù)據(jù)按每N個字符劃分(N為1以上的整數(shù)),將有無它們的出現(xiàn)作為數(shù)據(jù)的“N元模型(N-gram)”這樣的自然語言的分析方法。例如,在用2元模型分析圖1所示的“這是一支筆(This is a pen)”的情況下,該文本數(shù)據(jù)像“Th”、“hi”、“is”那樣按每2個字符被切分,生成表示它們命中的數(shù)據(jù)“1”。
并且,有使用機器學習技術(shù)對單詞進行矢量化的分析方法。例如,可以將圖1所示的“這是一支筆(This is a pen)”的單詞與字典進行比較,用矢量表示單詞間的語義上的相似關(guān)系。這樣的單詞的矢量化是反映了單詞的語義特征的語義矢量或者分布表示,可以通過實施詞矢量(word2vec)那樣的技術(shù)來生成。作為詞矢量的特征,(1)相似的單詞成為相似的矢量,(2)矢量成分具有意義,(3)能夠進行矢量彼此的運算。例如,可以進行“國王-男人+女人=女王”這樣的運算。另外,除了詞矢量這樣的將單詞矢量化的方法之外,還有將文檔、產(chǎn)品、提問等矢量化的sent2vec、product2vec、query2vec、med2vec等。
另外,作為數(shù)據(jù)結(jié)構(gòu)的分析方法,公知有圖表理論。圖表理論是由節(jié)點(頂點)和邊緣(邊)的集合構(gòu)成的圖表,通過該圖表能夠表示各種事件的關(guān)聯(lián)性。例如,如圖2的(A)所示,節(jié)點A、B、C、D通過各邊緣而連接,邊緣的方向表示節(jié)點間的關(guān)聯(lián)性的方向。將該圖表數(shù)據(jù)化后的結(jié)果如圖2的(B)所示。圖3所示的加權(quán)圖表理論是對邊緣進行了加權(quán)的理論,即對邊緣進行了定量化的理論。例如,表示從節(jié)點A向節(jié)點B的關(guān)聯(lián)性的權(quán)重WAB用0.8表示,表示從節(jié)點B向節(jié)點C的關(guān)聯(lián)性的權(quán)重WBC用0.2表示。
圖表理論和加權(quán)圖表理論僅能夠用有無邊緣或一個值(標量)唯一地表現(xiàn)節(jié)點間的關(guān)系,因此缺乏節(jié)點間的關(guān)系的記述性。很難表現(xiàn)節(jié)點間的多義性關(guān)系或復雜的關(guān)系。
本發(fā)明是為了解決這樣的以往的課題而提出的,其目的在于提供一種分析方法,該分析方法利用了能夠分析復雜的關(guān)聯(lián)性的圖表理論。
用于解決課題的手段
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于艾梅崔克斯持株公司株式會社,未經(jīng)艾梅崔克斯持株公司株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880003912.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:在自動聊天中生成響應
- 下一篇:在自動聊天中生成響應





