[發(fā)明專利]一種詞匯義原的自動預測方法及裝置有效
| 申請?zhí)枺?/td> | 201710429027.6 | 申請日: | 2017-06-08 |
| 公開(公告)號: | CN107193806B | 公開(公告)日: | 2019-11-22 |
| 發(fā)明(設計)人: | 孫茂松;謝若冰;袁星馳;劉知遠 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62 |
| 代理公司: | 11002 北京路浩知識產(chǎn)權代理有限公司 | 代理人: | 王瑩<國際申請>=<國際公布>=<進入國 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞匯 備選 向量距離 集合 向量 標注 結果產(chǎn)生 詞匯義 詞向量 自動地 預測 預設 | ||
本發(fā)明實施例公開了一種詞匯義原的自動預測方法及裝置,方法包括:根據(jù)每個預設詞匯的詞向量,計算各未知義原詞匯與每個已知義原詞匯的向量距離;根據(jù)各向量距離和距離閾值,選擇至少一個目標已知義原詞匯作為各未知義原詞匯的備選義原集合;根據(jù)備選義原集合中各目標已知義原詞匯的義原向量,計算得到各未知義原詞匯的各義原的分數(shù);根據(jù)分數(shù)閾值和各義原的分數(shù),得到各未知義原詞匯的第一義原向量。通過向量距離確定各未知義原詞匯的備選義原集合,進一步計算備選義原集合中各義原的分數(shù),并由此得到各未知義原詞匯的第一義原向量,可以自動地對未知義原詞匯進行準確地義原預測,減輕手工標注的壓力,減少由不同人標注對結果產(chǎn)生的可能偏差。
技術領域
本發(fā)明實施例涉及計算機技術領域,具體涉及一種詞匯義原的自動預測方法及裝置。
背景技術
句子是由一個個詞匯組成,來表達不同的意思,而不同的詞匯有它的特殊性也有他們的相似性,HowNet用來刻畫不同詞匯的這些特點。HowNet由人工標注,對大部分常見的詞匯標注了它的義原,而義原相對于詞匯是一個更小的集合,它表示了詞匯更基本的一些意義,不同的義原組合可以表示不同的詞匯,比如:古董店的義原包括:場所,商業(yè),買,賣,珍寶和過去。而古董店的定義則可以由這些義原來刻畫:買賣過去的珍寶的商業(yè)場所就是古董店。義原有很多好的特點,比如根據(jù)兩個詞匯的義原的交集來判斷這兩個詞匯的相似度,可以用于更好的生成詞向量以用于自然語言處理中更多的任務。
雖然義原有很多好的性質,但是義原的標注是件非常費時費力的事情。HowNet已經(jīng)誕生十多年了,最開始是由很多語言專家?guī)ь^標注的,但是隨著信息技術的快速發(fā)展,詞匯的數(shù)量呈爆炸性地增長,而如何高效快速準確地為這些新產(chǎn)生的詞匯標注義原就成了一個不得不解決的問題,亟需一種義原的自動構建模型而不是手工標注,既可以保證義原具有相同的特征,也能夠避免人標注產(chǎn)生的偏差。
發(fā)明內(nèi)容
由于現(xiàn)有技術存在上述問題,本發(fā)明實施例提出一種詞匯義原的自動預測方法及裝置。
第一方面,本發(fā)明實施例提出一種詞匯義原的自動預測方法,包括:
根據(jù)每個預設詞匯的詞向量,計算各未知義原詞匯與每個已知義原詞匯的向量距離;
根據(jù)各向量距離和距離閾值,選擇至少一個目標已知義原詞匯作為各未知義原詞匯的備選義原集合;
根據(jù)備選義原集合中各目標已知義原詞匯的義原向量,計算得到各未知義原詞匯的各義原的分數(shù);
根據(jù)分數(shù)閾值和各義原的分數(shù),得到各未知義原詞匯的第一義原向量;
其中,所述預設詞匯包括已知義原詞匯和未知義原詞匯。
可選地,所述方法還包括:
獲取預設義原,根據(jù)隨機梯度下降法和所述預設義原計算得到每個預設詞匯的詞向量。
可選地,所述根據(jù)分數(shù)閾值和各義原的分數(shù),得到各未知義原詞匯的義原向量之后,還包括:
根據(jù)預設義原向量和未知義原詞匯向量,得到義原詞匯矩陣;
根據(jù)所述義原詞匯矩陣,計算得到所述義原詞匯矩陣的共現(xiàn)矩陣;
根據(jù)隨機梯度下降法分別對所述義原詞匯矩陣和所述共現(xiàn)矩陣進行分解,得到第二義原向量;
根據(jù)所述未知義原詞匯向量和所述第二義原向量,計算得到目標值;
根據(jù)所述目標值和所述第一義原向量,計算得到目標義原向量;
其中,所述義原詞匯矩陣由0和1表示,1表示對應的詞匯包括對應的義原,0表示對應的詞匯不包括對應的義原。
可選地,所述根據(jù)隨機梯度下降法分別對所述義原詞匯矩陣和所述共現(xiàn)矩陣進行分解,得到第二義原向量,具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經(jīng)清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710429027.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





