[發(fā)明專利]一種同義詞挖掘方法和裝置有效
| 申請?zhí)枺?/td> | 201611233743.9 | 申請日: | 2016-12-28 |
| 公開(公告)號: | CN106649783B | 公開(公告)日: | 2022-12-06 |
| 發(fā)明(設(shè)計)人: | 謝瑜;張昊;朱頻頻 | 申請(專利權(quán))人: | 上海智臻智能網(wǎng)絡(luò)科技股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/247;G06F40/279;G06F40/30 |
| 代理公司: | 工業(yè)和信息化部電子專利中心 11010 | 代理人: | 齊潔茹 |
| 地址: | 201803 上海市嘉*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 同義詞 挖掘 方法 裝置 | ||
本發(fā)明公開了一種同義詞挖掘方法和裝置,所述方法包括:對獲取的語料數(shù)據(jù)進行分詞處理,得到多個單獨詞;計算所述單獨詞的詞向量;根據(jù)所述詞向量對所述單獨詞進行聚類處理,得到同義詞集。本發(fā)明使用詞向量的方法來表征詞的含義,然后,利用聚類算法對得到的詞向量進行語義聚類,能夠有效的實現(xiàn)廣義同義詞集的挖掘,為自然語言處理中解決同義詞挖掘的難題提供新的思路和方法。并且,當(dāng)將挖掘的同義詞集應(yīng)用于自然語言處理領(lǐng)域時,可以提高知識點過濾任務(wù)、關(guān)鍵詞提取任務(wù)、文本分類任務(wù)、語義聚類任務(wù)等的準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種同義詞挖掘方法和裝置。
背景技術(shù)
多詞同義和一詞多義是語言中廣泛存在的現(xiàn)象,例如“程序”既可以是“手續(xù)”的同義詞,也可以是“代碼”(在計算機領(lǐng)域)的同義詞,這就給自然語言處理帶來很大的困難。例如,智能問答知識庫中包括了多個知識點,當(dāng)需要根據(jù)特征詞進行知識點過濾時,輸入的特征詞是否全面,對過濾結(jié)果的準(zhǔn)確性和全面性都起著非常重要的作用。而當(dāng)某特征詞存在同義詞時,如果只輸入該特征詞不考慮其同義詞,必然會影響過濾結(jié)果。所以,如何進行同義詞挖掘,以將挖掘的同義詞應(yīng)用于所需的各個領(lǐng)域,成為本發(fā)明所要解決的技術(shù)問題。
發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種解決上述問題的同義詞挖掘方法和裝置。
依據(jù)本發(fā)明的一個方面,提供一種同義詞挖掘方法,包括:
對獲取的語料數(shù)據(jù)進行分詞處理,得到多個單獨詞;
計算所述單獨詞的詞向量;
根據(jù)所述詞向量對所述單獨詞進行聚類處理,得到同義詞集。
依據(jù)本發(fā)明的另一個方面,還提供一種同義詞挖掘裝置,包括:
分詞模塊,用于對獲取的語料數(shù)據(jù)進行分詞處理,得到多個單獨詞;
向量計算模塊,用于計算所述單獨詞的詞向量;
聚類處理模塊,用于根據(jù)所述詞向量對所述單獨詞進行聚類處理,得到同義詞集。
本發(fā)明有益效果如下:
本發(fā)明使用詞向量的方法來表征詞的含義,然后,利用聚類算法對得到的詞向量進行語義聚類,能夠有效的實現(xiàn)廣義同義詞集的挖掘,為自然語言處理中解決同義詞挖掘的難題提供新的思路和方法。并且,當(dāng)將挖掘的同義詞集應(yīng)用于自然語言處理領(lǐng)域時,可以提高知識點過濾任務(wù)、關(guān)鍵詞提取任務(wù)、文本分類任務(wù)、語義聚類任務(wù)等的準(zhǔn)確性。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。
附圖說明
通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1為本發(fā)明第一實施例提供的一種同義詞挖掘方法的流程圖;
圖2為本發(fā)明第二實施例提供的一種同義詞挖掘方法的流程圖;
圖3為本發(fā)明第二實施例提供的一種同義詞挖掘方法的又一流程圖;
圖4為本發(fā)明第三實施例提供的一種同義詞挖掘裝置的結(jié)構(gòu)框圖。
具體實施方式
下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海智臻智能網(wǎng)絡(luò)科技股份有限公司,未經(jīng)上海智臻智能網(wǎng)絡(luò)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611233743.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





