[發明專利]一種近義詞的獲取方法及系統有效
| 申請號: | 201711453916.2 | 申請日: | 2017-12-28 |
| 公開(公告)號: | CN108153735B | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 謝忠玉;鮑新平;沈一 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/289;G06F40/247 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 近義詞 獲取 方法 系統 | ||
本發明公開了一種近義詞的獲取方法及系統,通過確定指定評價詞與指定評價對象在文本中的共現頻率,構建共現詞矩陣,對共現詞矩陣中的多個評價詞進行降維處理,得到評價詞向量,通過第一相似度計算方式計算評價詞向量的第一相似度,確定與指定評價詞相似度高于預定數值的候選評價詞集合,通過第二相似度計算方式對候選評價詞集合進行相似度排序,得到相似度排序結果,通過相似度排序結果,以及候選評價詞集合與指定評價詞的詞性是否相同的判斷結果來確定指定評價詞的詞義。本方案通過兩次相似性計算,提高了確定的近義詞的精度,同時,通過判斷詞性是否相同來確定近義詞,避免了現有技術中可能出現的詞性相反卻確定為近義詞的情況,準確率提高。
技術領域
本發明涉及網絡數據處理技術領域,尤其涉及一種近義詞的獲取方法及系統。
背景技術
近年來,隨著微博等用戶自媒體的爆炸式增長,在網絡平臺上發表觀點、評論的用戶群體越來越龐大,利用網絡挖掘網民意見變得可行。
其中,在挖掘網民意見所討論的對象的評價詞時,不同用戶可能通過不同的詞表達同一個意見,例如:針對某一個明星的評價詞:帥、帥炸,通過不同的詞表達該明星帥的意思。
然而,目前,確定不同的詞是否表達同一個意思,通常是基于詞共現的方式確定兩個不同的詞是否為關鍵詞,即首先確定針對一個評價對象的一個評價詞,然后找出與該評價對象及該評價詞共現的詞有哪些,確定高頻共現詞為候選詞,從候選詞中選取相似性最高的為近義詞。
然而,采用這種方式,其精確度較低,例如:有時候共現詞在詞性上可能不對等,甚至詞義相反,這就降低了選取的近義詞的準確度。
發明內容
有鑒于此,本發明提供一種近義詞獲取方法及系統,以解決現有技術中基于詞共現的方式確定近義詞,準確度較低的問題,其具體方案如下:
一種近義詞的獲取方法,包括:
確定指定評價詞與指定評價對象在文本中的共現頻率;
構建共現詞矩陣,所述共現詞矩陣包括:多個評價對象,多個評價詞,以及所述多個評價對象中每個所述評價對象與所述多個評價詞中每個所述評價詞的共現頻率,其中,所述多個評價對象中至少包括所述指定評價對象,所述多個評價詞中至少包括所述指定評價詞;
對所述共現詞矩陣中的所述多個評價詞進行降維處理,得到評價詞向量;
通過第一相似度計算方式計算所述評價詞向量的第一相似度,確定與所述指定評價詞相似度高于預定數值的候選評價詞集合;
通過第二相似度計算方式對所述候選評價詞集合進行相似度排序,得到相似度排序結果,通過所述相似度排序結果,以及所述候選評價詞集合與所述指定評價詞的詞性是否相同的判斷結果確定所述指定評價詞的近義詞。
進一步的,所述確定指定評價詞與指定評價對象在文本中的共現頻率,包括:
對包括指定評價對象及指定評價詞的文本進行分詞處理;
確定所述文本中指定評價對象在指定評價詞預定范圍內的共現頻率。
進一步的,所述確定所述文本中指定評價對象在指定評價詞預定范圍內的共現頻率,包括:
當所述指定評價對象出現在與所述指定評價詞相距在預定數量之內的第一評價對象集合中時,確定所述指定評價對象在指定評價詞預定范圍內;
確定所述文本中指定評價對象在指定評價詞預定范圍內的共現頻率。
進一步的,所述確定與所述指定評價詞相似度高于預定數值的候選評價詞集合,包括:
從與所述指定評價詞相似度高于預定數值的多個評價詞中確定指定數量的評價詞作為候選評價詞集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711453916.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文本處理方法及裝置
- 下一篇:一種基于向量空間模型的關系詞映射方法





