[發明專利]一種計算字符串間相似度的方法及裝置有效
| 申請號: | 201611130125.1 | 申請日: | 2016-12-09 |
| 公開(公告)號: | CN106650803B | 公開(公告)日: | 2019-06-18 |
| 發明(設計)人: | 韋強申;劉鵬 | 申請(專利權)人: | 北京銳安科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F17/27 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 胡彬;鄧猛烈 |
| 地址: | 100044 北京市海淀區西小口*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 計算 字符串 相似 方法 裝置 | ||
本發明實施例公開了一種計算字符串間相似度的方法及裝置。該方法包括:獲取至少兩個字符串的核心詞匯的權重;獲取所述至少兩個字符串的最大公共序列,并根據所述最大公共序列的長度和詞匯確定所述最大公共序列的權重;根據預設常用詞匯的權重表獲取所述至少兩個字符串中的常用詞匯的權重;根據所述核心詞匯的權重、所述最大公共序列的權重和所述常用詞匯的權重獲取所述至少兩個字符串的相似度。本發明加入了句子結構的分析,還加入了詞匯權重信息,作為字符串相似度計算的調和值,由于分詞工具的準確率,分詞結果會產生一些誤差,句子結構分析也會有一定的誤差,經過詞頻權重調和后,計算結果更加準確。
技術領域
本發明實施例涉及計算機的技術領域,尤其涉及一種計算字符串間相似度的方法及裝置。
背景技術
對于中文字符串相似度的計算方法,一般采用英文的字符串相似度計算方法,就是計算兩個字符串中相同字符的個數。采用的方法有:Levenshtein方法即編輯距離計算方法、Jaccard系數計算方法、余弦相似度計算方法、以及Ngram計算方法。
編輯距離計算方法,是計算兩個字符串之間通過將一個字符替換成另一個字符,插入一個字符,刪除一個字符的編輯操作,所需最小的編輯次數,衡量兩個字符串的相似度。編輯距離計算方法的缺點是:不同的語法表示形式,對編輯距離的計算影響較大,計算兩個字符串相似度誤差較大。
Jaccard系數計算方法,是首先對兩個字符串依據一定的規則拆分為多個子串,計算多個子串的交集與并集的比值,衡量兩個字符串的相似度。Jaccard系數計算方法的缺點是:因字符串的切分方法不同,計算字符串的相似度誤差較大。
余弦相似度計算方法,首先對兩個字符串依據一定的規則拆分為多個子串,形成一個子串集合,再依據子串集合將兩個句子轉化為向量,計算兩個向量間的余弦值,衡量兩個字符串的相似度。余弦相似度計算方法的缺點是:因字符串的切分方法不同,計算字符串的相似度誤差較大。
Ngram計算方法,是將兩個字符串拆分為N元組,計算兩個字符串中相同的N元組,衡量兩個字符串的相似度。Ngram計算方法的缺點是:元組的先后順序會影響相似度的計算,計算字符串相似度誤差較大。
發明內容
本發明實施例的目的在于提出一種計算字符串間相似度的方法及裝置,旨在解決如何提高中文字符串相似度計算的準確率。
為達此目的,本發明實施例采用以下技術方案:
第一方面,一種計算字符串間相似度的方法,所述方法包括:
獲取至少兩個字符串的核心詞匯的權重;
獲取所述至少兩個字符串的最大公共序列,并根據所述最大公共序列的長度和詞匯確定所述最大公共序列的權重;
根據預設常用詞匯的權重表獲取所述至少兩個字符串中的常用詞匯的權重;
根據所述核心詞匯的權重、所述最大公共序列的權重和所述常用詞匯的權重獲取所述至少兩個字符串的相似度。
優選地,所述獲取至少兩個字符串的核心詞匯的權重,包括:
根據分詞結果的詞性以及詞匯間的語義關系,獲取至少兩個字符串的詞匯序列中的核心詞匯,所述核心詞匯包括主語人名、機構名、名詞賓語、動詞和地名;
根據預設核心詞匯權重表獲取所述核心詞匯的權重。
優選地,所述獲取所述至少兩個字符串的最大公共序列,包括:
獲取所述至少兩個字符串的分詞結果序列,去除所述分詞結果序列中的標點符號,合并所述分詞結果序列中相同的子序列,得到所述至少兩個字符串的最大公共序列。
優選地,所述根據預設常用詞匯的權重表獲取所述至少兩個字符串中的常用詞匯的權重,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳安科技有限公司,未經北京銳安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611130125.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:被芯(恒溫37℃)
- 下一篇:一種基于深度學習特征的人臉樣本清洗方法及系統





