日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種計算字符串間相似度的方法及裝置有效

專利信息
申請號: 201611130125.1 申請日: 2016-12-09
公開(公告)號: CN106650803B 公開(公告)日: 2019-06-18
發明(設計)人: 韋強申;劉鵬 申請(專利權)人: 北京銳安科技有限公司
主分類號: G06K9/62 分類號: G06K9/62;G06F17/27
代理公司: 北京品源專利代理有限公司 11332 代理人: 胡彬;鄧猛烈
地址: 100044 北京市海淀區西小口*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 計算 字符串 相似 方法 裝置
【說明書】:

發明實施例公開了一種計算字符串間相似度的方法及裝置。該方法包括:獲取至少兩個字符串的核心詞匯的權重;獲取所述至少兩個字符串的最大公共序列,并根據所述最大公共序列的長度和詞匯確定所述最大公共序列的權重;根據預設常用詞匯的權重表獲取所述至少兩個字符串中的常用詞匯的權重;根據所述核心詞匯的權重、所述最大公共序列的權重和所述常用詞匯的權重獲取所述至少兩個字符串的相似度。本發明加入了句子結構的分析,還加入了詞匯權重信息,作為字符串相似度計算的調和值,由于分詞工具的準確率,分詞結果會產生一些誤差,句子結構分析也會有一定的誤差,經過詞頻權重調和后,計算結果更加準確。

技術領域

本發明實施例涉及計算機的技術領域,尤其涉及一種計算字符串間相似度的方法及裝置。

背景技術

對于中文字符串相似度的計算方法,一般采用英文的字符串相似度計算方法,就是計算兩個字符串中相同字符的個數。采用的方法有:Levenshtein方法即編輯距離計算方法、Jaccard系數計算方法、余弦相似度計算方法、以及Ngram計算方法。

編輯距離計算方法,是計算兩個字符串之間通過將一個字符替換成另一個字符,插入一個字符,刪除一個字符的編輯操作,所需最小的編輯次數,衡量兩個字符串的相似度。編輯距離計算方法的缺點是:不同的語法表示形式,對編輯距離的計算影響較大,計算兩個字符串相似度誤差較大。

Jaccard系數計算方法,是首先對兩個字符串依據一定的規則拆分為多個子串,計算多個子串的交集與并集的比值,衡量兩個字符串的相似度。Jaccard系數計算方法的缺點是:因字符串的切分方法不同,計算字符串的相似度誤差較大。

余弦相似度計算方法,首先對兩個字符串依據一定的規則拆分為多個子串,形成一個子串集合,再依據子串集合將兩個句子轉化為向量,計算兩個向量間的余弦值,衡量兩個字符串的相似度。余弦相似度計算方法的缺點是:因字符串的切分方法不同,計算字符串的相似度誤差較大。

Ngram計算方法,是將兩個字符串拆分為N元組,計算兩個字符串中相同的N元組,衡量兩個字符串的相似度。Ngram計算方法的缺點是:元組的先后順序會影響相似度的計算,計算字符串相似度誤差較大。

發明內容

本發明實施例的目的在于提出一種計算字符串間相似度的方法及裝置,旨在解決如何提高中文字符串相似度計算的準確率。

為達此目的,本發明實施例采用以下技術方案:

第一方面,一種計算字符串間相似度的方法,所述方法包括:

獲取至少兩個字符串的核心詞匯的權重;

獲取所述至少兩個字符串的最大公共序列,并根據所述最大公共序列的長度和詞匯確定所述最大公共序列的權重;

根據預設常用詞匯的權重表獲取所述至少兩個字符串中的常用詞匯的權重;

根據所述核心詞匯的權重、所述最大公共序列的權重和所述常用詞匯的權重獲取所述至少兩個字符串的相似度。

優選地,所述獲取至少兩個字符串的核心詞匯的權重,包括:

根據分詞結果的詞性以及詞匯間的語義關系,獲取至少兩個字符串的詞匯序列中的核心詞匯,所述核心詞匯包括主語人名、機構名、名詞賓語、動詞和地名;

根據預設核心詞匯權重表獲取所述核心詞匯的權重。

優選地,所述獲取所述至少兩個字符串的最大公共序列,包括:

獲取所述至少兩個字符串的分詞結果序列,去除所述分詞結果序列中的標點符號,合并所述分詞結果序列中相同的子序列,得到所述至少兩個字符串的最大公共序列。

優選地,所述根據預設常用詞匯的權重表獲取所述至少兩個字符串中的常用詞匯的權重,包括:

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳安科技有限公司,未經北京銳安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611130125.1/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 精品一区二区超碰久久久| 国产中文字幕91| 久久影院一区二区| 欧美一区二区三区不卡视频| 久久精品国语| 91精品国模一区二区三区| 精品国产乱码久久久久久免费| 国产999久久久| 欧美亚洲视频一区二区| 精品一区二区在线视频| 亚洲精品乱码久久久久久国产主播| 色综合久久久| 午夜影院一区二区| 国产精品对白刺激在线观看| 国产精品乱综合在线| 国产91一区二区在线观看| 久久国产激情视频| 亚洲精品久久久久中文第一暮| 久久国产欧美一区二区免费| 欧美日韩国产在线一区二区三区| 亚洲国产欧美一区二区三区丁香婷| 国产精品一区二区6| 在线国产91| 国产一区二区精品在线| 亚洲欧美日韩综合在线| 欧美一区二区三区不卡视频| 国产一区二区大片| 国产精品久久久久久久久久久久久久久久 | 欧美午夜精品一区二区三区| 亚洲1区在线观看| 日本一区二区三区中文字幕| 91精品久久久久久久久久| 91视频国产一区| 毛片大全免费看| 99精品免费在线视频| 日本一区中文字幕| 国产精品一级在线| 欧美日本91精品久久久久| 亚洲欧美日韩三区| 日本一二三四区视频| 精品一区欧美| 国产精品综合在线| 国内久久精品视频| 日韩av一二三四区| 久久97国产| 久久精品国产综合| 国产高清不卡一区| 亚洲精品日韩精品| 欧美在线视频精品| 久久99国产综合精品| 欧美激情精品一区| 久久国产欧美一区二区三区免费| 欧美日韩国产区| 中文文精品字幕一区二区| 在线国产一区二区三区| 国产伦精品一区二区三区免费下载| 在线亚洲精品| 激情久久一区二区三区| 国产免费一区二区三区网站免费 | 久久一区二区精品| 免费午夜片| 久久国产精品久久久久久电车| 狠狠色很很在鲁视频| 欧美日韩国产在线一区二区三区| 国产一级一区二区| av午夜在线观看| 久久夜靖品2区| 国产欧美一区二区精品性色超碰| 国产91免费观看| 久久99精品一区二区三区| 欧美777精品久久久久网| 国产精品一区亚洲二区日本三区| 麻豆精品国产入口| 午夜激情在线| 国产99久久久精品视频| 97视频久久久| 中文字幕日韩精品在线| 日本一区午夜艳熟免费| 国产另类一区| 蜜臀久久99精品久久久| 日本一区二区三区中文字幕 | 国产精品一区二区av日韩在线|