日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于向量空間模型的文本相似性匹配方法無效

專利信息
申請號: 201210593148.1 申請日: 2012-12-31
公開(公告)號: CN103049569A 公開(公告)日: 2013-04-17
發明(設計)人: 江潮 申請(專利權)人: 武漢傳神信息技術有限公司
主分類號: G06F17/30 分類號: G06F17/30;G06F17/28
代理公司: 暫無信息 代理人: 暫無信息
地址: 430073 湖北省武漢市東湖開發區光谷軟件*** 國省代碼: 湖北;42
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 向量 空間 模型 文本 相似性 匹配 方法
【權利要求書】:

1.一種基于向量空間模型的文本相似性匹配方法,包括:

提取文本的關鍵詞,對所有關鍵詞進行聚類,生成關鍵詞概念樹;

根據構建的待翻譯文本中關鍵詞的關鍵詞概念樹計算文本的相似性,按相似性的大小得到在翻譯參考文獻庫中匹配的文本。

2.如權利要求1所述的基于向量空間模型的文本相似性匹配方法,其特征在于,所述生成關鍵詞概念樹的步驟包括:

提取待分類文檔和參考庫中的所有關鍵詞,得到關鍵詞集合;

對關鍵詞集合中的關鍵詞進行聚類,把相同概念的關鍵詞聚合為一個概念類集合,根據所述概念類集合生成所述關鍵詞概念樹。

3.如權利要求2所述的基于向量空間模型的文本相似性匹配方法,其特征在于,若關鍵詞ki出現的概率p(ki)>P1;且有,在出現ki的該文本中也出現關鍵詞kj的條件概率p(kj|ki)>P2,則認為關鍵詞kj和ki表達相同概念,P1和P2為設定概率閥值。

4.如權利要求3所述的基于向量空間模型的文本相似性匹配方法,其特征在于,生成所述關鍵詞概念樹的過程具體步驟包括:

提取待分類文檔和參考庫中的所有關鍵詞,得到關鍵詞集合C={k1,k2,…,kn},計算C中每個關鍵詞k在出現的概率,出現關鍵詞k的文本數和文本總數之比記為p(k);

根據設定閥值過濾關鍵詞,取pmin<p(k)<pmax的關鍵詞,將其作為待合并的集合項,設符合條件的關鍵詞個數為m個,其中pmax和pmin為設定好的高低限閥值;

對過濾后得到的關鍵詞按p(k)進行降序排序,并將每一個關鍵詞作為一個集合,這樣得到初始的m個待合并集合,記為{k1},{k2},…,{km};

在這m個關鍵詞中,計算在關鍵詞ki出現的文本中關鍵詞kj出現的概率,記為p(kj|ki),共計個條件概率,(1≤i,j≤m;i≠j);p(kj|ki)=p(kjki)/p(ki),p(kjki)為kj和ki同時出現在同一篇文本中的概率;

合并待合并集合,生成根節點為關鍵詞集合C的關鍵詞概念樹。

5.如權利要求4所述的基于向量空間模型的文本相似性匹配方法,其特征在于,對于待合并的兩個關鍵詞集合C1和C2,合并條件為:存在ki屬于C1,kj屬于C2,且p(ki)>P1,p(kj|ki)>P2,當p(ki)和p(kj|ki)大于所述設定閥值時,關鍵詞ki和kj表達相同概念,滿足其所在的集合的合并條件之一;在合并后的集合中任給一個關鍵詞ki,其與集合中一半以上關鍵詞都滿足條件p(kj|ki)>P2;若兩個集合滿足以上兩個條件,則概念具有很大相似性,屬于可合并的集合,合并后生成上一層概念類集合。

6.如權利要求1所述的基于向量空間模型的文本相似性匹配方法,其特征在于,在翻譯參考文獻庫中查找匹配的文本的過程包括:提取翻譯參考文獻庫內所有文檔的關鍵詞,組成關鍵詞集合;根據所述關鍵詞概念樹的結構,通過改進的文本相似度計算公式,計算待分類文本與參考庫合中每個文本的相似性,按照相似度降序返回結果文本。

7.如權利要求6所述的基于向量空間模型的文本相似性匹配方法,其特征在于,在翻譯參考文獻庫中查找匹配的文本的過程具體步驟包括:

定義H為生成的概念樹的高度,定義depth(k)為節點k在樹中的深度,即為從根節點到該節點所經歷的邊數;

定義com(ki,kj)為離節點ki和kj最近的共同父節點,任兩個節點必有一個共同的父節點即根節點;

任兩個關鍵詞的積的計算公式:ki×kj=depth(com(ki,kj))/H;

設向量A={a1,a2,…,an},B={b1,b2,…,bn},定義向量計算:A*B=Σi=1nΣj=1n(ai×bj);]]>

文本的相似度計算公式為:Sim(d1,d2)=d1*d2d1*d1d2*d2,]]>d1和d2表示文本向量。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢傳神信息技術有限公司,未經武漢傳神信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201210593148.1/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产美女一区二区三区在线观看| 香蕉久久国产| 香蕉免费一区二区三区在线观看| 国产欧美一区二区精品久久| 中文字幕欧美日韩一区| 视频一区二区三区欧美| 亚洲精品suv精品一区二区| 欧美一区二区在线不卡| 亚洲国产精品一区二区久久hs| 国产一级一区二区| 亚洲精品欧美精品日韩精品| 日韩精品久久久久久中文字幕8| 亚洲欧美日韩在线看| 久久国产中文字幕| 国产电影精品一区| 99久久国产免费,99久久国产免费大片| 国产亚洲精品久久久456| 久久影视一区二区| 亚洲国产精品一区在线| 国产一二区精品| 日韩国产不卡| 欧美精品一区二区久久久| 91一区二区三区久久国产乱 | 日韩欧美中文字幕精品| 国产一区在线视频观看| 久久人人爽爽| 欧美网站一区二区三区| 一区二区国产精品| 国产精品偷伦一区二区| 91精品视频在线免费观看| 国产在线一二区| 国产在线不卡一区| 国产女人和拘做受在线视频| 国产精品久久国产精品99| 99热久久精品免费精品| 欧美日韩亚洲另类| 国产精品麻豆一区二区三区| 国产精品v一区二区三区| 窝窝午夜理伦免费影院| 国产男女乱淫视频高清免费| 精品国产一区二区三区高潮视| 护士xxxx18一19| 日韩中文字幕在线一区| 国产精品自产拍在线观看桃花| 综合国产一区| 日韩精品午夜视频| 少妇av一区二区三区| 国产91精品一区| 日韩av在线网址| 欧美三级午夜理伦三级老人| 久久精品亚洲精品国产欧美| 欧美hdxxxx| 99视频国产在线| 国产www亚洲а∨天堂| 91视频一区二区三区| 日本一二三区电影| 欧美乱码精品一区二区三| 精品国产乱码久久久久久久久| 色狠狠色狠狠综合| 狠狠色丁香久久婷婷综| 99re久久精品国产| 国产精品1区二区| 国产精品久久久av久久久| 国产视频一区二区在线| 少妇高潮在线观看| 欧美日韩久久一区| 欧美在线视频一二三区| 亚洲网久久| xxxxhd欧美| 欧美一区二区三区免费在线观看| 国产精品日产欧美久久久久| 99久久婷婷国产亚洲终合精品| 26uuu亚洲国产精品| 91超碰caoporm国产香蕉| 欧美亚洲视频二区| 亚洲神马久久| 亚洲四区在线观看| 麻豆国产一区二区三区 | 97久久国产亚洲精品超碰热| 国产福利一区在线观看| 久久精品视频一区二区| 国产呻吟久久久久久久92|