日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于向量空間模型的文本相似性匹配方法無效

專利信息
申請號: 201210593148.1 申請日: 2012-12-31
公開(公告)號: CN103049569A 公開(公告)日: 2013-04-17
發明(設計)人: 江潮 申請(專利權)人: 武漢傳神信息技術有限公司
主分類號: G06F17/30 分類號: G06F17/30;G06F17/28
代理公司: 暫無信息 代理人: 暫無信息
地址: 430073 湖北省武漢市東湖開發區光谷軟件*** 國省代碼: 湖北;42
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 向量 空間 模型 文本 相似性 匹配 方法
【說明書】:

技術領域

發明涉及一種計算機技術,具體說,涉及一種基于向量空間模型的文本相似性匹配方法。

背景技術

現在一些常用的文本檢索模型,包括基于文字的檢索模型和基于結構的檢索模型。基于文本的檢索模型又包括:向量空間模型、近似模型、概率模型和統計語言檢索模型;基于結構的文本檢索模型又包括:內部結構檢索模型、外部結構檢索模型。

文本的相似度,即兩篇文本之間相似程度的數值度量,取兩篇文本D1、D2,若(D1∩D2)/(D1∪D2)越接近1表示兩篇文本的相似度越高,反之相反。在文本檢索技術中,相似度計算主要用于衡量文本對象之間的相似程度,在數據挖掘、自然語言處理中是一個基礎性計算。其中的關鍵技術主要是兩個部分,對象的特征表示和特征集合之間的相似關系。在信息檢索、網頁判重、推薦系統等,都涉及到對象之間或者對象和對象集合的相似性的計算。針對不同的應用場景,受限于數據規模、時空開銷等的限制,相似度計算方法的選擇又會有所區別和不同。

通常使用的計算相似度的方法是VSM(向量空間模型)。這種模型通過對文本提取關鍵詞,然后進行權值賦值,將文本表示成由權重不同的關鍵詞構成的向量,通過計算兩個文本的向量距離從而得到文本的相似度。

由于關鍵詞很可能存在同義詞、一詞多義等現象,所以用傳統的向量空間模型方法得到的相似度計算結果精度不高,結果往往并不令人滿意;關鍵詞加權算法僅僅是尋求文本和關鍵詞之間的關系,不能橫向地聯系不同文本間關鍵詞之間的關系,給文本檢索帶來了如下問題:

(1)關鍵詞不能準確表達用戶需求。

用戶很難選擇準確的關鍵詞來進行搜索,因為其中涉及到查詢和概念之間的語義映射問題。用戶給出的查詢關鍵詞不能很好地反映用戶的意圖。

(2)關鍵詞不能反映文本內容。

如果關鍵詞外延太大,就很難或者無法檢索到相關文本。

(3)一詞多義現象。

由于關鍵詞匹配技術很難解決一詞多義現象,往往會檢索出大量無關信息。

(4)關鍵詞以同義方式在文中出現。

用戶的查詢關鍵詞有時并不在文中直接出現,而是以同義詞、近義詞或者關鍵詞的其他構詞方式出現,這樣,文本就不能檢索到。當查詢關鍵詞與文本主題詞構成概念上下位關系時,則更加難以檢索到。

發明內容

本發明所解決的技術問題是提供一種基于向量空間模型的文本相似性匹配方法,相對準確反映了文本之間的聯系,這樣可以更加充分地反映文本的相似度。

技術方案如下:

一種基于向量空間模型的文本相似性匹配方法,包括:

提取文本的關鍵詞,對所有關鍵詞進行聚類,生成關鍵詞概念樹;

根據構建的待翻譯文本中關鍵詞的關鍵詞概念樹計算文本的相似性,按相似性的大小得到在翻譯參考文獻庫中匹配的文本。

進一步,所述生成關鍵詞概念樹的步驟包括:

提取待分類文檔和參考庫中的所有關鍵詞,得到關鍵詞集合;

對關鍵詞集合中的關鍵詞進行聚類,把相同概念的關鍵詞聚合為一個概念類集合,根據所述概念類集合生成所述關鍵詞概念樹。

進一步,若關鍵詞ki出現的概率p(ki)>P1;且有,在出現ki的該文本中也出現關鍵詞kj的條件概率p(kj|ki)>P2,則認為關鍵詞kj和ki表達相同概念,P1和P2為設定概率閥值。

進一步,生成所述關鍵詞概念樹的過程具體步驟包括:

提取待分類文檔和參考庫中的所有關鍵詞,得到關鍵詞集合C={k1,k2,…,kn},計算C中每個關鍵詞k在參考庫中出現的概率p(k),即出現關鍵詞k的文本數和集合中文本總數之比;

根據設定閥值過濾關鍵詞,取pmin<p(k)<pmax的關鍵詞,將其作為待合并的集合項,設符合條件的關鍵詞個數為m個,其中pmax和pmin為設定好的高低限閥值;

對過濾后得到的關鍵詞按p(k)進行降序排序,并將每一個關鍵詞作為一個集合,這樣得到初始的m個待合并集合,記為{k1},{k2},….,{km};

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢傳神信息技術有限公司,未經武漢傳神信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201210593148.1/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 精品视频在线一区二区三区| 精品婷婷伊人一区三区三| 国产亚洲精品久久久久秋霞 | 欧美网站一区二区三区| 日韩精品久久一区二区| 日韩精品一区二区三区免费观看| 亚洲国产精品精品| 国产一级一区二区| 国产欧美亚洲精品| 国产欧美视频一区二区| 99国产精品免费| 久久久久亚洲国产精品| 中文字幕a一二三在线| 午夜裸体性播放免费观看| 国产无套精品一区二区| 久爱视频精品| 欧美一区二区三区爽大粗免费| 在线精品国产一区二区三区| 少妇中文字幕乱码亚洲影视| 国产精品久久久久久久综合| 国产电影一区二区三区下载| 国产乱人伦精品一区二区| 日韩中文字幕一区二区在线视频| 欧美一区二区激情三区| 色综合久久精品| 欧美黄色一二三区| 久久精品色欧美aⅴ一区二区| 国产午夜一级片| 欧美日韩激情在线| 欧美日韩一区二区三区四区五区六区| 亚洲欧洲日韩| 99国产精品免费| 玖玖玖国产精品| 青苹果av| 欧美精品日韩| 国产视频精品一区二区三区| 亚洲s码欧洲m码在线观看| 欧美大成色www永久网站婷| 国产精品剧情一区二区三区| 午夜看大片| 99久热精品| 国产免费一区二区三区网站免费 | 中出乱码av亚洲精品久久天堂| 日韩精品一区在线视频| 一本久久精品一区二区| 精品国产鲁一鲁一区二区三区| 国产黄一区二区毛片免下载| 四虎国产精品永久在线| 欧美日韩一区免费| 国产欧美日韩二区| 国产aⅴ精品久久久久久| 午夜老司机电影| 亚洲福利视频一区二区| 一级女性全黄久久生活片免费 | 国产一区二区综合| 狠狠色噜噜狠狠狠狠米奇7777| 国产999精品久久久久久绿帽| 国产精品一二三区视频出来一| 久久影院一区二区| 亚洲精品性| 国产的欧美一区二区三区| 国产欧美亚洲精品| 欧美高清一二三区| 亚洲国产一区二| 国产精品久久久区三区天天噜| 日韩精品中文字幕久久臀| 国产日韩一二三区| 高清国产一区二区三区| 国产一二区精品| 一区二区三区欧美日韩| 国产99久久久久久免费看| 国产精品一二三区视频出来一 | 亚洲少妇一区二区三区| 久久天天躁夜夜躁狠狠躁2022| 亚洲欧美国产中文字幕| 国产欧美一区二区三区免费| 午夜电影一区二区三区| 国产特级淫片免费看| 久久99精品久久久久国产越南 | 精品国产一区二区三区麻豆免费观看完整版 | 99精品黄色| 中文乱码在线视频|