[發明專利]一種數據驅動的中文詞語義相似度計算方法有效
| 申請號: | 201410033339.1 | 申請日: | 2014-01-23 |
| 公開(公告)號: | CN103761225B | 公開(公告)日: | 2017-03-29 |
| 發明(設計)人: | 馮偉;聶學成;楊昂;黨建武 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 天津市北洋有限責任專利代理事務所12201 | 代理人: | 溫國林 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 驅動 文詞 語義 相似 計算方法 | ||
1.一種數據驅動的中文詞語義相似度計算方法,其特征在于,所述方法包括以下步驟:
(1)文本故事集合的初始化;
(2)建立相關性關系圖模型;
(3)通過tf-idf可分性值對所述相關性關系圖模型進行修剪;
(4)將修剪后的相關性關系圖模型作為Simrank算法輸入,通過Simrank的迭代計算詞語對之間的語義相似度;
(5)以所述語義相似度為核心定義柔性語義相似度度量模型;
(6)基于所述柔性語義相似度度量模型對中文新聞文本進行協同分割。
2.根據權利要求1所述的一種數據驅動的中文詞語義相似度計算方法,其特征在于,所述文本故事集合的初始化的步驟具體為:
1)輸入帶有故事邊界和故事主題標定的文本集合每個主題由m個故事組成,表示第i個主題的第j個故事,n為主題的數量;
2)提取出文本集合C中所有出現的詞,去掉重復組成有順序的詞語集合Vword,提取文本集合C中所有的字組成字集合Vchar,詞語集合Vword與字集合Vchar取并集生成詞典V;
3)以詞語集合Vword中的元素為向量的基,對文本集合C中的每個故事建立詞頻向量模型。
3.根據權利要求2所述的一種數據驅動的中文詞語義相似度計算方法,其特征在于,所述詞頻向量模型的步驟具體為:
將不同長度不同內容的故事表現為維度相同的詞頻向量,詞頻向量的每個元素表示詞語集合Vword中的詞語在故事中出現的頻率。
4.根據權利要求2所述的一種數據驅動的中文詞語義相似度計算方法,其特征在于,所述建立相關性關系圖模型的步驟具體為:
1)建立詞對上下文連接圖模型:
2)建立詞語局部連接圖模型;
3)通過所述詞對上下文連接圖模型和所述詞語局部連接圖模型建立相關性關系圖模型;
所述相關性關系圖模型具體為:G=<V,E,W>
節點集合V=Vword∪Vchar,邊集合E=EC∪EP,邊權重集合W=WC∪WP,其中,EC為詞對上下文連接圖的邊集合;EP為詞語局部連接圖的邊集合;WC為詞對上下文連接圖的邊權重集合;WP為詞語局部連接圖的邊權重集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410033339.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可變換方向的戶外長椅
- 下一篇:一種電子冰膽及其水管連接結構
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





