[發明專利]一種短文本間語義距離的計算機輔助計算方法有效
| 申請號: | 201210045699.4 | 申請日: | 2012-02-24 |
| 公開(公告)號: | CN102622338A | 公開(公告)日: | 2012-08-01 |
| 發明(設計)人: | 楊震;王來濤;賴英旭;高凱明;張龍伯;段立娟;范科峰 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 樓艮基 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 語義 距離 計算機輔助 計算方法 | ||
技術領域
本發明涉及一種新型短文本語義距離計算方法及系統,屬于文字信息處理領域。
背景技術
當前,隨著自主媒體的興起和參與式傳媒環境的發展,網絡傳播內容、傳播方式造成了社會范圍的變革。信息的生產成為以網民為中心的模式,網民不僅有制作和發布信息的能力,而且具有與信息的使用者和閱讀者進行交互的便捷條件,使信息不僅“可讀”,而且“可寫”和“可交互”。因此,通過對網絡上的信息尤其是用戶發布的內容進行分析,可以了解當前社會的熱點話題以及人們對各種社會現象的觀點和立場。
在線評論通常開始于某個公共事件或熱點話題,在表達內容方面有很強的主觀性,能夠反映出公眾對事件的態度。在線評論具有傳播快速、影響廣泛、觀點聚集等特點,對其進行分析研究對于政府及企業都具有重要意義:政府通過對輿論進行監控,可以合理引導輿論,維護社會穩定;企業通過對產品評論進行數據分析,可以掌握產品的最新評論,促進產品更新。因此,分析研究在線評論成為分析網絡輿情的重要方面,引起政府、學術界和產業界的高度重視。
短信、微博、論壇評論和新聞評論等應用所產生的文本,這些文本長度一般比較短,我們稱之為短文本(Short?Text)。針對用戶不斷增長的需求,出現了很多針對短文本的信息過濾系統,包括輿情監測系統、個性化信息推薦系統、產品質量調查系統等。不論是何種系統,都必須解決一個基本的問題,即文本聚類。其基本過程是計算短文本之間的相似度,將相似度高(距離小)的文本聚集到一個主題中。其中文本相似度計算是文本聚類中一個最關鍵的技術問題。由于文本距離與文本相似度在文本計算中屬于同一個概念,數值上二者是相反的關系,本發明在以后論述中不作區別,統稱為文本距離。傳統的短文本距離計算方法多從詞語或句法結構的角度去衡量句子間的距離,如基于單元語義的計算方法、基于編輯距離的計算方法等。基于單元語義的計算方法僅考慮文本的詞語而忽略其組織結構,而基于編輯距離的方法只考慮結構,而忽略詞語的意義,并且對于不同長度的文本計算存在較大誤差。發明人通過綜合考慮短文本間在單元語義和句法結構兩方面上的差別程度,克服了傳統方法在短文本距離計算上的局限性。
發明內容
本發明的目的在于針對網絡上的短文本,提出一種短文本語義距離計算方法與系統。本發明綜合考慮短文本間在句法結構和單元語義兩方面上的差別程度,提出了一種綜合的語義距離計算方法,克服了傳統方法在短文本距離計算上的局限性。
其特征在于,是在計算機中依次按以下步驟實現的:
步驟(1)計算機初始化
設置:ICTCLAS分詞算法模塊和文本距離計算模塊
基于《同義詞詞林擴展版》的漢語語料庫
輸入:以句子形式表述的兩類不同的短文本,所述短文本是指包括短信、微博、論壇評論和新聞評論在內的應用文本中以句子形式出現的在線評論文本的原始數據;
步驟(2)文本預處理
對步驟(1)中的兩類不同的在線評論文本按以下步驟進行預處理,以規范文本數據格式:
步驟(2.1)去除包括<html>、<body>、<div>在內的html網頁標記,提取出html頁面中的評論內容數據;
步驟(2.2)對步驟(2.1)得到的評論內容數據進行變異短文本處理:
所述變異短文本是指用新的符號、口語化詞表達常規詞義的文本,
所述變異短文本處理是指對所述變異短文本中的詞語的拼音、簡寫體、數字及標點符號進行統一規范化處理以及刪除特殊符號,
步驟(2.3)利用所述ICTCLAS分詞算法對經過步驟(2.2)得到的文本進行分詞處理,得到一系列的文本的詞串;
步驟(3)利用所述文本距離計算模塊分別計算兩類所述不同短文本間的句法結構距離和單元語義距離,
步驟(3.1)按以下步驟計算所述兩類不同短文本間的句法結構距離,以度量短文本間在句法結構上的差別程度:
步驟(3.1.1)計算位于所述兩類不同短文本中的詞串W1和詞串W2的詞語相似度矩陣:
將兩類所述不同短文本中的較短文本以較長文本為標準進行語義對齊,所述語義對齊是指通過計算兩類所述不同短文本中任意詞語間的相似度:以所述《同義詞詞林擴展版》中各個以五級結構表達的詞語的8位語義代碼為基礎,計算兩類算數不同短文本中任意兩個詞語的相似度:Sim(A,B),A、B分別表示任意的兩個詞語:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210045699.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:導線接頭
- 下一篇:一種太陽能無線充電電路





