[發明專利]一種針對短文本的傾向性分析的系統與方法有效
| 申請號: | 201110438138.6 | 申請日: | 2011-12-23 |
| 公開(公告)號: | CN102541840B | 公開(公告)日: | 2018-08-10 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 中科鼎富(北京)科技發展有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 江崇玉 |
| 地址: | 100101 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 文本 傾向性 分析 系統 方法 | ||
一種利用中文信息語義處理技術,分析短文本中的傾向性的系統與方法。本發明所述的系統包括3個部分:用戶輸入模塊101、傾向性識別模塊102、傾向性輸出模塊103。所述的方法包括兩部分,識別部分和傾向性知識庫。識別部分包括4個步驟:對象檢索111、傾向性特征識別112、句子傾向性識別113、文本傾向性識別114。傾向性知識庫包括詞語傾向性庫122和領域傾向性模式庫123。領域傾向性模式庫123,以領域為單位,給出整個領域的傾向性表達的語義模式,語義模式表達采用格式為“語義屬性+屬性值=>傾向性”的格式。句子傾向性識別模塊112對輸入的句子進行語義結構分析,分析出句子的語義結構,在語義結構基礎上,給出傾向性數值化后的集合。文本傾向性識別113把所有句子的結果進行累加計算,并給出最后的傾向性值。
本發明涉及信息的加工分析技術,更具體地說,涉及一種利用中文信息處理技術分析短文本內容中所表達的傾向性的系統與方法。
隨著互聯網的發展,互聯網上出現了越來越多的用戶原創內容(User GeneratedContent),BBS論壇,特別是微博出現以后,互聯網上大量的UGC內容都是短文本的(微博限制字數在140個以內),用戶在短文本的表達時,常常旗幟鮮明的表達自己的傾向性(對商品的喜好,對事件的態度等),這種傾向性對互聯網信息監測、信息的加工分析意義重大。
文本的傾向性分析,比較常用的方法是采用統計方法,對文本中出現的傾向性詞語進行統計分析,然后給出出現頻度大的傾向性作為文本的傾向性。比較經典的算法是PMIIR(Point Mutual Information Information Retrieval)算法,這種處理方法對新聞等長文本有效,針對短文本,由于文本長度較短,傾向性詞語經常出現的次數不多,采用統計方法往往無法得到很好的結果。
針對短文本的傾向性分析,需要從語言本身出現,分析文本中所表達的重點是什么,對每個表達對象的傾向性等語義關系,在這些語義分析的基礎上,進行傾向性分析,才能得到比較準確的結果。
本發明提供了一種利用中文信息語義處理技術,分析短文本中的傾向性的系統與方法。
本發明所述的系統包括3個部分:
模塊101:用戶輸入模塊,用于用戶輸入對象,作為傾向性分析的對象,傾向性的結果表示的是作者對這個對象的傾向性。同時,用戶需要輸入待處理短文本的領域名稱。用戶輸入以XML格式給出,用戶輸入的對象可以有多個。輸入的XML格式如下:
<input>
<domain>領域名</domain>
<object>對象關鍵詞</object>
……
<object>對象關鍵詞</object>
</input>
模塊102:傾向性分析模塊,用于分析短文本中,對101用戶輸入的對象的傾向性。
模塊103:傾向性輸出,輸出短文本中所給出的傾向性結果。輸出結果以XML形式給出。針對用戶輸入的一個或多個對象,給出一個或多個結果。輸出的XML格式如下:
<output>
<result>
<object>對象關鍵詞</object>
<qxx>傾向性值</qxx>
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科鼎富(北京)科技發展有限公司,未經中科鼎富(北京)科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110438138.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:物體轉動慣量測量裝置
- 下一篇:一種自鎖壓力信號器





