[發明專利]一種基于語義塊的情感特征生成算法無效
| 申請號: | 201010288855.0 | 申請日: | 2010-09-21 |
| 公開(公告)號: | CN102411562A | 公開(公告)日: | 2012-04-11 |
| 發明(設計)人: | 朱儉 | 申請(專利權)人: | 朱儉;北京市通州區科學技術協會;北京千松科技發展有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100089 北京市西三環北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 情感 特征 生成 算法 | ||
所屬技術領域
本發明是一種基于語義塊的情感特征生成算法,屬于中文文本情感分析領域。
背景技術
隨著網絡相關技術的高速發展,互聯網已經逐步成為人們獲取信息的重要來源和表達自己觀點的平臺,迅速增長的網上評論產生大量數據,于是針對特定需求,組織相關數據和獲取有用信息,成為當前信息科學與技術領域面臨的一個重大的挑戰。文本情感分類是指通過挖掘和分析文本中的觀點、意見和看法等主觀信息,對文本的情感傾向做出類別判斷。它可廣泛用于社會輿情分析、產品質量評價、影視評論等方面。
一篇文本表現為一個由文字和標點組成的字符串。字或字符組成詞,詞組成短語,然后再形成句子、段落和篇章。因此對文本情感分析,研究者們一般都從判斷詞語的情感傾向性開始。CN101609459A號發明專利公告公布了一種情感特征詞提取系統,該系統利用tf(詞語在文章中出現的次數)和df(詞語出現在所評論集合的不同評論內容中的次數)等參數的比值來選取一定數目得分較高的詞作為廣義情感特征詞。然后根據語義關系圖中詞的同位詞來建立狹義情感特征詞表。由于該技術依賴于中文分詞技術,這必然存在分詞中的名詞性主體識別、分詞規范不統一等問題,直接影響情感特征的質量。
本發明提出一種基于語義塊的情感特征生成算法。語義塊不一定是字、詞、短語、句子等自然語言單位,它既可以看作語法單位也可是語義單位。通過使用語義塊替代傳統詞典,能夠更加準確的體現文本中的情感特征。
發明內容
本發明的目的是提供一種新的情感特征生成算法,情感特征用語義塊表示,語義塊是根據文本上下文的統計結果,按策略選出最佳拆分結果。
本發明的技術方案如下:
通過后綴樹Suffix-tree(PAT?tree)結構查找獨立的語義單位或語法單位,根據全部文本集合中上下文的統計結果,按策略選出最佳拆分結果。以兩段中文字符串S1、S2為例,查找語義塊操作即為查找S1和S2的最長公共字串。
S1:“第一次去電影院看電影,3D效果不明顯,勝在搞笑。”
S1:“相當幽默的影片,最搞笑的要屬那兩只狐貍。”
如果使用分詞技術:
S1:第一/m次/qv去/vf電影院/n看/v電影/n,/wd?3D/x效果/n不/d明顯/a,/wd勝/v在/p搞/v笑/v。/wj
S2:相當/d幽默/a的/ude1影片/n,/wd最/d搞/v笑/v的/ude1要/v屬/v那/rzv兩/m只/q狐貍/n。/wj
很明顯,將獨立的語義單位拆分開了。如果使用后綴樹來處理這兩段字串。算法簡要描述如下:
將S1和S2拼接作為字符串壓入后綴樹,找到最深的非葉節點。這個深是指從樹根節點所經歷過的字符個數,最深非葉節點所經歷的字符串起來就是最長重復子串。需要找到非葉節點,是因為既然是要找到S1與S2重復的公共部分,當然葉節點個數要>=2。原理是:如果T在S中重復了兩次,則S應有兩個后綴以T為前綴,重復次數就自然統計出來了。
此外,采用Patricia?Tree(PAT?tree)存儲結構來降低存儲空間的復雜度。PAT?tree是后綴樹結構的一種特殊形式,采用半無限長字串(semi-infinite?string)作為字符串的查找結構。簡單來說就是一種壓縮存儲的二叉樹結構,PAT?tree在字符串的子串匹配上有著非常優異的表現。
字符串S1、S2使用語義塊概念來切分獨立的語義單位,如下表示:
S1:第一次去電影院看電影,3D效果不明顯,勝在搞笑。
S2:相當幽默的影片,最搞笑的要屬那兩只狐貍。
本發明具有如下優點:
1.本發明提出情感特征基于語義塊的思想,克服了傳統算法采用中文分詞的缺點,避免了分詞規范不統一、切分歧義消解和未登錄詞的識別問題,算法得到的語義塊是含有獨立的語義或獨立的語法單位。
2.本發明提出的算法簡單易于實現。
3.本發明提出算法獲得的情感特征結果,優于傳統的分詞工具。
附圖說明
圖1是本發明中采用語義塊作為情感特征和中文分詞的取得的特征數量對比
圖2是本發明中采用語義塊作為情感特征和中文分詞的頻率對比
圖3是本發明采用語義塊作為情感特征和中文分詞的曲線圖對比
下面結合附圖和實施例對本發明專利進一步說明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于朱儉;北京市通州區科學技術協會;北京千松科技發展有限公司,未經朱儉;北京市通州區科學技術協會;北京千松科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010288855.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種紅外線LED感應燈
- 下一篇:LED發光模組





