[發明專利]漢語文本情感數據的組織及提取方法無效
| 申請號: | 200710176410.1 | 申請日: | 2007-10-26 |
| 公開(公告)號: | CN101174272A | 公開(公告)日: | 2008-05-07 |
| 發明(設計)人: | 毛峽;李崢;包海燕 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京慧泉知識產權代理有限公司 | 代理人: | 王順榮;唐愛華 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 漢語 文本 情感 數據 組織 提取 方法 | ||
(一)技術領域:
本發明涉及一種漢語文本情感數據的組織及提取方法,屬于信息技術領域。
(二)背景技術:
人機交互是研究人與計算機之間的信息交換,其模式已從語言命令階段(CUI)、圖像用戶界面(GUI)交互階段發展到自然和諧的感性用戶界面(PUI)交互階段。情感在人類決策、感知、學習以及其它一些類似的行為中發揮著重要作用,因此越來越多的研究者意識到要想真正實現人與計算機之間的和諧感性交互,就要將情感因素融入其中。麻省理工大學的皮卡德(Picard)于1997年提出了情感計算的概念,也就是賦予計算機類似于人類一樣的觀察、理解和生成各種情感特征的能力,最終使計算機像人一樣能進行自然、親切和生動的交互。文本信息是人與計算機交互的常用手段,其中蘊含著豐富的情感信息,對應著人類相應的心理狀態。文本情感提取的研究在情感計算和智能交互領域有著重要意義,它使計算機能夠從文本信息中體會人類的喜怒哀樂并做出恰當的反應,可用于人機對話系統、仿生代理交互系統,還可實現文本到情感語音的合成(Text-to-speech)。
目前的情感文本數據庫大致分為兩類。一類為基于美國心理學家埃克曼(Ekman)提出的6種基本情感(分別為高興、悲傷、驚訝、生氣、嫌惡和害怕)的數據庫。例如,麻省理工大學的文本情感數據庫和英國波恩茅斯大學的文本情感數據庫均包含了上述6種基本情感。而另一類情感文本數據庫基于伊澤德(Izard)所定義的9種情感(分別為生氣、嫌惡、害怕、內疚、好奇、高興、悲傷、害羞和驚訝)的數據庫。例如,日本東京大學所建立的情感文本數據庫包含了上述9種情感。但是,國外的情感文本數據庫不僅包含的情感種類有限,沒有考慮到更加細膩的情感,而且數據庫中的數據都是英文或者日文,國內目前也沒有專門針對漢語的情感文本數據庫,這些都極大的限制了漢語文本情感提取研究的發展。
對漢語文本情感信息的處理是對漢語文本中所蘊含的情感信息進行提取,進而判斷人類相應的心理情緒狀態,如快樂、驚奇、憤怒、害怕和悲傷等。漢語文本情感提取的研究在國內基本還是空白。而國外針對英文文本的情感提取通常是基于關鍵詞定位和基于常識的方法,其所提取的情感種類有待提高。
(三)發明內容:
本發明一種漢語文本情感數據的組織及提取方法,其目的是:①針對國外文本情感數據庫情感種類較少以及國內漢語文本情感數據庫匱乏的現狀,設計基于可擴展標記語言XML(Extensible?Markup?Language)的漢語文本情感標記語言CATML(Chinese?Affective?TextMarkup?Language)組織漢語情感文本數據,提供一個較為全面的漢語文本情感數據庫;②提出了基于此漢語情感文本數據庫的漢語文本情感提取方法,實現了漢語文本情感識別。
本發明一種漢語文本情感數據的組織及提取方法:
其中該漢語文本情感數據的組織方法是:基于可擴展標記語言XML(Extensible?MarkupLanguage)設計漢語文本情感標記語言CATML(Chinese?Affective?Text?Markup?Language)組織漢語情感文本數據,提供一個較為全面的漢語文本情感數據庫,包含情感感嘆詞、情感圖標、情感字符、情感詞匯和修飾語,涉及單一情感30種,混合情感6種。
該漢語文本情感的提取方法是:對待進行情感提取的文本文件進行斷句分詞處理,然后基于漢語文本情感數據庫實現情感提取及所表達情感強度的確定。
漢語文本情感數據設定的單一情感、混合情感說明如下:單一情感包括:高興、嫉妒、幸災樂禍、遺憾、滿意、悲觀、放松、失望、快樂、悲傷、驕傲、害羞、羨慕、責備、自滿、悔恨、感激、生氣、喜歡、厭惡、同情、害怕、為難、發愁、尷尬、贊美、信任、鄙夷、憎恨和希望。混合情感包括:憤怒悲傷、悲傷高興、驚奇高興、驚奇害怕、悲傷憎恨和生氣憎恨。
其中關于漢語文本情感數據的組織方法;其步驟如下:
步驟1:基于可擴展標記語言XML(Extensible?Markup?Language)對漢語文本情感標記語言CATML(Chinese?Affective?Text?Markup?Language)的標簽(包括元素和屬性)進行定義;
步驟2:在標簽<interjection>下加入情感感嘆詞數據,并按照上述的單一情感或混合情感進行分類;
步驟3:在標簽<emoticon>下加入情感圖標數據,并按照上述的單一情感或混合情感進行分類;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710176410.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





