[發明專利]一種基于XML的情感詞詞性標注的方法無效
| 申請號: | 201210057091.3 | 申請日: | 2012-03-06 |
| 公開(公告)號: | CN102646128A | 公開(公告)日: | 2012-08-22 |
| 發明(設計)人: | 毛峽;趙鵬飛 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 xml 情感 詞性 標注 方法 | ||
技術領域
本發明涉及一種詞語標注的方法,尤其是在XML架構下按詞性對情感詞進行標注的方法,屬于自然語言處理與情感計算領域。
背景技術
漢語文本中蘊含著豐富的情感詞匯,研究漢語文本情感,詞匯的情感標注尤為重要。當前的分詞系統能夠有效的將漢語文本按照不同成分進行劃分,如何將這些成分有效的分類標注,對后續的情感計算工作具有重要的意義。
XML是一種可拓展標記語言,用于標記電子文件使其具有結構性的標記語言,可以用來標記數據、定義數據類型,是一種允許用戶對自己的標記語言進行定義的源語言。XML是標準通用標記語言(SGML)的子集,非常適合Web傳輸與程序調用,另外,XML是一種跨平臺的語言,而且所有的面向對象的程序語言都可以支持XML。XML?Schema定義了XML文檔的規范,可以視作XML的約束文檔,使用XML?Schema定義的規范也就是在XML文檔中存儲被標記的情感詞的結構。
在當前的文本標注研究中,多以文本文檔或者表格文檔對分詞后的文本成分進行存儲,結構不清晰,不利于后續程序開發以及情感計算中的調用。因此使用XML對情感詞詞匯的標注方法具有很強的現實意義,利用XML?Schema對XML的約束方法,增強了標注結構的擴展性和規范性。
發明內容
本發明提供了一種基于XML的情感詞詞性標注的方法。
包括以下步驟:
步驟一:根據漢語詞匯詞性的不同制定XML元素標簽;
步驟二:根據制定的詞性標簽的邏輯關系編寫Schema約束文檔;
步驟三:設計表征詞匯情感屬性的參數維度;
步驟四:按照詞匯的詞性將情感詞存儲在所屬標簽下的XML文檔中。
在步驟一中:按照分詞后的詞匯詞性不同,將這些詞匯根據詞性的不同賦予不同的標簽,例如:對于動詞使用<v/>進行標注,名詞使用<n/>進行標注。對于在一種詞性中不同分類的二級詞性,進行標注,例如在形容詞標簽<a/>中定義了<ad/>、<an/>、<ag/>和<al/>四種二級標簽。特別的對于在漢語文本中常見的詞語或者符號進行了單獨的標注,例如<vshi/>和<vyou/>分別作為“是”和“有”的標簽,<vand/>和<vbut/>分別作為兩種連詞并列關系和轉折關系的標簽,<ww/>和<wt/>分別作為“?”和“!”的標簽。具體標注標簽見說明書附圖。
在步驟二中:用Schema語言編寫XML的約束文檔,定義XML的結構規則。根節點定義為<xs:element?name=″情感詞詞性標注規范″/>,用<xs:complexType/>復雜類型定義所有的一級子節點,也就是一級詞性的節點,用<xs:sequence/>約束節點的順序模式,對于包含二級子節點的詞性,用<xs:complexType/>定義二級子節點,節點元素定義格式為<xs:elementname=″″maxOccurs=″unbounded″>,其中″unbounded″表示可以存儲無限個情感詞匯,每一種詞性的最低級詞性標簽的內容為情感詞匯,因此在最低級詞性節點處定義情感詞匯的屬性。
在步驟三中:在設計情感詞屬性形式中,采用三個參數定義一個詞匯的,分別為<xs:attribute?name=″h″/>、<xs:attribute?name=″s″/>、<xs:attribute?name=″v″/>。其中h取值范圍0-360,s和v取值范圍為0-100,每個情感詞的情感值由這三個屬性共同確定。
在步驟四中:根據Schema定義的約束,存儲情感詞匯,例如存儲“高興”,則為:<n?h=20s=90?v=90>高興</n>。
本發明的方法的優點在于,利用XML文檔代替文本文檔或者表格文檔存儲情感詞匯,使情感詞更容易被程序調用以及后續的增改;利用詞性作為情感詞分類的依據,更有效的聯系了分詞系統與標注系統的關系;設計情感詞三維數值屬性,更精確的描述情感詞的情感屬性。
附圖說明
圖1為XML?Schema定義的節點結構圖,其中長方形框內的內容極為節點元素名。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210057091.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種篩板萃取塔
- 下一篇:一種治療艾滋病的中藥組合物





