[發明專利]基于神經網絡的中文比較句識別方法及裝置在審
| 申請號: | 201410264137.8 | 申請日: | 2014-06-13 |
| 公開(公告)號: | CN104021115A | 公開(公告)日: | 2014-09-03 |
| 發明(設計)人: | 馮沖;廖純;張辰;楊森 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 神經網絡 中文 比較 識別 方法 裝置 | ||
技術領域
本發明涉及一種中文比較句識別方法,特別涉及一種基于神經網絡的中文比較句識別方法,屬于自然語言處理應用技術領域。
背景技術
每天人們都被形形色色的選擇所包圍。為了做出更好的抉擇,我們往往會選擇拿我們感興趣的物品作比較。同時,伴隨著移動互聯網的蓬勃發展,互聯網逐漸變得更加人性化。在“以用戶為中心,用戶參與”的開放式架構理念的指導下,互聯網用戶由被動地瀏覽互聯網信息逐步向主動創造互聯網信息邁進。互聯網用戶既是網站內容的瀏覽者,也成為了網站內容的制造者。因此,互聯網上產生了大量的用戶制造的評論信息,這些評論信息表達了人們對于諸如產品、事件、人物、機構等主題的看法和情感傾向,如滿意、抱怨、支持、反對和贊揚、批評等。從這些信息中快速、準確地獲取其所包含的情感或者評價信息,可以有效地支持多種實際應用,如:智能導購、有害信息過濾、民意調查等。
然而,對互聯網上的觀點進行監控卻并非易事。網絡上的觀點信息有多種來源,如:網站的帖子、論壇、博客、討論組等,每一種來源背后都存在大量的信息,并且在很多情況下,觀點還隱藏在長長的的文本中。因此,使用人工的方法去尋找相關的文本來源,抽取相關的句子并對其歸納概括,最終以適當的方式組織起來變得非常困難。如今,互聯網的飛速發展使得人們尤為迫切地需要一種自動的挖掘比較觀點、概括比較觀點的技術,比較觀點挖掘應勢而生。
在如今這個大數據時代,我們會從中得到海量的信息,這比傳統的問卷調查式方法要好很多。然而與此同時我們卻又為之困擾,同時處理這么大量的信息會是一件費時費力的事情。因此,我們需要一種比較觀點挖掘系統來幫助我們自動從海量數據中得到兩者(或更多事物)間的比較信息,這是一項有實用意義和學術意義的研究課題。正因如此,設計一種能夠穩定高效識別中文比較句的方法顯得十分的重要。
比較句與比較關系識別的研究尚不系統和成熟,目前還處于起步階段。而中文的句式更加靈活多樣,因而中文比較句的研究相對更加困難。目前識別的思路大多是模板匹配或者將該問題歸類為機器學習問題,利用特征提取并構造分類器將句子劃分為比較句與非比較句兩類。同比較句與比較關系識別相關的處理技術有文本分類、實體抽取、情感分析等。
在以往的研究工作中,前人總結了許多有效的詞語級特征,或詞語搭配特征,但大多數的研究中只考慮這些特征在句子中出現與否或出現次數的多少,很少關注它們出現的位置以及在句子中的作用從而導致錯判。本方法在句法、語義層面進一步挖掘有效信息,在很大程度上提高了中文比較句判定的準確率。
發明內容
本發明的目的是為解決以往在中文比較句識別中不能有效利用句法和語義信息的問題,盡可能發揮不同層級的語義信息特征,提出一種基于神經網絡的中文比較句識別方法。
為實現上述目的,本發明所采用的技術方案如下:
本發明技術方案的思想是首先對語料及其分詞結果進行規范化處理,然后通過基于比較特征詞詞典與句法結構模板、依存關系相結合的方法進行粗粒度提取;最后設計一種類別序列規則(CSR)提取算法,并利用CRF挖掘實體對象信息即語義角色信息,輔以比較特征詞與統計詞特征,利用這四種特征構造BP神經網絡,找到使性能達到最優的特征形式完成細粒度提取。
本發明的具體實施步驟如下:
一種基于神經網絡的中文比較句識別方法,該方法包括以下步驟:
步驟一、語料預處理:對語料集S的每一個句子進行分詞、句法結構分析、依存關系分析和詞性標注、語義角色標注;
步驟二、句法結構模板抽取:將S中每一個句子的句法結構分析樹與句法結構模板進行匹配,如果匹配成功,則判斷其屬于顯性比較句。本步驟中提取得到的顯性比較句的結果記為集合A;
步驟三、依存關系相似度計算:將步驟二中抽取之后的剩余語料集S-A中的每一個句子進行依存關系統計計算,得到相似度s,并將s與預設的閾值v進行比較,如果s>=v,則判斷其屬于隱性比較句;否則,判斷其屬于非比較句。本步驟中提取得到的隱性比較句的結果記為集合B,非比較句的結果記為集合D;
步驟四、BP神經網絡分類:將集合A和集合B作為粗粒度提取結果置于經過訓練的BP神經網絡中進行細粒度提取,得到比較句集合C和非比較句集合E,BP神經網絡的訓練特征為:類別序列規則(Class?Sequential?Rules,CSR)、語義角色標注(Semantic?Role?Labeling,SRL)、比較特征詞(Keyword)以及統計詞特征(Statistical?Word?Feature,SWF)這四種;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410264137.8/2.html,轉載請聲明來源鉆瓜專利網。





