[發(fā)明專利]一種基于句法謂詞聚類的中文篇章主題表現(xiàn)力分析方法有效
| 申請?zhí)枺?/td> | 201810166074.0 | 申請日: | 2018-02-28 |
| 公開(公告)號: | CN108460018B | 公開(公告)日: | 2020-11-06 |
| 發(fā)明(設計)人: | 周建設;張文彥;張凱;史金生;蔡天健;張龍春 | 申請(專利權)人: | 首都師范大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/284 |
| 代理公司: | 長沙智德知識產權代理事務所(普通合伙) 43207 | 代理人: | 陳銘浩 |
| 地址: | 100089 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 句法 謂詞 中文 篇章 主題 表現(xiàn)力 分析 方法 | ||
本發(fā)明提供了一種基于句法謂詞聚類的中文篇章主題表現(xiàn)力分析方法,屬于自然語言處理應用技術領域。包括以下步驟:首先獲取待分析的目標篇章,將每一篇章進行異常過濾后分別進行段落劃分和子句劃分并數(shù)據(jù)化標記,然后進行句法謂詞提取和有效句法謂詞篩選并均進行編碼式標記,再根據(jù)篩選獲得的有效句法謂詞獲取句法謂詞聚類,并對同聚類的句法謂詞賦予相關編碼,從而根據(jù)方程得出主題表現(xiàn)力值并完成計算和分析工作。本發(fā)明的分析方法,可對篇章中的句法謂詞進行有效提取和聚類,并快速得出句法謂詞聚類主題表現(xiàn)力值,所得值可作為篇章主題表現(xiàn)力的部分支撐數(shù)據(jù),可進一步提高記敘文類的中文篇章主題聚合度評價的精準性。
技術領域
本發(fā)明涉及自然語言處理應用技術領域,具體涉及一種基于句法謂詞聚類的中文篇章主題表現(xiàn)力分析方法。
背景技術
句法謂詞,顧名思義,指的是擔任句法成分的謂詞,往往由動詞和形容詞充當(劉欽榮,2007)。句法謂詞指的是現(xiàn)代漢語中的謂語中心語。語義計算可以通過語義確定外延,再對外延做相關計算。句法謂詞也不例外。句法謂詞主要有主語依存性、賓語依存性、語義上下位聚合和多種語義類別等四大語義特征。和其他句法成分相比,句法謂詞是表達事件或狀態(tài)的重要句法成分。人們對同一事件或狀態(tài)可以有多種不同的關注視角,例如事件的發(fā)展階段、事件或狀態(tài)的意義、影響等等,都會在句法謂詞中有所體現(xiàn)。就句法結構的角度而言,謂語中除去了所包含的賓語、工具、時間等偏離主題聚合度要求的冗余信息成分,即為句法謂詞。
周建設(2012)指出,面向自然語言處理的人工分析,語言學家的核心工作之一是建設“語法語義網絡”。他隨后又提出了以主題聚合度為核心概念的主題、主題表現(xiàn)力等系列概念。主題聚合度是指篇章中的語言形式所展示出主題的外延之間的緊密程度。主題聚合度是篇章主題評價的綜合指標,通過分析多種主題表現(xiàn)力來共同完成。主題聚合度評價的維度分為篇章級、段落級、句群級、復句級和詞語級等等級。主題聚合度的提出,從人類認知角度說,旨在更多了解腦的神經機制運作方式解決人的語言認知困惑;從人工角度說,旨在借助形式的技術手段縮短人機交互的語義理解隔閡。主題聚合度分析的設計目標,在于用語言的手段實現(xiàn)篇章理解和評判的自動化;主題聚合度的分析價值,在于為作文提供科學、準確、快速、規(guī)范的評價核心指標,為提高機器的語義理解能力服務。
主題表現(xiàn)力是實現(xiàn)主題聚合度評價的重要語義指標之一,是指語言符號載體與主題表現(xiàn)之間的語義關系。句法謂詞的主題表現(xiàn)力則是指句法謂詞與篇章主題之間的語義表現(xiàn)關系。主題表現(xiàn)力的判定基于千變萬化的語義關系,想要快速準確地識別出具體篇章的主題表現(xiàn)力效果,必須細化篇章的類型,從較為同質的篇章材料中總結該類篇章的主題表現(xiàn)力的規(guī)律,并從不同的篇章類型中不斷獲得不同的規(guī)律。
句法謂詞和動詞存在語法和語義上的密切關聯(lián)。不可否認的是,盡管名詞間語義關系的研究已經取得豐碩成果,但關于動詞語義的理論研究和數(shù)據(jù)積累還是相當稀疏。WordNet作為自然語言處理中較早開發(fā)的涉及動詞的語義詞典,為了將動詞詞庫組織成一個關系網絡,其處理動詞的組織方式主要是將詞庫分成語義域(semantic domain)。通過語義和詞匯關系聯(lián)系起來的動詞通常都屬于同一個語義域。最上層的語義域包括事件域(event)和狀態(tài)域(state)。其中事件域下又分為14個子域。加上狀態(tài)域,總共包括15個動詞語義域。到WordNet 1.5版,已經包含了大約11500個動詞同義詞集合。在WordNet看來,一個動詞的意義主要是通過它跟其他動詞的關系以及同義詞集合(synset)來表達的。
中文研究方面,《哈工大信息檢索研究室同義詞詞林擴展板》作為國內標識中文詞語同義關系的信息檢索成果,分層級、分類別對不同詞語的同義語義關系給出語義聚類圖。目前為止,《哈工大信息檢索研究室同義詞詞林擴展版》詞表包含77492條詞語,共分為12個大類,94個中類,1428個小類,最細的級別為原子詞群。第一級12個大類包括“人、物、時間與空間、抽象事物、特征、動作、心理活動、活動、現(xiàn)象與狀態(tài)、助語”等。《哈工大信息檢索研究室同義詞詞林擴展版》作為同義詞語料庫,可以幫助執(zhí)行句法謂詞同義關系判定。但對于語篇整體主題表現(xiàn)力的判定而言,明顯不足。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于首都師范大學,未經首都師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810166074.0/2.html,轉載請聲明來源鉆瓜專利網。





