[發(fā)明專利]一種基于語料庫的近義詞辨析方法在審
| 申請?zhí)枺?/td> | 202011235719.5 | 申請日: | 2020-11-06 |
| 公開(公告)號: | CN112329455A | 公開(公告)日: | 2021-02-05 |
| 發(fā)明(設(shè)計(jì))人: | 王大鵬 | 申請(專利權(quán))人: | 渤海大學(xué) |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/253;G06F40/30;G06F40/247 |
| 代理公司: | 上海思牛達(dá)專利代理事務(wù)所(特殊普通合伙) 31355 | 代理人: | 雍常明 |
| 地址: | 121013 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語料庫 近義詞 辨析 方法 | ||
1.一種基于語料庫的近義詞辨析方法,其特征在于,所述辨析方法包括以下步驟:
(1)確定語料研究領(lǐng)域、類型及規(guī)模;
(2)采集整理相關(guān)詞語并建立語料庫;
(3)對建立語料庫進(jìn)行實(shí)時(shí)更新;
(4)對建立語料數(shù)據(jù)庫進(jìn)行數(shù)據(jù)處理;
(5)對數(shù)據(jù)處理后的詞語進(jìn)行識別分析;
(6)對識別過后的詞語進(jìn)行近義詞辨析;
(7)對辨析結(jié)果進(jìn)行統(tǒng)計(jì)。
2.根據(jù)權(quán)利要求1所述的一種基于語料庫的近義詞辨析方法,其特征在于:步驟(1)中所述語料研究領(lǐng)域是指根據(jù)語料研究目的、研究方向和研究用途來確定所收集到語料范圍,所述語料研究類型是指根據(jù)用戶需求以及研究范圍來確定所研究的語料類型,所述語料研究規(guī)模是指根據(jù)實(shí)際操作能力和應(yīng)用水平來確定語料的收集數(shù)量,其中,語料類型包括單語語料類型、雙語語料類型或多語語料類型中的一種或多種。
3.根據(jù)權(quán)利要求1所述的一種基于語料庫的近義詞辨析方法,其特征在于:步驟(2)中所述語料庫與互聯(lián)網(wǎng)通信連接,所述語料庫依托計(jì)算機(jī)輔助工具進(jìn)行語料檢索和信息處理,所述信息處理是指計(jì)算機(jī)輔助工具利用互聯(lián)網(wǎng)來對所收集到的詞語進(jìn)行釋義解析和數(shù)據(jù)篩選,其中,計(jì)算機(jī)輔助工具為Antconc。
4.根據(jù)權(quán)利要求1所述的一種基于語料庫的近義詞辨析方法,其特征在于:步驟(3)中所述實(shí)時(shí)更新包括及時(shí)對新詞進(jìn)行添加以及對舊詞新意進(jìn)行及時(shí)補(bǔ)充。
5.根據(jù)權(quán)利要求1所述的一種基于語料庫的近義詞辨析方法,其特征在于:步驟(4)中所述識別分析是指對關(guān)鍵字信息和語義信息進(jìn)行分析,所述關(guān)鍵字信息由近義詞中共同出現(xiàn)的的字來確定,所述語義信息由詞語內(nèi)容來確定。
6.根據(jù)權(quán)利要求1所述的一種基于語料庫的近義詞辨析方法,其特征在于:步驟(5)中所述數(shù)據(jù)處理是通過分類標(biāo)準(zhǔn)對詞語進(jìn)行分類,所述分類標(biāo)準(zhǔn)是依據(jù)關(guān)鍵字信息和語義信息。
7.根據(jù)權(quán)利要求1所述的一種基于語料庫的近義詞辨析方法,其特征在于:步驟(6)中所述近義詞辨析是指對根據(jù)分類過后的近義詞進(jìn)行定量辨析和定性辨析。
8.根據(jù)權(quán)利要求7所述的一種基于語料庫的近義詞辨析方法,其特征在于:所述定量辨析是指根據(jù)關(guān)鍵字信息和語義信息利用計(jì)算機(jī)輔助工具對相關(guān)近義詞語料進(jìn)行匯總查看;
所述定性辨析是指利用計(jì)算機(jī)輔助工具將關(guān)鍵詞一致的詞語篩選出來,所述定性辨析包括詞義輕重、涵蓋范圍、適用對象、語體色彩、感情色彩、搭配關(guān)系、語法功能、詞義側(cè)重點(diǎn)、主動(dòng)和被動(dòng)及整體概念與個(gè)體概念。
9.根據(jù)權(quán)利要求8所述的一種基于語料庫的近義詞辨析方法,其特征在于:所述詞義輕重是指某些近義詞表示的事物在內(nèi)容及概念上一致,但近義詞在表達(dá)的過程中其語義輕重程度具有區(qū)別,所述涵蓋范圍是指某些近義詞表示的詞義相近,但其覆蓋的范圍大小有所不同,所述適用對象是指某些近義詞表示的概念相同,但適用對象不同,具有上下及內(nèi)外區(qū)別,所述語體色彩是指某些近義詞意義相同或相近,但使用場合不同,所述感情色彩是指某些近義詞詞義附帶表現(xiàn)為感情上的某種傾向,其所表達(dá)情調(diào)不同,所述搭配關(guān)系是指某些近義詞各方面基本相同,但搭配有別,所述語法功能是指某些近義詞的差別表現(xiàn)在于句法功能上的不同,所述詞義側(cè)重點(diǎn)是指某些近義詞的詞義方向不同,所述主動(dòng)和被動(dòng)是指某些近義詞所表示動(dòng)作的施事者與受事者不同,所述整體概念與個(gè)體概念是指某些近義詞適用于整體,則有些適用于個(gè)體。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于渤海大學(xué),未經(jīng)渤海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011235719.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





