[發(fā)明專利]一種文本連接詞的識(shí)別方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201410572086.5 | 申請(qǐng)日: | 2014-10-23 |
| 公開(公告)號(hào): | CN104317890B | 公開(公告)日: | 2018-05-01 |
| 發(fā)明(設(shè)計(jì))人: | 李壽山;汪蓉;周國(guó)棟;段湘煜 | 申請(qǐng)(專利權(quán))人: | 蘇州大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司11227 | 代理人: | 常亮 |
| 地址: | 215137 *** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 連接詞 識(shí)別 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,尤其是一種連接詞識(shí)別方法及裝置。
背景技術(shù)
在自然語(yǔ)言處理技術(shù)中,篇章級(jí)的文本分析是單詞、句子分析之后的一種文本分析粒度,其在自然語(yǔ)言理解及生成中起到了至關(guān)重要的作用。篇章級(jí)的文本分析目的是研究文本的句法結(jié)構(gòu),并根據(jù)句法結(jié)構(gòu)理解句子、從句或段落之間的語(yǔ)義關(guān)系。然而,語(yǔ)義關(guān)系一般由篇章中的連接詞直觀地表現(xiàn)出來。
例如,篇章文本為“中韓兩國(guó)雖然人口數(shù)量相差較大,但兩國(guó)有較多共同點(diǎn),因此具有發(fā)展友好合作關(guān)系的良好條件和基礎(chǔ)。”第一個(gè)分句與第二個(gè)分句之間是轉(zhuǎn)折關(guān)系,前兩個(gè)分句與第三個(gè)分句構(gòu)成因果關(guān)系,這些語(yǔ)義關(guān)系主要體現(xiàn)在連接詞“但”及“因此”上。
因此,需要一種連接詞的識(shí)別方法,以識(shí)別出文本中的連接詞。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種文本連接詞的識(shí)別方法及裝置,用以實(shí)現(xiàn)對(duì)文本中連接詞的識(shí)別。為實(shí)現(xiàn)所述目的,本發(fā)明提供的技術(shù)方案如下:
一種文本連接詞的識(shí)別方法,包括:
獲取待識(shí)別文本;
從所述待識(shí)別文本中,提取待識(shí)別連接詞;
利用預(yù)先構(gòu)建的分類器,對(duì)所述待識(shí)別連接詞進(jìn)行識(shí)別,獲得識(shí)別結(jié)果;其中,所述分類器是依據(jù)已標(biāo)注的連接詞樣本作為訓(xùn)練集構(gòu)建的分類器;
依據(jù)所述識(shí)別結(jié)果,確定所述待識(shí)別連接詞的屬性;其中,所述文本連接詞的屬性為連接詞或非連接詞。
優(yōu)選地,所述識(shí)別結(jié)果中包括兩個(gè)概率值,分別對(duì)應(yīng)連接詞屬性及非連接詞屬性;
其中,所述依據(jù)所述識(shí)別結(jié)果,確定所述待識(shí)別連接詞的屬性,包括:
確定所述兩個(gè)概率值中的較大概率值;
當(dāng)所述較大概率值對(duì)應(yīng)連接詞屬性時(shí),確定所述待識(shí)別連接詞的屬性為連接詞;
當(dāng)所述較大概率值對(duì)應(yīng)非連接詞屬性時(shí),確定所述待識(shí)別連接詞的屬性為非連接詞。
優(yōu)選地,所述預(yù)先構(gòu)建的分類器構(gòu)建方法包括:
從標(biāo)準(zhǔn)語(yǔ)料庫(kù)中,提取多條語(yǔ)料樣本;其中,每條所述語(yǔ)料樣本中均包含已標(biāo)注的連接詞;
針對(duì)每條所述語(yǔ)料樣本中的連接詞,獲取各自的分類特征;其中,所述分類特征表征連接詞在語(yǔ)料樣本中的語(yǔ)法特征;
依據(jù)每個(gè)所述連接詞各自對(duì)應(yīng)的分類特征,生成訓(xùn)練集;
對(duì)所述訓(xùn)練集進(jìn)行訓(xùn)練,構(gòu)建分類器。
優(yōu)選地,所述從標(biāo)準(zhǔn)語(yǔ)料庫(kù)中,提取多條語(yǔ)料樣本,包括:
獲取包含連接詞的預(yù)設(shè)列表;
在所述標(biāo)準(zhǔn)語(yǔ)料庫(kù)中,提取包含所述預(yù)設(shè)列表中連接詞的多條語(yǔ)料,獲得語(yǔ)料樣本。
優(yōu)選地,所述針對(duì)每條所述語(yǔ)料樣本中的連接詞,獲取各自的分類特征,包括:
在所述標(biāo)準(zhǔn)語(yǔ)料庫(kù)中,獲取每條所述語(yǔ)料樣本各自對(duì)應(yīng)的句法樹;
針對(duì)每條所述語(yǔ)料樣本中的連接詞,在各自的句法樹中,提取各自的分類特征。
本申請(qǐng)還提供了一種文本連接詞的識(shí)別裝置,包括:
待識(shí)別文本獲取模塊,用于獲取待識(shí)別文本;
待識(shí)別連接詞提取模塊,用于從所述待識(shí)別文本中,提取待識(shí)別連接詞;
識(shí)別結(jié)果獲得模塊,用于利用預(yù)先構(gòu)建的分類器,對(duì)所述待識(shí)別連接詞進(jìn)行識(shí)別,獲得識(shí)別結(jié)果;其中,所述分類器是依據(jù)已標(biāo)注的連接詞樣本作為訓(xùn)練集構(gòu)建的分類器;
連接詞屬性確定模塊,用于依據(jù)所述識(shí)別結(jié)果,確定所述待識(shí)別連接詞的屬性;其中,所述文本連接詞的屬性為連接詞或非連接詞。
優(yōu)選地,所述識(shí)別結(jié)果獲得模塊獲得的識(shí)別結(jié)果中包括兩個(gè)概率值,分別對(duì)應(yīng)連接詞屬性及非連接詞屬性;其中,所述連接詞屬性確定模塊包括:
較大概率值確定子模塊,用于確定所述兩個(gè)概率值中的較大概率值;
連接詞確定子模塊,用于當(dāng)所述較大概率值對(duì)應(yīng)連接詞屬性時(shí),確定所述待識(shí)別連接詞的屬性為連接詞;
非連接詞確定子模塊,用于當(dāng)所述較大概率值對(duì)應(yīng)非連接詞屬性時(shí),確定所述待識(shí)別連接詞的屬性為非連接詞。
優(yōu)選地,用于構(gòu)建所述識(shí)別結(jié)果獲得模塊利用的分類器的構(gòu)建模塊包括:
語(yǔ)料樣本提取子模塊,用于從標(biāo)準(zhǔn)語(yǔ)料庫(kù)中,提取多條語(yǔ)料樣本;其中,每條所述語(yǔ)料樣本中均包含已標(biāo)注的連接詞;
分類特征獲取子模塊,用于針對(duì)每條所述語(yǔ)料樣本中的連接詞,獲取各自的分類特征;其中,所述分類特征表征連接詞在語(yǔ)料樣本中的語(yǔ)法特征;
訓(xùn)練集生成子模塊,用于依據(jù)每個(gè)所述連接詞各自對(duì)應(yīng)的分類特征,生成訓(xùn)練集;
分類器構(gòu)建模塊,用于對(duì)所述訓(xùn)練集進(jìn)行訓(xùn)練,構(gòu)建分類器。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州大學(xué),未經(jīng)蘇州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410572086.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種文本連接詞的識(shí)別方法及裝置
- 確定候選輸入的方法和裝置及輸入提示方法和裝置
- 新的關(guān)鍵詞提取技術(shù)
- 一種語(yǔ)義解析方法及系統(tǒng)
- 一種非對(duì)照語(yǔ)料的文本概要生成方法及裝置
- 一種解析英語(yǔ)長(zhǎng)句的方法及系統(tǒng)
- 一種基于遞歸神經(jīng)網(wǎng)絡(luò)的信息隱寫方法、裝置及存儲(chǔ)介質(zhì)
- 語(yǔ)言處理方法及裝置、語(yǔ)言處理系統(tǒng)的訓(xùn)練方法及裝置
- 確定文本關(guān)聯(lián)類型的方法、裝置、存儲(chǔ)介質(zhì)和電子設(shè)備
- 基于知識(shí)蒸餾和多任務(wù)學(xué)習(xí)的篇章關(guān)系識(shí)別方法與裝置
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





