[發(fā)明專(zhuān)利]一種基于成詞率的領(lǐng)域詞識(shí)別方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202110377911.6 | 申請(qǐng)日: | 2021-04-08 |
| 公開(kāi)(公告)號(hào): | CN113051912B | 公開(kāi)(公告)日: | 2023-01-20 |
| 發(fā)明(設(shè)計(jì))人: | 方正云;楊政;李萍;尹春林;劉柱揆 | 申請(qǐng)(專(zhuān)利權(quán))人: | 云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院 |
| 主分類(lèi)號(hào): | G06F40/289 | 分類(lèi)號(hào): | G06F40/289;G06F40/216;G06F16/335;G06F16/35 |
| 代理公司: | 北京弘權(quán)知識(shí)產(chǎn)權(quán)代理有限公司 11363 | 代理人: | 逯長(zhǎng)明;許偉群 |
| 地址: | 650217 云南省昆*** | 國(guó)省代碼: | 云南;53 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 成詞率 領(lǐng)域 識(shí)別 方法 裝置 | ||
本申請(qǐng)涉及文本處理技術(shù)領(lǐng)域,提供一種基于成詞率的領(lǐng)域詞識(shí)別方法及裝置,所述一種基于成詞率的領(lǐng)域詞識(shí)別方法包括:獲取某一領(lǐng)域的文本數(shù)據(jù),對(duì)文本數(shù)據(jù)進(jìn)行文本預(yù)處理得到第一文本;對(duì)第一文本中的字符串進(jìn)行成詞率計(jì)算及閾值篩選,獲得第一候選詞集;利用第一候選詞集對(duì)第一文本進(jìn)行切分,獲得第二候選詞集;根據(jù)第一候選詞集,采用回溯算法,對(duì)第二候選詞集進(jìn)行篩選,獲得第三候選詞集;對(duì)第三候選詞集進(jìn)行常用詞過(guò)濾,獲得第四候選詞集;對(duì)第四候選詞集進(jìn)行向量化及聚類(lèi)處理,獲得領(lǐng)域詞詞集。上述基于成詞率的領(lǐng)域詞識(shí)別方法有效提高了領(lǐng)域詞識(shí)別的準(zhǔn)確性,并具有更高的領(lǐng)域詞識(shí)別效率。
技術(shù)領(lǐng)域
本申請(qǐng)屬于文本處理技術(shù)領(lǐng)域,具體涉及一種基于成詞率的領(lǐng)域詞識(shí)別方法及裝置。
背景技術(shù)
領(lǐng)域詞是指通過(guò)語(yǔ)言或文字來(lái)表達(dá)或限定專(zhuān)業(yè)概念的約定性語(yǔ)言符號(hào),常出現(xiàn)在某些特定領(lǐng)域,而很少在與特定領(lǐng)域不相關(guān)的領(lǐng)域出現(xiàn)。比如繼電器是電力領(lǐng)域詞,低碳是環(huán)保領(lǐng)域詞,人工智能是計(jì)算機(jī)領(lǐng)域詞。在當(dāng)前這個(gè)各行各業(yè)都處于信息爆炸的時(shí)代,時(shí)刻都會(huì)有海量語(yǔ)料涌入數(shù)據(jù)庫(kù)。對(duì)這些語(yǔ)料進(jìn)行自然語(yǔ)言處理技術(shù)的量化分析首先需要的就是分詞,其主要依賴(lài)基于詞典的匹配。由此可見(jiàn),領(lǐng)域詞詞庫(kù)可以對(duì)其領(lǐng)域文檔進(jìn)行有效的分詞,從而進(jìn)一步量化分析。
領(lǐng)域詞識(shí)別是指從現(xiàn)有相關(guān)文本數(shù)據(jù)中抽取出候選詞集,并對(duì)候選詞集進(jìn)行加工處理得到某一領(lǐng)域的領(lǐng)域詞集合的過(guò)程。某一領(lǐng)域的文本數(shù)據(jù),包括科技項(xiàng)目文本、期刊和論文等,是具有較高研究?jī)r(jià)值的專(zhuān)業(yè)領(lǐng)域資源,有較為規(guī)范的格式。領(lǐng)域詞是其領(lǐng)域文本數(shù)據(jù)的重要構(gòu)成單元,與文本主題及研究領(lǐng)域高度相關(guān)。因此,從某一領(lǐng)域的文本數(shù)據(jù)中識(shí)別領(lǐng)域詞是構(gòu)建領(lǐng)域詞詞庫(kù)的基礎(chǔ),也對(duì)了解和把握該領(lǐng)域發(fā)展現(xiàn)狀以及未來(lái)趨勢(shì)具有重要的理論和現(xiàn)實(shí)意義。
傳統(tǒng)的領(lǐng)域詞識(shí)別方法主要有基于詞語(yǔ)統(tǒng)計(jì)特性的方法、基于規(guī)則的方法以及基于序列模式機(jī)器學(xué)習(xí)的方法。基于詞語(yǔ)統(tǒng)計(jì)特性的方法,即通過(guò)統(tǒng)計(jì)字符串的相關(guān)統(tǒng)計(jì)特征來(lái)判斷該字符串是否可以構(gòu)成一個(gè)詞語(yǔ),主要用到的參數(shù)有頻率、似然比和互信息等。利用統(tǒng)計(jì)的方法雖然方便簡(jiǎn)單,但由于缺少詞性的規(guī)則會(huì)遺留較多垃圾字串和非領(lǐng)域詞,仍然需要進(jìn)行人工的篩選。基于規(guī)則的方法通常將漢語(yǔ)成詞規(guī)則與一些領(lǐng)域先驗(yàn)知識(shí)結(jié)合,這種方法雖然準(zhǔn)確性相對(duì)較高,但是泛化能力差,需要大量相關(guān)領(lǐng)域知識(shí)和人工構(gòu)建規(guī)則。基于序列模式機(jī)器學(xué)習(xí)方法譬如通過(guò)條件隨機(jī)場(chǎng)模型訓(xùn)練,也需要大量人工標(biāo)注語(yǔ)料,耗時(shí)耗力。
為了節(jié)省人力成本,近些年來(lái),人們致力于研究不需要人力干預(yù)的領(lǐng)域詞識(shí)別無(wú)監(jiān)督方法。現(xiàn)有技術(shù)公開(kāi)了一種基于聚類(lèi)算法的電力文本詞典構(gòu)造方法,包括利用通用的詞典對(duì)文本進(jìn)行分詞,再通過(guò)word2vec模型進(jìn)行詞向量構(gòu)造,最后進(jìn)行k-means聚類(lèi)。現(xiàn)有技術(shù)還提出了依賴(lài)互信息或鄰接熵得到候選詞集,進(jìn)而利用word2vec進(jìn)行詞向量轉(zhuǎn)化和k-means聚類(lèi),最終得到行業(yè)領(lǐng)域詞。然而,此類(lèi)方法在篩選候選詞集時(shí)對(duì)詞語(yǔ)組合規(guī)律運(yùn)用的不夠全面,篩選的候選詞集存在諸多不合理的詞語(yǔ),導(dǎo)致后期聚類(lèi)時(shí)工作量驟增,影響效率和準(zhǔn)確性。
發(fā)明內(nèi)容
本申請(qǐng)?zhí)峁┮环N基于成詞率的領(lǐng)域詞識(shí)別方法及裝置,以提供一種準(zhǔn)確性和識(shí)別效率更高的領(lǐng)域詞識(shí)別方法及裝置。
本申請(qǐng)第一方面提供一種基于成詞率的領(lǐng)域詞識(shí)別方法,所述一種基于成詞率的領(lǐng)域詞識(shí)別方法包括:
獲取某一領(lǐng)域的文本數(shù)據(jù),對(duì)所述文本數(shù)據(jù)進(jìn)行文本預(yù)處理得到第一文本,所述文本預(yù)處理包括去除掉停用詞和標(biāo)點(diǎn)符號(hào);
根據(jù)所述第一文本中字符串的互信息、左右熵、構(gòu)詞規(guī)律以及預(yù)設(shè)的最長(zhǎng)詞語(yǔ)長(zhǎng)度,利用成詞率模型,獲得所述字符串的成詞率,所述成詞率模型為:
Suc=1/m(Mut+k1×Adjl+k2×Adjr)-Reg(a,b)
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院,未經(jīng)云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110377911.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 新詞發(fā)現(xiàn)中的字符串過(guò)濾方法
- 一種專(zhuān)利文本向量的語(yǔ)義表示方法
- 數(shù)據(jù)聚類(lèi)方法和數(shù)據(jù)聚類(lèi)系統(tǒng)
- 一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法
- 詞檢測(cè)方法、裝置、系統(tǒng)
- 一種提高熱詞曝光覆蓋率的方法和裝置
- 一種新詞的識(shí)別方法及裝置
- 基于深度神經(jīng)網(wǎng)絡(luò)的軟件漏洞自動(dòng)分類(lèi)方法
- 一種未登錄詞進(jìn)行向量化的方法和裝置
- 一種基于成詞率的領(lǐng)域詞識(shí)別方法及裝置
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





