[發(fā)明專利]一種用于構(gòu)建詞典的方法、裝置及計算機(jī)可讀存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201710607574.9 | 申請日: | 2017-07-24 |
| 公開(公告)號: | CN109299453B | 公開(公告)日: | 2021-02-09 |
| 發(fā)明(設(shè)計)人: | 張旸;王雅圣;畢舒展;顏友亮 | 申請(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/30;G06F40/211;G06K9/62 |
| 代理公司: | 北京龍雙利達(dá)知識產(chǎn)權(quán)代理有限公司 11329 | 代理人: | 時林;毛威 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 構(gòu)建 詞典 方法 裝置 計算機(jī) 可讀 存儲 介質(zhì) | ||
本發(fā)明實施例提供了一種用于構(gòu)建詞典的方法和裝置,該方法包括:獲取候選詞和該候選詞的釋義;從該候選詞的釋義中,選擇該候選詞的特征詞;根據(jù)該候選詞的特征詞,通過預(yù)設(shè)的分類器,得到該候選詞的初始判定結(jié)果;根據(jù)從至少一個中間詞中每個中間詞的釋義中選擇的特征詞,通過該分類器,得到該每個中間詞的判定結(jié)果,其中,該至少一個中間詞包括該候選詞的N級特征詞;根據(jù)該候選詞的初始判定結(jié)果和該至少一個中間詞的判定結(jié)果,確定該候選詞的最終判定結(jié)果,該候選詞的最終判定結(jié)果用于指示能否將該候選詞添加至該詞典。因此,能夠提高詞典的準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明實施例涉及自然語言處理領(lǐng)域,更具體地,涉及一種用于構(gòu)建詞典的方法和裝置。
背景技術(shù)
詞典是自然語言處理過程中的關(guān)鍵資源,目前大部分的詞典是基于人工構(gòu)建的詞典,即通過人工在語料中整理識別出來的詞典,但是,人工構(gòu)建的詞典的缺點是詞典中的詞不夠完善,尤其是對于現(xiàn)有的不斷涌現(xiàn)的網(wǎng)絡(luò)新詞來說,人工構(gòu)建的詞典的缺點更為明顯,不能很好地滿足實際應(yīng)用。
為了使得詞典的構(gòu)建更為完善,引入了自動構(gòu)建詞典的方式。目前,已知一種構(gòu)建詞典的方法,通過釋義知識庫(例如,現(xiàn)代漢語大辭典、百度百科等),查找現(xiàn)有詞典中詞的釋義,接著從詞的釋義中提取詞袋(Bag of words,BoW)特征,所謂的BoW特征,就是從詞的釋義中提取多個特征詞以及每個特征詞出現(xiàn)的頻次,進(jìn)而基于BoW特征構(gòu)建分類器。當(dāng)需要判斷候選詞能否添加至詞典時,基于相同的原理,從候選詞的釋義中提取 BoW特征,根據(jù)候選詞的BoW特征,通過分類器判定候選詞能否添加至詞典中。
但是,這種基于BoW特征構(gòu)建詞典的方式,僅僅考慮了詞對應(yīng)的特征詞中的每個特征詞出現(xiàn)的頻次,將每個特征詞都作為一個獨立體,并不能很好地表示釋義中的語義信息,例如,部分詞的類型傾向與其習(xí)慣用法、常見搭配等信息有關(guān),而這些信息是釋義中提取的BoW特征所不能體現(xiàn)的,因而,這部分詞會給候選詞的類型傾向的判定帶來較大干擾,降低詞典的準(zhǔn)確性。
因而,如何提高詞典的準(zhǔn)確性,已成為亟需解決的問題。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種用于構(gòu)建詞典的方法,能夠提高詞典的準(zhǔn)確性。
第一方面,提供了一種用于構(gòu)建詞典的方法,該方法包括:
獲取候選詞;
從釋義知識庫中獲取所述候選詞的釋義;
從所述候選詞的釋義中,選擇所述候選詞的特征詞,所述候選詞的特征詞為所述候選詞的釋義中的實詞;
根據(jù)所述候選詞的特征詞,通過預(yù)設(shè)的分類器,得到所述候選詞的初始判定結(jié)果,所述分類器用于指示一個詞歸屬于所述詞典的概率;
根據(jù)從至少一個中間詞中每個中間詞的釋義中選擇的特征詞,通過所述分類器,得到所述每個中間詞的判定結(jié)果,其中,所述至少一個中間詞包括所述候選詞的N級特征詞,
所述N級特征詞為所述候選詞的特征詞,所述N=1,或,
所述N級特征詞中的第K級特征詞是從所述N級特征詞中的第K-1級特征詞的釋義中選擇的特征詞,所述N和K都為大于1的整數(shù),且所述K小于或等于所述N;
根據(jù)所述候選詞的初始判定結(jié)果和所述至少一個中間詞的判定結(jié)果,確定所述候選詞的最終判定結(jié)果,所述候選詞的最終判定結(jié)果用于指示能否將所述候選詞添加至所述詞典。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710607574.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 構(gòu)建墊、實體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測模型構(gòu)建方法





