[發(fā)明專利]生成同義詞對齊詞典的方法及裝置有效
| 申請?zhí)枺?/td> | 201410601632.3 | 申請日: | 2014-10-30 |
| 公開(公告)號: | CN104331398B | 公開(公告)日: | 2018-07-13 |
| 發(fā)明(設(shè)計)人: | 石磊;李朋凱;曾增烽;林英展 | 申請(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京天健君律專利代理事務(wù)所(普通合伙) 11461 | 代理人: | 羅延紅;逯博 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 替換 對齊 同義詞 決策樹模型 標(biāo)注 預(yù)定特征 數(shù)據(jù)樣本 詞信息 過濾 標(biāo)志信息 數(shù)據(jù)包括 詞條 衡量 決策 | ||
本發(fā)明提供一種生成同義詞對齊詞典的方法及裝置,上述方法包括:根據(jù)多個替換詞標(biāo)注數(shù)據(jù)樣本及其多個預(yù)定特征的特征值生成用于根據(jù)所述多個預(yù)定特征進行決策的替換決策樹模型,所述替換詞標(biāo)注數(shù)據(jù)包括原詞信息、替換詞信息以及用于指示所述替換的優(yōu)劣的標(biāo)注標(biāo)志信息;根據(jù)所述替換決策樹模型對已有的對齊詞典進行過濾,生成第一同義詞對齊詞典。本發(fā)明提供的生成同義詞對齊詞典的方法及裝置,通過根據(jù)多個替換詞標(biāo)注數(shù)據(jù)樣本及其多個預(yù)定特征的特征值生成替換決策樹模型,得到了能夠更精確地衡量各個特征之間的關(guān)系的模型,并通過根據(jù)替換決策樹模型對已有的對齊詞典進行過濾,從而能夠得到更多的優(yōu)等替換詞條。
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索領(lǐng)域,尤其涉及一種生成同義詞對齊詞典的方法及裝置。
背景技術(shù)
在信息檢索領(lǐng)域,當(dāng)用戶發(fā)出檢索請求時,對于用戶輸入的檢索詞,為了提供相關(guān)性更好的檢索結(jié)果,需要將其中的每個檢索詞進行適當(dāng)?shù)奶鎿Q,以便檢索出更多更好的檢索結(jié)果。比如:一個冷門詞被替換成同樣意思的熱門詞,將檢索出更多的相關(guān)性好的檢索結(jié)果,一個單一的檢索詞被替換成多種形式的同義詞,將能夠使得檢索結(jié)果更具備多樣性;一個表述不全的檢索詞被補全為完整的表達,將能夠找回更精確的檢索結(jié)果。因此,提供豐富而且準(zhǔn)確的同義詞對齊詞典是檢索過程中非常基礎(chǔ)而重要的一環(huán),該同義詞對齊詞典中詞條的數(shù)量和質(zhì)量將直接影響到檢索結(jié)果的召回率和精確度。
在現(xiàn)有技術(shù)中,通常采用如下技術(shù)方案生成同義詞對齊詞典:根據(jù)已有的同義詞對齊詞典,人工設(shè)計統(tǒng)計量,選擇其中能較好地反應(yīng)替換效果的統(tǒng)計值作為主要的過濾特征;通過人工過濾的方式調(diào)整上述過濾特征的閾值,得到一個比較穩(wěn)定而良好的經(jīng)驗閾值;將上述已有的同義詞對齊詞典的替換詞條中特征值小于\大于過濾特征的閾值的替換詞條刪除,得到一個經(jīng)過提純的精確的同義詞對齊詞典。
然而,前述技術(shù)方案至少存在如下問題:
盡管通過人工有效地設(shè)置統(tǒng)計量、設(shè)置經(jīng)驗閾值的方法,經(jīng)驗閾值很難精確地設(shè)置,人工調(diào)整只能確定一個模糊的范圍,對替換詞條的過濾不夠精確。除此以外,隨著統(tǒng)計特征增多,難以通過人工直接衡量各個特征之間的關(guān)系,不能總體上綜合考慮特征值,只能對各個特征值逐一比較,一旦有一個特征值不滿足經(jīng)驗閾值該詞條就會被過濾掉,容易丟失好的替換詞條,從而在檢索結(jié)果方面會受到一定的損失。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種生成同義詞對齊詞典的方法及裝置,能夠自動地生成更精確的同義詞對齊詞典,并解決了現(xiàn)有技術(shù)中過濾方法導(dǎo)致的誤過濾優(yōu)等替換詞條的問題。
根據(jù)本發(fā)明的一方面,本發(fā)明提供一種生成同義詞對齊詞典的方法,包括:根據(jù)多個替換詞標(biāo)注數(shù)據(jù)樣本及其多個預(yù)定特征的特征值生成用于根據(jù)所述多個預(yù)定特征進行決策的替換決策樹模型,所述替換詞標(biāo)注數(shù)據(jù)包括原詞信息、替換詞信息以及用于指示所述替換的優(yōu)劣的標(biāo)注標(biāo)志信息;根據(jù)所述替換決策樹模型對已有的對齊詞典進行過濾,生成第一同義詞對齊詞典。
根據(jù)本發(fā)明的另一方面,本發(fā)明提供一種生成同義詞對齊詞典的裝置,包括:替換決策樹模型生成單元,用于根據(jù)多個替換詞標(biāo)注數(shù)據(jù)樣本及其多個預(yù)定特征的特征值生成用于根據(jù)所述多個預(yù)定特征進行決策的替換決策樹模型,所述替換詞標(biāo)注數(shù)據(jù)包括原詞信息、替換詞信息以及用于指示所述替換的優(yōu)劣的標(biāo)注標(biāo)志信息;詞典過濾單元,用于根據(jù)所述替換決策樹模型對已有的同義詞對齊詞典進行過濾,生成第一同義詞對齊詞典。
本發(fā)明提供的生成同義詞對齊詞典的方法及裝置,通過根據(jù)多個替換詞標(biāo)注數(shù)據(jù)樣本及其多個預(yù)定特征的特征值生成替換決策樹模型,得到了能夠更精確地衡量各個特征之間的關(guān)系的模型,并通過根據(jù)替換決策樹模型對已有的對齊詞典進行過濾,從而能夠得到更多的優(yōu)等替換詞條。
附圖說明
圖1為本發(fā)明示例性實施例的生成同義詞對齊詞典的方法的流程圖。
圖2為本發(fā)明優(yōu)選實施例的生成同義詞對齊詞典的方法的流程圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410601632.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:龍門式電鍍天車防摔靶及節(jié)約金裝置
- 下一篇:防繩索脫落的多用吊鉤
- 一種隨機森林模型的優(yōu)化方法及系統(tǒng)
- 模板文檔自動生成方法
- 展示預(yù)測模型的方法、裝置及調(diào)整預(yù)測模型的方法、裝置
- 數(shù)據(jù)處理方法和裝置
- 展示預(yù)測模型的方法、裝置及調(diào)整預(yù)測模型的方法、裝置
- 在線GBDT模型學(xué)習(xí)方法及裝置
- 生成可視化決策樹集模型的方法、系統(tǒng)、裝置及存儲介質(zhì)
- 決策樹剪枝優(yōu)化方法、裝置、設(shè)備及計算機存儲介質(zhì)
- 基于決策樹的預(yù)測方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品
- 基于遺傳算法和決策樹的健康狀況預(yù)測方法





