[發(fā)明專利]一種例句檢索的方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201210413295.6 | 申請日: | 2012-10-25 |
| 公開(公告)號: | CN102890723A | 公開(公告)日: | 2013-01-23 |
| 發(fā)明(設計)人: | 楊振東;石志偉;周步戀;車天文;王更生;王喜民;何宏靖;徐憶蘇 | 申請(專利權)人: | 深圳市宜搜科技發(fā)展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市世紀恒程知識產(chǎn)權代理事務所 44287 | 代理人: | 胡海國 |
| 地址: | 518026 廣東省深圳市福田區(qū)濱*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 例句 檢索 方法 系統(tǒng) | ||
技術領域
本發(fā)明涉及自然語言處理領域,特別地涉及一種例句檢索的方法及系統(tǒng)。
背景技術
隨著互聯(lián)網(wǎng)技術的深入發(fā)展,使得人們在寫作或語言學習中獲得所需的信息更加便利。例句檢索輔助用戶獲取與輸入匹配的(雙語)例句,從而滿足用戶了解詞的用法或翻譯的需求。另外,在機器翻譯中,也會用到例句檢索從而使得翻譯更加精準。
截至目前為止,有關例句檢索中query(即查詢詞)與例句相關性計算方法主要有以下幾種:一是根據(jù)例句中匹配的query個數(shù)或長度計算;二是根據(jù)例句長度及匹配query字符串長度計算;三是根據(jù)query與例句的編輯距離計算。如CN?102346777公開了一種對例句檢索結果進行排序的方法和裝置,其中使用搭配來體現(xiàn)query的用法,但沒有綜合考慮例句中query的有關句法特征、例句本身的特征等因素,并且搭配概率的計算公式?jīng)]有考慮query在搭配中所起的作用或所做的成分,搭配概率計算中籠統(tǒng)的采用了統(tǒng)一的計算公式。CN?1471030公開了一種基于加權編輯距離的自動例句檢索的系統(tǒng)和方法,其中,通過編輯距離來進行檢索,但依然側(cè)重于query的字符串匹配。
這幾種方法都側(cè)重于詞層次的字符串匹配,基于字符串匹配的相關性計算方法只側(cè)重給出包含query的例句,沒有涉及到給出的例句中是否體現(xiàn)了query用法的多樣性及翻譯的多樣性,這樣排序靠前的例句很可能滿足不了用戶的意圖。
用戶使用例句檢索最主要是為了解query的相關用法或者翻譯,而現(xiàn)有的例句與query的相關性計算大多只考慮了字符串層次的匹配,無法滿足用戶的需求,具體輸出的例句檢索結果存在以下問題:
1.例句僅注重詞層次的匹配,未必體現(xiàn)query的常用(或某種)用法或翻譯的多樣性;
2.可能輸出具有歧義的結果;
如輸入query:有道
輸出:他右邊太陽穴上有道傷痕(只列出單語部分)。
而用戶意圖為輸出含“經(jīng)營有道”、“取之有道”之類的例句,這樣的結果與用戶意圖相左。
3.輸出結構不完整的例句;
4.輸出例句過長或過短;
5.輸出例句所含信息不豐富;
如輸入query:清明節(jié)
輸出:清明節(jié)是什么?
發(fā)明內(nèi)容
本發(fā)明解決的技術問題在于提供了一種例句檢索的方法,以更好地滿足用戶的需求;本發(fā)明還提供了一種例句檢索的系統(tǒng)。
本發(fā)明實施例提供了一種例句檢索的方法,包括,獲取用戶輸入的查詢詞;對用戶輸入的query進行處理;在例句庫中檢索匹配query的例句,并進行所述query與例句的相關性計算;根據(jù)用法多樣性或翻譯多樣性原則,進行例句相關性打分調(diào)整,進行例句排序;輸出例句并展示例句中的短語。
本發(fā)明實施例還提供了一種例句檢索的系統(tǒng),包括,
查詢詞獲取模塊,用于獲取用戶輸入的查詢詞;
查詢詞處理模塊,用于對用戶輸入的query進行處理;
相關性計算模塊,用于在例句庫中檢索匹配query的例句,并進行所述query與例句的相關性計算;
相關性調(diào)整模塊,用于根據(jù)用法多樣性或翻譯多樣性原則,進行例句相關性打分調(diào)整,進行例句排序;
例句輸出模塊,用于輸出例句并展示例句中的短語。
采用本發(fā)明實施例提供的方案,在進行query與例句相關性計算時綜合考慮了各種因素::例句中query相關短語特征、句法特征、例句結構完整性特征、句長特征、例句所含標點數(shù)字噪音特征綜合進行query與例句相關性計算,引入query相關短語反映query用法,引入句法信息使得含有query句法意義的例句具有優(yōu)勢,引入例句結構完整性信息使得輸出例句更加規(guī)整,并結合例句句長、所含數(shù)字標點的噪音特征共同進行相關性計算,比起其它相關性計算方法顯示了優(yōu)勢。
對某天的query?log進行采樣,分別抽取80個中文query與英文query,比較本方法的輸出與傳統(tǒng)基于字符串匹配方法的例句輸出的效果,效果變好的占53%,效果相當?shù)恼?7%,可見本發(fā)明所提方案非常有效。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本發(fā)明的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:
圖1是本發(fā)明第一實施例流程圖;
圖2是query翻譯多樣性檢索結果展現(xiàn)示意圖;
圖3是query用法多樣性檢索結果展現(xiàn)示意圖;
圖4是query用法多樣性同種短語例句展現(xiàn)示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市宜搜科技發(fā)展有限公司,未經(jīng)深圳市宜搜科技發(fā)展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210413295.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





