[發(fā)明專利]短語(yǔ)挖掘方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201610388049.8 | 申請(qǐng)日: | 2016-06-02 |
| 公開(公告)號(hào): | CN107463554B | 公開(公告)日: | 2021-05-04 |
| 發(fā)明(設(shè)計(jì))人: | 卞華明;管陶然;史黎鑫;張海波;劉禹;趙宇;駱衛(wèi)華;林鋒 | 申請(qǐng)(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號(hào): | G06F40/47 | 分類號(hào): | G06F40/47;G06F40/58;G06F16/2457 |
| 代理公司: | 北京博思佳知識(shí)產(chǎn)權(quán)代理有限公司 11415 | 代理人: | 李威;林祥 |
| 地址: | 英屬開曼群島大開*** | 國(guó)省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 短語(yǔ) 挖掘 方法 裝置 | ||
本申請(qǐng)?zhí)峁┮环N短語(yǔ)挖掘方法及裝置,該方法可以包括:從原始語(yǔ)料中抽取候選短語(yǔ)集合,所述候選短語(yǔ)集合中包含若干候選短語(yǔ);將所述候選短語(yǔ)集合分配至若干預(yù)設(shè)處理對(duì)象,以由所述預(yù)設(shè)處理對(duì)象根據(jù)預(yù)定義的篩選條件對(duì)被分配的候選短語(yǔ)進(jìn)行篩選;根據(jù)所述預(yù)設(shè)處理對(duì)象返回的篩選結(jié)果,確定所述候選短語(yǔ)集合中滿足預(yù)設(shè)質(zhì)量條件的短語(yǔ)。通過本申請(qǐng)的技術(shù)方案,可以實(shí)現(xiàn)對(duì)高質(zhì)量短語(yǔ)的準(zhǔn)確挖掘。
技術(shù)領(lǐng)域
本申請(qǐng)涉及機(jī)器翻譯技術(shù)領(lǐng)域,尤其涉及一種短語(yǔ)挖掘方法及裝置。
背景技術(shù)
機(jī)器翻譯(又稱,自動(dòng)翻譯)是利用計(jì)算機(jī)把一種自然源語(yǔ)言轉(zhuǎn)變?yōu)榱硪环N自然目標(biāo)語(yǔ)言的過程。在相關(guān)技術(shù)中,提出了一種統(tǒng)計(jì)機(jī)器翻譯方式,即利用統(tǒng)計(jì)學(xué)的方法對(duì)大量的平行語(yǔ)料進(jìn)行分析,并通過由此構(gòu)建的機(jī)器翻譯模型完成翻譯操作。
然而,經(jīng)過實(shí)踐驗(yàn)證表明,即便通過對(duì)大規(guī)模數(shù)據(jù)的自動(dòng)學(xué)習(xí),統(tǒng)計(jì)機(jī)器翻譯的翻譯結(jié)果仍然存在難以控制的質(zhì)量問題,尤其是對(duì)于已有準(zhǔn)確翻譯結(jié)果的數(shù)據(jù),統(tǒng)計(jì)機(jī)器翻譯方式輸出的翻譯結(jié)果可能并不準(zhǔn)確,從而無法滿足用戶的實(shí)際應(yīng)用需求。
發(fā)明內(nèi)容
有鑒于此,本申請(qǐng)?zhí)峁┮环N短語(yǔ)挖掘方法及裝置,可以實(shí)現(xiàn)對(duì)高質(zhì)量短語(yǔ)的準(zhǔn)確挖掘。
為實(shí)現(xiàn)上述目的,本申請(qǐng)?zhí)峁┘夹g(shù)方案如下:
根據(jù)本申請(qǐng)的第一方面,提出了一種短語(yǔ)挖掘方法,包括:
從原始語(yǔ)料中抽取候選短語(yǔ)集合,所述候選短語(yǔ)集合中包含若干候選短語(yǔ);
將所述候選短語(yǔ)集合分配至若干預(yù)設(shè)處理對(duì)象,以由所述預(yù)設(shè)處理對(duì)象根據(jù)預(yù)定義的篩選條件對(duì)被分配的候選短語(yǔ)進(jìn)行篩選;
根據(jù)所述預(yù)設(shè)處理對(duì)象返回的篩選結(jié)果,確定所述候選短語(yǔ)集合中滿足預(yù)設(shè)質(zhì)量條件的短語(yǔ)。
根據(jù)本申請(qǐng)的第二方面,提出了一種短語(yǔ)挖掘裝置,包括:
第一抽取單元,從原始語(yǔ)料中抽取候選短語(yǔ)集合,所述候選短語(yǔ)集合中包含若干候選短語(yǔ);
分配單元,將所述候選短語(yǔ)集合分配至若干預(yù)設(shè)處理對(duì)象,以由所述預(yù)設(shè)處理對(duì)象根據(jù)預(yù)定義的篩選條件對(duì)被分配的候選短語(yǔ)進(jìn)行篩選;
確定單元,根據(jù)所述預(yù)設(shè)處理對(duì)象返回的篩選結(jié)果,確定所述候選短語(yǔ)集合中滿足預(yù)設(shè)質(zhì)量條件的短語(yǔ)。
由以上技術(shù)方案可見,本申請(qǐng)通過將候選短語(yǔ)集合分配至若干預(yù)設(shè)處理對(duì)象,使前期機(jī)器處理與后期眾包處理相結(jié)合,從而高效、準(zhǔn)確篩選出高質(zhì)量短語(yǔ)、篩除低質(zhì)量短語(yǔ),從而構(gòu)建出高質(zhì)量的術(shù)語(yǔ)庫(kù),以便于建立可實(shí)現(xiàn)高翻譯質(zhì)量的翻譯記憶系統(tǒng)。
附圖說明
圖1是本申請(qǐng)一示例性實(shí)施例提供的一種短語(yǔ)挖掘方法的流程圖。
圖2是本申請(qǐng)一示例性實(shí)施例提供的一種翻譯架構(gòu)的示意圖。
圖3是本申請(qǐng)一示例性實(shí)施例提供的另一種短語(yǔ)挖掘方法的流程圖。
圖4-8是本申請(qǐng)一示例性實(shí)施例提供的一種切割語(yǔ)料的示意圖。
圖9是本申請(qǐng)一示例性實(shí)施例提供的一種電子設(shè)備的結(jié)構(gòu)示意圖。
圖10是本申請(qǐng)一示例性實(shí)施例提供的一種短語(yǔ)挖掘裝置的框圖。
具體實(shí)施方式
由于統(tǒng)計(jì)機(jī)器翻譯存在的問題,相關(guān)技術(shù)中進(jìn)一步提出了基于翻譯記憶的機(jī)器翻譯方式。翻譯記憶(translation memory)是一種用于存儲(chǔ)原文本及其譯文的語(yǔ)言數(shù)據(jù)庫(kù),通過事先存儲(chǔ)術(shù)語(yǔ)的準(zhǔn)確譯文,使得用戶可以直接搜索而獲得已有的準(zhǔn)確翻譯結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610388049.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 基于組合的短語(yǔ)規(guī)則抽取方法
- 同義短語(yǔ)的挖掘方法和裝置及搜索相關(guān)內(nèi)容的方法和裝置
- 一種短語(yǔ)輸入方法及終端設(shè)備
- 一種電子病歷高質(zhì)短語(yǔ)抽取方法
- 信息提供裝置、終端裝置、信息提供系統(tǒng)以及信息提供方法
- 標(biāo)簽短語(yǔ)處理和相似度計(jì)算方法及裝置,電子和存儲(chǔ)設(shè)備
- 圖像描述方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 關(guān)鍵詞提取方法、裝置及存儲(chǔ)介質(zhì)
- 一種基于平滑短語(yǔ)主題模型的主題提取方法及裝置
- 在自動(dòng)化配音場(chǎng)景中實(shí)現(xiàn)短語(yǔ)音同步的方法和裝置
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





