[發明專利]稿件基因的選取方法、裝置與電子設備有效
| 申請號: | 201811095816.1 | 申請日: | 2018-09-19 |
| 公開(公告)號: | CN109447402B | 公開(公告)日: | 2022-02-22 |
| 發明(設計)人: | 張芃 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06F40/47 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;吳歡燕 |
| 地址: | 430000 湖北省武漢市東湖開發區光谷軟件*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 稿件 基因 選取 方法 裝置 電子設備 | ||
本發明實施例提供一種稿件基因的選取方法、裝置與電子設備,該方法包括:從備選稿件基因列表中,分別選取多組不同的基因,構成多個稿件基因組;對于每一個稿件基因組,進行多次匹配結果采樣,獲取多個匹配成功率樣本,并據此計算該稿件基因組對應的匹配成功率的均值和標準差;基于所有稿件基因組分別對應的均值和每一個稿件基因組對應的標準差,計算該稿件基因組對應的Z值;基于每一個稿件基因組對應的Z值,選取滿足設定條件的稿件基因組,并將滿足設定條件的稿件基因組中的基因合并,獲取最終選取的稿件基因。本發明實施例能夠選取更有效的稿件基因組以與更適合的譯員進行匹配,從而有效提高翻譯效率和翻譯準確率。
技術領域
本發明實施例涉及數據處理技術領域,更具體地,涉及一種稿件基因的選取方法、裝置與電子設備。
背景技術
互聯網高速、海量的數據中包含著種類繁多且錯綜復雜的文檔。不同的文檔,其所包含的關鍵信息不盡相同,則根據這些關鍵信息可以對不同的文檔進行適于該文檔的處理方式。例如,在翻譯行業中,對于不同的待翻譯稿件,可以根據其所包含的關鍵信息,來為該稿件匹配最合適的翻譯人員,以有效提高翻譯效率和翻譯準確性。
稿件與譯員的基因匹配是指將譯員基因與稿件基因在既定策略下通過匹配模型,實現為稿件找到最佳譯員的過程。所選取的用于進行基因匹配的稿件基因與其它稿件基因相比,應該能夠更好的體現待匹配稿件的差異性,如此才能為待翻譯稿件匹配到更適合的譯員。
稿件基因主要指通過對稿件抽取若干特征并進行有效組合,形成為稿件本質刻畫的相對唯一的表征。也可以認為是通過對稿件特征屬性進行分析計算、量化處理,所獲取到的存在于稿件的、區別于其他稿件的、獨一無二的關鍵信息組合。
稿件基因來源多種多樣。稿件基因存在于所有稿件中,不同稿件具備不同的基因。由于具體應用的不同,目前存在的文檔基因匹配算法在選擇稿件待匹配基因進行匹配計算時,常根據經驗來選擇相應的基因組合。
但是,互聯網高速、海量的數據中稿件的種類繁多且錯綜復雜,上述稿件基因的選擇方式會存在一定的局限性,導致選擇出的稿件基因不能很好的體現稿件間的差異性。因此在進行稿件基因的選擇時,更重要的是要提取差異性的基因,這樣才可以差異化對待。
發明內容
為了克服上述問題或者至少部分地解決上述問題,本發明實施例提供一種稿件基因的選取方法、裝置與電子設備,用以使得選取出的稿件基因能夠更好的體現稿件間的差異性。
第一方面,本發明實施例提供一種稿件基因的選取方法,包括:從備選稿件基因列表中,分別選取多組不同的基因,構成多個稿件基因組;對于每一個所述稿件基因組,進行多次匹配結果采樣,獲取多個匹配成功率樣本,并基于所述多個匹配成功率樣本,計算該稿件基因組對應的匹配成功率的均值和標準差;基于所有所述稿件基因組分別對應的所述均值和每一個所述稿件基因組對應的所述標準差,計算該稿件基因組對應的Z值;基于每一個所述稿件基因組對應的所述Z值,從所有所述稿件基因組中選取滿足設定條件的稿件基因組,并將所述滿足設定條件的稿件基因組中的基因合并,獲取最終選取的稿件基因;其中,所述Z值表示大樣本差異性驗證中Z值。
第二方面,本發明實施例提供一種稿件基因的選取裝置,包括:初始基因選取模塊,用于從備選稿件基因列表中,分別選取多組不同的基因,構成多個稿件基因組;第一計算模塊,用于對于每一個所述稿件基因組,進行多次匹配結果采樣,獲取多個匹配成功率樣本,并基于所述多個匹配成功率樣本,計算該稿件基因組對應的匹配成功率的均值和標準差;第二計算模塊,用于基于所有所述稿件基因組分別對應的所述均值和每一個所述稿件基因組對應的所述標準差,計算該稿件基因組對應的Z值;最終基因選取模塊,用于基于每一個所述稿件基因組對應的所述Z值,從所有所述稿件基因組中選取滿足設定條件的稿件基因組,并將所述滿足設定條件的稿件基因組中的基因合并,獲取最終選取的稿件基因;其中,所述Z值表示大樣本差異性驗證中Z值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811095816.1/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





