[發(fā)明專利]字段名稱獲取方法和裝置有效
| 申請?zhí)枺?/td> | 201910122907.8 | 申請日: | 2019-02-19 |
| 公開(公告)號: | CN109902090B | 公開(公告)日: | 2022-06-07 |
| 發(fā)明(設(shè)計(jì))人: | 林曉明;歐陽佑;江金陵;郭偉 | 申請(專利權(quán))人: | 北京明略軟件系統(tǒng)有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F40/42;G06F40/58 |
| 代理公司: | 北京安信方達(dá)知識產(chǎn)權(quán)代理有限公司 11262 | 代理人: | 王康;栗若木 |
| 地址: | 102218 北京市昌平區(qū)東小*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 字段 名稱 獲取 方法 裝置 | ||
本發(fā)明公開了一種字段名稱獲取方法和裝置。通過獲取一組字段,基于預(yù)設(shè)詞庫和/或機(jī)器翻譯模型獲分別獲取所述一組字段中每個(gè)字段的候選名稱,根據(jù)預(yù)設(shè)規(guī)則,分別對所述每個(gè)字段的候選名稱進(jìn)行篩選,將篩選出的候選名稱確定為該字段的名稱,可以節(jié)約人工成本、提高工作效率以及提高字段和名稱對應(yīng)的準(zhǔn)確度。
技術(shù)領(lǐng)域
本發(fā)明涉及但不限于信息處理技術(shù)領(lǐng)域,具體涉及一種字段名稱獲取方法和裝置。
背景技術(shù)
隨著計(jì)算機(jī)行業(yè)的不斷發(fā)展,各行各業(yè)都積累了大量的數(shù)據(jù)。字段的命名方法多種多樣,例如,基于數(shù)據(jù)描述的拼音縮寫或全拼,英文單詞或縮寫、拼音縮寫或單詞縮寫與數(shù)字的組合等。因此,實(shí)際的字段往往是無法通過其形式簡單理解的,其復(fù)雜性體現(xiàn)在如下幾種情況里:
(a)相同的字段名在不同的表里有不同的意思。比如,字段“CS”在一些表里對應(yīng)的名稱可能是表示“城市”,但在其它表里對應(yīng)的名稱可能是“場所”、“措施”等;
(b)同一個(gè)字段在不同的表里的字段各不相同。比如“性別”對應(yīng)的字段可能包括“XB”、“XINGBIE”、“SEX”等;
(c)一個(gè)相同的概念在不同的表里有不同的描述。比如,“時(shí)間”、“時(shí)刻”的意思一樣,對應(yīng)的字段可能都是“TIME”。
如果每張數(shù)據(jù)表都維護(hù)了完善且準(zhǔn)確的字段和名稱的對應(yīng)表,那么就能很好的對不同數(shù)據(jù)表匯總和關(guān)聯(lián)。但實(shí)際中并不是每個(gè)數(shù)據(jù)表都有相應(yīng)的文檔,并且同一個(gè)概念的中文描述可能不一致。這種情況下,往往需要人工來完成數(shù)據(jù)表的字段整理,而且理解大量字母形式的字段,需要花費(fèi)很多人力時(shí)間,并且通過人工獲得的字段所對應(yīng)名稱的準(zhǔn)確度不高。
發(fā)明內(nèi)容
本發(fā)明提供了一種字段名稱獲取方法和裝置,能夠節(jié)約人工成本、提高工作效率以及提高字段和名稱對應(yīng)的準(zhǔn)確度。
本發(fā)明實(shí)施例提供了一種字段名稱獲取方法,包括:
獲取一組字段;
基于預(yù)設(shè)詞庫和/或機(jī)器翻譯模型獲分別獲取所述一組字段中每個(gè)字段的候選名稱;
根據(jù)預(yù)設(shè)規(guī)則,分別對所述每個(gè)字段的候選名稱進(jìn)行篩選;
將篩選出的候選名稱確定為該字段的名稱。
在一個(gè)示例性實(shí)施例中,所述基于預(yù)設(shè)詞庫和/或機(jī)器翻譯模型獲分別獲取所述一組字母字段中每個(gè)字母字段的候選名稱,包括:
當(dāng)在所述預(yù)設(shè)詞庫中查詢到所述字段且所述預(yù)設(shè)詞庫中所述字段對應(yīng)的候選名稱唯一時(shí),標(biāo)注所述字段的類型為第一類型,獲取所述預(yù)設(shè)詞庫中所述字段對應(yīng)的唯一候選名稱;
當(dāng)在所述預(yù)設(shè)詞庫中查詢到所述字段并且所述預(yù)設(shè)詞庫中所述字段對應(yīng)多個(gè)候選名稱時(shí),標(biāo)注所述字段的類型為第二類型,獲取所述詞庫中所述字段對應(yīng)的多個(gè)候選名稱。
在一個(gè)示例性實(shí)施例中,根據(jù)預(yù)設(shè)規(guī)則,分別對所述每個(gè)字母字段的候選名稱進(jìn)行篩選,包括:
當(dāng)所述字段屬于第一類型時(shí),將所述預(yù)設(shè)詞庫中獲取的所述字段對應(yīng)的唯一候選名稱確定為所述字段的名稱;
當(dāng)所述字段屬于第二類型時(shí),獲取所述一組字段中屬于第一類型的字段對應(yīng)的候選名稱;
使用分詞方式分別將該組字段中屬于第一類型的字段對應(yīng)的候選名稱進(jìn)行分詞,獲得該組字段中屬于第一類型的字段對應(yīng)的候選名稱的第一類型子名稱;
將所述獲取的第一子類型名稱組成第一子名稱集合,并統(tǒng)計(jì)所述第一子名稱集合中的各第一類型子名稱出現(xiàn)的次數(shù);
分別對所述第二類型字段中對應(yīng)的多個(gè)候選名稱進(jìn)行分詞獲得各候選名稱的第二類型子名稱;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京明略軟件系統(tǒng)有限公司,未經(jīng)北京明略軟件系統(tǒng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910122907.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





