[發(fā)明專利]多數(shù)據(jù)源的信息處理裝置、服務(wù)器及方法在審
| 申請(qǐng)?zhí)枺?/td> | 201410291263.2 | 申請(qǐng)日: | 2014-06-25 |
| 公開(kāi)(公告)號(hào): | CN105335378A | 公開(kāi)(公告)日: | 2016-02-17 |
| 發(fā)明(設(shè)計(jì))人: | 張姝;孟遙;楊銘;繆慶亮;李賢華;房璐 | 申請(qǐng)(專利權(quán))人: | 富士通株式會(huì)社 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/28 |
| 代理公司: | 北京三友知識(shí)產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 陶海萍 |
| 地址: | 日本神奈*** | 國(guó)省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 多數(shù) 信息處理 裝置 服務(wù)器 方法 | ||
1.一種多數(shù)據(jù)源的信息處理裝置,所述信息處理裝置包括:
第一判定單元,所述第一判定單元用于對(duì)至少兩個(gè)數(shù)據(jù)源中的信息進(jìn)行同一實(shí)體的判定;
鏈接單元,所述鏈接單元用于將所述至少兩個(gè)數(shù)據(jù)源中的實(shí)體鏈接到預(yù)先設(shè)定的外部資源中;
第一擴(kuò)展單元,所述第一擴(kuò)展單元用于根據(jù)外部資源中的信息對(duì)所述實(shí)體的屬性進(jìn)行擴(kuò)展;
第二判定單元,所述第二判定單元用于判斷屬性擴(kuò)展后的信息是否滿足預(yù)先設(shè)定的條件;當(dāng)所述屬性擴(kuò)展后的信息不滿足預(yù)先設(shè)定的條件時(shí),將屬性擴(kuò)展后的信息用于進(jìn)行所述同一實(shí)體的判定,當(dāng)所述屬性擴(kuò)展后的信息滿足預(yù)先設(shè)定的條件時(shí),將所述屬性擴(kuò)展后的信息輸出。
2.根據(jù)權(quán)利要求1所述的信息處理裝置,其中,所述信息處理裝置還包括:
第一補(bǔ)全單元,所述第一補(bǔ)全單元用于根據(jù)所述同一實(shí)體的判定后的信息,進(jìn)行同一實(shí)體的屬性補(bǔ)全,并將屬性補(bǔ)全后的信息用于進(jìn)行所述鏈接;其中,在進(jìn)行所述屬性補(bǔ)全時(shí),標(biāo)明所述屬性的出處和/或可信度。
3.根據(jù)權(quán)利要求1所述的信息處理裝置,其中,所述信息處理裝置還包括:
翻譯單元,所述翻譯單元用于對(duì)多種語(yǔ)言的實(shí)體進(jìn)行翻譯,并將翻譯后的結(jié)果用于進(jìn)行所述鏈接;
其中,所述翻譯單元包括:
候選獲取單元,所述候選獲取單元用于利用機(jī)器翻譯獲得所述實(shí)體的翻譯候選項(xiàng);
檢索單元,所述檢索單元用于利用搜索引擎檢索獲得所述實(shí)體以及翻譯候選項(xiàng)的共現(xiàn)統(tǒng)計(jì)信息,從而獲得可能的候選對(duì);
確定單元,所述確定單元用于利用檢索結(jié)果中的其他信息與所述實(shí)體的相應(yīng)屬性的相似程度,確定所述可能的候選對(duì)中的每個(gè)候選對(duì)為正確翻譯結(jié)果的可信度。
4.根據(jù)權(quán)利要求3所述的信息處理裝置,其中,所述信息處理裝置還包括:
第二補(bǔ)全單元,所述第二補(bǔ)全單元用于根據(jù)對(duì)多種語(yǔ)言的實(shí)體進(jìn)行翻譯后的結(jié)果,進(jìn)行同一實(shí)體的屬性補(bǔ)全。
5.根據(jù)權(quán)利要求1所述的信息處理裝置,其中,所述第一判定單元用于判斷不同的變體是否指向同一實(shí)體、以及同一實(shí)體是否具有歧義從而實(shí)際上表示不同的實(shí)體。
6.根據(jù)權(quán)利要求1所述的信息處理裝置,其中,所述第一判定單元包括:
建立單元,所述建立單元用于比較各個(gè)實(shí)體之間的相似程度,將相似度大于預(yù)先設(shè)定的閾值的實(shí)體聚在一起,從而建立候選池;
分組單元,所述分組單元用于根據(jù)與所述實(shí)體相關(guān)的其他列的信息,對(duì)候選池中的信息進(jìn)行合并與區(qū)分,利用聚類方法劃分出各個(gè)不同的候選實(shí)體組;
分離單元,所述分離單元用于利用基于規(guī)則的方法,將所述候選實(shí)體組的信息中的含有互斥屬性的實(shí)體進(jìn)行分離。
7.根據(jù)權(quán)利要求1所述的信息處理裝置,其中,所述鏈接單元包括:
第三判定單元,所述第三判定單元用于判定所述實(shí)體是否存在歧義;
第一查找單元,所述第一查找單元用于當(dāng)所述實(shí)體不存在歧義時(shí),利用完全匹配和/或擴(kuò)展屬性的方法在所述外部資源中查找信息;
第二查找單元,所述第二查找單元用于當(dāng)所述實(shí)體存在歧義時(shí),利用與所述實(shí)體相關(guān)的其他屬性以及所述外部資源中的信息區(qū)分,在所述外部資源中查找信息。
8.根據(jù)權(quán)利要求1所述的信息處理裝置,其中,所述第一擴(kuò)展單元包括:
第一擴(kuò)展模塊,所述第一擴(kuò)展模塊用于根據(jù)外部資源中的結(jié)構(gòu)化信息對(duì)所述實(shí)體的屬性進(jìn)行擴(kuò)展;和/或
第二擴(kuò)展模塊,所述第二擴(kuò)展模塊用于從外部資源中的非結(jié)構(gòu)化信息中提取結(jié)構(gòu)化信息,從而對(duì)所述實(shí)體的屬性進(jìn)行擴(kuò)展。
9.根據(jù)權(quán)利要求1所述的信息處理裝置,其中,所述信息處理裝置還包括:
融合單元,所述融合單元用于對(duì)至少兩個(gè)數(shù)據(jù)源中的信息進(jìn)行相同屬性的融合,并將屬性融合后的信息用于進(jìn)行所述同一實(shí)體的判定;
其中,所述融合單元包括:
第四判定單元,所述第四判定單元用于根據(jù)至少兩個(gè)數(shù)據(jù)源中的不同字段的分布相似程度初步判斷所述不同的字段是否可能指向同一屬性;
第五判定單元,所述第五判定單元用于當(dāng)所述不同的字段中的相同的重復(fù)實(shí)例大于預(yù)先設(shè)定的比例時(shí),判定所述不同的字段指向同一屬性。
10.一種多數(shù)據(jù)源的信息處理方法,所述信息處理方法包括:
對(duì)至少兩個(gè)數(shù)據(jù)源中的信息進(jìn)行同一實(shí)體的判定;
將所述至少兩個(gè)數(shù)據(jù)源中的實(shí)體鏈接到預(yù)先設(shè)定的外部資源中;
根據(jù)外部資源中的信息對(duì)所述實(shí)體的屬性進(jìn)行擴(kuò)展;
判斷屬性擴(kuò)展后的信息是否滿足預(yù)先設(shè)定的條件;當(dāng)所述屬性擴(kuò)展后的信息不滿足預(yù)先設(shè)定的條件時(shí),將屬性擴(kuò)展后的信息用于進(jìn)行所述同一實(shí)體的判定,當(dāng)所述屬性擴(kuò)展后的信息滿足預(yù)先設(shè)定的條件時(shí),將所述屬性擴(kuò)展后的信息輸出。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于富士通株式會(huì)社,未經(jīng)富士通株式會(huì)社許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410291263.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種基于UDP分布式小文件存儲(chǔ)系統(tǒng)及其數(shù)據(jù)處理方法
- 一種新型云計(jì)算管理系統(tǒng)
- 一種云計(jì)算管理裝置
- 一種節(jié)能數(shù)據(jù)服務(wù)器架構(gòu)系統(tǒng)
- 一種基于云計(jì)算的客戶信息管理裝置
- 一種基于即時(shí)通訊技術(shù)的通訊系統(tǒng)
- 服務(wù)器系統(tǒng)及分配服務(wù)器的方法
- 一種MMORPG游戲服務(wù)器端
- 一種訪問(wèn)請(qǐng)求的處理方法、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于Spark技術(shù)的大數(shù)據(jù)脫敏管理系統(tǒng)





