[發(fā)明專(zhuān)利]基于文本片斷的計(jì)算機(jī)漢字知識(shí)庫(kù)采集系統(tǒng)無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 200710039412.6 | 申請(qǐng)日: | 2007-04-12 |
| 公開(kāi)(公告)號(hào): | CN101286148A | 公開(kāi)(公告)日: | 2008-10-15 |
| 發(fā)明(設(shè)計(jì))人: | 朱勝 | 申請(qǐng)(專(zhuān)利權(quán))人: | 上海思闊雅軟件有限公司 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 上海東創(chuàng)專(zhuān)利代理事務(wù)所 | 代理人: | 陳希 |
| 地址: | 201203上*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 文本 片斷 計(jì)算機(jī) 漢字 知識(shí)庫(kù) 采集 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)信息采集系統(tǒng),特別涉及基于文本片斷的計(jì)算機(jī)漢字知識(shí)庫(kù)采集系統(tǒng)。
背景技術(shù)
我們的生活和工作中產(chǎn)生了大量的漢字信息,并已經(jīng)轉(zhuǎn)換成計(jì)算機(jī)能認(rèn)識(shí)的格式,存儲(chǔ)在計(jì)算機(jī)硬盤(pán)上。為了方便利用這些計(jì)算機(jī)漢字信息,人們建立了知識(shí)庫(kù),存儲(chǔ)在計(jì)算機(jī)硬盤(pán)上。構(gòu)建這些在計(jì)算機(jī)硬盤(pán)上的知識(shí)庫(kù)一般有兩種方式:一種是建立精確的知識(shí)描述,如“玫瑰是紅色的”,由人手通過(guò)鍵盤(pán)和鼠標(biāo)來(lái)輸入這些描述,典型的例子是專(zhuān)家系統(tǒng);另一種是建立文本的存儲(chǔ)和關(guān)鍵字搜索體系,關(guān)鍵字間的關(guān)聯(lián)以及關(guān)鍵字與文本之間的關(guān)聯(lián)則隱含了知識(shí),借助用戶(hù)的少量幫助,系統(tǒng)可以自動(dòng)對(duì)散布在各處的文本進(jìn)行存檔、歸類(lèi)和提取關(guān)鍵字,典型的例子包括Expert?System的COGITO,Connotate的Information?Agents,等等,而Google,百度等搜索引擎也提供了部分的類(lèi)似功能,但知識(shí)庫(kù)和關(guān)鍵字的精確度則低了許多。
第一種方式雖然能建立準(zhǔn)確的知識(shí)庫(kù),但需要大量的人力來(lái)輸入和驗(yàn)證,因此知識(shí)庫(kù)進(jìn)展緩慢。第二種方式能在短時(shí)間建立起知識(shí)庫(kù),但知識(shí)庫(kù)質(zhì)量不高,搜索結(jié)果還是需要最終用戶(hù)來(lái)篩選。由于企業(yè)信息化產(chǎn)生了大量文本,企業(yè)投入了大量資金和精力建立了龐大的文本庫(kù),使得第二種方式應(yīng)用極為廣泛。當(dāng)文本庫(kù)增長(zhǎng)到一定程度,關(guān)鍵字搜索的弊端就開(kāi)始顯示出來(lái)。因?yàn)樗阉鞣祷氐慕Y(jié)果太多,真正的知識(shí)被隱藏在成千上萬(wàn)的文本之中,致使最終用戶(hù)的篩選工作非常困難。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題有兩個(gè):首先,計(jì)算機(jī)漢字信息轉(zhuǎn)換錄入知識(shí)庫(kù)的人工要少,最好在人們正常收集漢字信息的基礎(chǔ)上不增加人力,而且不需要專(zhuān)門(mén)學(xué)習(xí),即技術(shù)上要解決與現(xiàn)有的用戶(hù)生成和收集計(jì)算機(jī)漢字信息同步的問(wèn)題;其次,用戶(hù)在生成和收集計(jì)算機(jī)漢字信息時(shí)所隱含的知識(shí)要保留下來(lái),即在技術(shù)上需要將知識(shí)與計(jì)算機(jī)漢字信息一起存儲(chǔ)在計(jì)算機(jī)硬盤(pán)上。
本發(fā)明的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
一種基于文本片斷的計(jì)算機(jī)漢字知識(shí)庫(kù)采集系統(tǒng),包括:
文本片斷數(shù)據(jù)庫(kù),保存至少一個(gè)文本片斷記錄,所述文本片斷記錄包括文本片斷所在文本的位置以及文本片斷在文本中的位置;
討論適配器,包括一個(gè)發(fā)送/接收單元,用于接收第三方系統(tǒng)的信息以及向第三方系統(tǒng)發(fā)送信息,以及一個(gè)格式轉(zhuǎn)換單元,將討論數(shù)據(jù)庫(kù)中的內(nèi)部格式與第三方系統(tǒng)的信息格式互相轉(zhuǎn)換;
討論數(shù)據(jù)庫(kù),存儲(chǔ)經(jīng)過(guò)格式轉(zhuǎn)換單元轉(zhuǎn)換格式后的信息;
知識(shí)數(shù)據(jù)庫(kù),用存儲(chǔ)預(yù)先定義的連接詞來(lái)定義文本片斷之間的關(guān)系,以及該關(guān)系特有的屬性。
其中,所述的文本片斷為文字型文本片斷、圖片型文本片斷和/或多媒體文本片斷。
所述文字型文本片斷的記錄包括所述文本的位置,以及所述文本片斷文字行號(hào)的范圍、字詞的范圍或段落的范圍;所述圖片型文本片斷的記錄包括圖片文件的位置,以及所述文本片斷所表示的截圖的范圍坐標(biāo);所述多媒體文本片斷的記錄包括該多媒體文件的位置,以及文本片斷的起始和結(jié)束時(shí)間。
在文本片斷數(shù)據(jù)庫(kù)中,利用網(wǎng)絡(luò)地址URL指明文本片斷所在文本的位置。
所述第三方系統(tǒng)為外部的論壇系統(tǒng)、電子郵件系統(tǒng)或即時(shí)通訊系統(tǒng)。
所述內(nèi)部格式有如下組成部分:本討論標(biāo)題,本討論作者,本討論收件人,本討論時(shí)間,本討論內(nèi)容,本討論針對(duì)的文本片斷,對(duì)本討論針對(duì)的文本片斷的問(wèn)題或解答。
所述知識(shí)數(shù)據(jù)庫(kù)的記錄包括源文本片斷、目標(biāo)文本片斷、連接詞以及屬性信息,其中文本片斷是文本片斷數(shù)據(jù)庫(kù)記錄的文本片斷。知識(shí)庫(kù)中記載的文本片斷為該片斷在文本片斷庫(kù)中的獨(dú)特編號(hào),無(wú)須復(fù)制該片斷的全部?jī)?nèi)容。
本發(fā)明的積極進(jìn)步效果在于:把計(jì)算機(jī)漢字信息產(chǎn)生時(shí)附帶的知識(shí)予以保存,大大節(jié)省了日后檢索知識(shí)庫(kù)所耗費(fèi)的時(shí)間,能明顯提高企事業(yè)單位對(duì)專(zhuān)業(yè)知識(shí)的使用,從而節(jié)省產(chǎn)品研發(fā)、客戶(hù)服務(wù)和決策等的成本。
附圖說(shuō)明
圖1為本發(fā)明一實(shí)施例的示意圖。
具體實(shí)施方式
下面結(jié)合附圖給出本發(fā)明較佳實(shí)施例,以詳細(xì)說(shuō)明本發(fā)明的技術(shù)方案。
首先,每個(gè)文本可以分成很多片斷。一個(gè)典型的片斷就是:“第23行到28行”。而在文本以及文本片斷之間,存在邏輯關(guān)系。建立文本片斷之間的關(guān)系,不管這些片斷是來(lái)自同一個(gè)文件還是不同的文件。例如,“文本A的第二個(gè)片斷”“解釋”“文本K的第12個(gè)片斷”。每個(gè)關(guān)系包括:源文本片斷,目的文本片斷、連接詞以及該關(guān)系所具有的屬性。
本發(fā)明用線索化的討論來(lái)建立這些連接。線索化的討論可以是在論壇、電子郵件、即時(shí)通訊等第三方系統(tǒng)中進(jìn)行。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于上海思闊雅軟件有限公司,未經(jīng)上海思闊雅軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710039412.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 人物檢測(cè)裝置和人物檢測(cè)方法
- 使計(jì)算存儲(chǔ)器適合存儲(chǔ)設(shè)備的方法和處理計(jì)算任務(wù)的方法
- 用于圖像標(biāo)記的設(shè)備和方法
- 用于重用數(shù)據(jù)訪問(wèn)和呈現(xiàn)元素的方法和裝置
- 數(shù)據(jù)轉(zhuǎn)換方法和裝置、數(shù)據(jù)記錄裝置和數(shù)據(jù)播放裝置
- 用于布局驗(yàn)證的基于模式片斷的熱點(diǎn)數(shù)據(jù)庫(kù)系統(tǒng)
- 運(yùn)動(dòng)圖像處理裝置、運(yùn)動(dòng)圖像處理方法和程序
- 圖像壓縮方法和裝置
- 一種系統(tǒng)運(yùn)行時(shí)可視化代碼片斷搭建前端系統(tǒng)的方法
- 一種界面分段式軟磁彩票數(shù)據(jù)分析裝置
- 雙桌面遠(yuǎn)程控制系統(tǒng)及方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 雙計(jì)算機(jī)系統(tǒng)
- 制導(dǎo)雷達(dá)計(jì)算機(jī)系統(tǒng)
- 一種服務(wù)部署方法及裝置
- 一種計(jì)算機(jī)集成系統(tǒng)及故障自動(dòng)切換方法
- 一種計(jì)算機(jī)信息安全監(jiān)控系統(tǒng)
- 混合型量子計(jì)算機(jī)架構(gòu)及其執(zhí)行計(jì)算任務(wù)的方法





