[發(fā)明專利]一種事件陳述句素材庫的生成方法有效
| 申請?zhí)枺?/td> | 201010225038.0 | 申請日: | 2010-07-13 |
| 公開(公告)號: | CN102207948A | 公開(公告)日: | 2011-10-05 |
| 發(fā)明(設(shè)計(jì))人: | 宋傳寶 | 申請(專利權(quán))人: | 天津海量信息技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京汲智翼成知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11381 | 代理人: | 陳曦 |
| 地址: | 300384 天津市華苑*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 事件 陳述句 素材庫 生成 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種語言素材庫的生成方法,尤其涉及一種針對事件陳述句的句子級素材庫生成方法,屬于計(jì)算語言學(xué)技術(shù)領(lǐng)域。
背景技術(shù)
素材庫也稱語料庫(corpus),是存儲于計(jì)算機(jī)中并可利用計(jì)算機(jī)進(jìn)行檢索、查詢、分析的語言素材的總體。素材庫具有“大規(guī)模”和“真實(shí)性”這兩個特點(diǎn),因此是最理想的語言知識資源。
文本是最基本、最常用的信息載體。在計(jì)算機(jī)語言處理工作中,文本的加工與處理技術(shù)顯得尤為重要。文本信息通常以篇章形式存在。在當(dāng)前互聯(lián)網(wǎng)諸多信息加工應(yīng)用中,也均以篇章為處理單元,如:網(wǎng)絡(luò)資訊、搜索引擎等。句子作為能夠表達(dá)完整意思的最小語言單位,在信息處理與應(yīng)用中,具有多種形式和價(jià)值,尤其是在媒體資訊的檢索、寫作、整理等過程中更是如此。而在當(dāng)前存在的各種語言處理技術(shù)中,以句子為處理顆粒的尚不多見。
在2003年舉行的全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議中,苗傳江、劉智穎合作發(fā)表了論文《現(xiàn)代漢語語料的句子級語義標(biāo)注》。在該論文中,討論了一種標(biāo)注現(xiàn)代漢語語料的方案。它有兩個特點(diǎn):一是采取自下而上的標(biāo)注方式,即先標(biāo)注大的語言單位,再標(biāo)注小的語言單位;二是對句子進(jìn)行語義標(biāo)注,標(biāo)注了句子及句內(nèi)子句的語義類型和它們的下一級語義構(gòu)成成分。按此方案建立的語料庫是現(xiàn)代漢語句子語義研究和處理的重要資源。
另外,在申請?zhí)枮?00810065527.7的中國發(fā)明專利申請中,公開了一種用電子裝置對文章句子進(jìn)行快速分類及檢索的方法。在該技術(shù)方案中,電子裝置按特定的分類方法生成文章句子的分類目錄表。在檢索時(shí):用戶打開的電子書內(nèi)容,處理器逐個提取每個句子,并查找到該句子所在的分類目錄,將分類目錄名稱作為分類標(biāo)記附注添加到該句子上,帶分類標(biāo)記的句子被用戶選中后,句子讀取指針定位到分類目錄,對其中的句子進(jìn)行輸出。電子裝置可對文章句子進(jìn)行分類貯存,其步驟如下:1)顯示屏上顯示由若干條句子組成的文章內(nèi)容;2)通過編輯器為其中的任意句子做上特定分類標(biāo)記;3)貯存器中建立與上述每個分類標(biāo)記對應(yīng)的類別目錄,如果目錄已經(jīng)存在,則不建立;4)處理器對有分類標(biāo)記的句子進(jìn)行檢測及識別,自動將每個有分類標(biāo)記的句子保存到對應(yīng)的上述類別目錄中。但是,該專利申請中對句子的挖掘與整理在很大程度上依賴于人工,工作效率并不高,根本無法滿足海量中文文本數(shù)據(jù)的處理要求。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于提供一種針對事件陳述句的句子級素材庫生成方法。該方法以句子為顆粒抽取文本中的事件陳述句,并對其進(jìn)行事件發(fā)生時(shí)間等字段的標(biāo)引,從而將原始的文章數(shù)據(jù)庫轉(zhuǎn)換為所需的句子級素材庫。
為實(shí)現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術(shù)方案:
一種事件陳述句素材庫的生成方法,其特征在于包括如下的步驟:
(1)對于一篇文章,首先從左至右掃描,當(dāng)掃描到的字符為表示長句結(jié)束的標(biāo)點(diǎn)符號時(shí),則將前面的內(nèi)容記錄為一個長句,從而將一篇文章轉(zhuǎn)換為多個長句的集合;
(2)針對轉(zhuǎn)換后的長句的集合,結(jié)合文章的發(fā)表時(shí)間,進(jìn)行時(shí)間點(diǎn)識別抽取處理;
(3)在進(jìn)行時(shí)間點(diǎn)識別抽取處理后,對于不存在時(shí)間點(diǎn)表達(dá)的長句放棄后續(xù)處理,對于存在時(shí)間點(diǎn)表達(dá)的長句進(jìn)行后續(xù)處理;
(4)對于存在時(shí)間點(diǎn)表達(dá)的長句,進(jìn)行事件描述動詞的抽取,如果不存在事件描述動詞,則放棄后續(xù)處理;
(5)對于上述步驟獲得的長句,進(jìn)行人名、地名、機(jī)構(gòu)名、產(chǎn)品名的命名實(shí)體識別與抽取,如果這幾種命名實(shí)體均不存在,則放棄后續(xù)處理;
(6)根據(jù)長句進(jìn)行分詞與命名實(shí)體識別處理后的詞序列結(jié)果,進(jìn)行淺層句法分析,分析出主語、謂語、賓語,確定事件發(fā)生的主客體;
(7)針對上述步驟確認(rèn)的事件陳述句,結(jié)合步驟(2)、步驟(5)的命名實(shí)體抽取結(jié)果,對包括事件發(fā)生時(shí)間、發(fā)生地點(diǎn)、事件類型在內(nèi)的要素信息進(jìn)行抽取標(biāo)引,獲得結(jié)構(gòu)化結(jié)果;
(8)將事件陳述句的原始片段和結(jié)構(gòu)化結(jié)果抽取出來存入數(shù)據(jù)庫中,從而生成事件陳述句素材庫。
其中,在所述步驟(1)中,所述表示長句結(jié)束的標(biāo)點(diǎn)符號為全角句號、全角問號、全角嘆號、全角省略號、半角問號和半角嘆號中的任意一種。
所述步驟(2)中,所述時(shí)間點(diǎn)識別抽取處理是以人工收集的時(shí)間點(diǎn)表達(dá)基本用字與用詞作為識別的觸發(fā)條件,先對文本進(jìn)行分詞處理;然后對候選的時(shí)間點(diǎn)表達(dá)詞顆粒序列,根據(jù)人工統(tǒng)計(jì)得到的時(shí)間表達(dá)模式進(jìn)行確認(rèn)判別,并驗(yàn)證時(shí)間表達(dá)的合法性。
對于確認(rèn)為時(shí)間點(diǎn)的表達(dá),依據(jù)其內(nèi)部的數(shù)詞和量詞,以輸入的文本發(fā)布時(shí)間為基準(zhǔn)時(shí)間參考點(diǎn),將表達(dá)式歸一化為公元紀(jì)元方式。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津海量信息技術(shù)有限公司,未經(jīng)天津海量信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010225038.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:小型化的DC阻斷裝置
- 下一篇:多頻段吸頂天線
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種事件通訊裝置及方法
- 動態(tài)權(quán)重事件處理系統(tǒng)和方法
- 攻擊檢測裝置和攻擊檢測方法
- 基于Unity的事件管理方法及系統(tǒng)
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 熱點(diǎn)事件確定方法及裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 一種樹狀模型中節(jié)點(diǎn)的連接方法及其模型、計(jì)算機(jī)裝置和可讀存儲介質(zhì)
- 一種事件處理方法、裝置、設(shè)備及存儲介質(zhì)
- 一種事件陳述句素材庫的生成方法
- 一種將電話對話實(shí)時(shí)記錄并轉(zhuǎn)化陳述句的方法和系統(tǒng)
- 一種實(shí)時(shí)將陳述句進(jìn)行半人工標(biāo)準(zhǔn)化處理的方法和系統(tǒng)
- 一種基于統(tǒng)計(jì)參數(shù)的疑問句、感嘆句的語音合成方法
- 基于決策樹和SVM混合模型的中文句型分類方法
- 一種隱式篇章關(guān)系語料庫的構(gòu)建方法、裝置和存儲介質(zhì)
- 基于語義邏輯唯一性判斷的處理問答數(shù)據(jù)的方法及系統(tǒng)
- 一種英語教學(xué)用具
- 一種基于序列標(biāo)注的把字句和被字句陳述化方法及系統(tǒng)
- 構(gòu)造報(bào)交通信系統(tǒng)
- 一種頭像相框的生成方法和系統(tǒng)
- 自學(xué)習(xí)的文件鑒定方法及系統(tǒng)
- 一種面向虛擬場景生成的視頻圖像素材庫的構(gòu)造方法
- 一種用于構(gòu)建建筑產(chǎn)品素材庫的人機(jī)交互系統(tǒng)
- 一種云剪素材庫系統(tǒng)及實(shí)現(xiàn)方法
- 布線管理系統(tǒng)、設(shè)備及存儲介質(zhì)
- 公用素材庫建立系統(tǒng)及方法
- 用于分析圖像素材的方法和裝置
- 一種基于大數(shù)據(jù)的公共教育培訓(xùn)素材共享系統(tǒng)及工作方法
- 動態(tài)素材數(shù)據(jù)處理方法、系統(tǒng)、計(jì)算機(jī)和可讀存儲介質(zhì)





