[發(fā)明專利]從中文語料庫提取知識的方法與系統(tǒng)有效
| 申請?zhí)枺?/td> | 201810016373.6 | 申請日: | 2018-01-08 |
| 公開(公告)號: | CN108319583B | 公開(公告)日: | 2021-11-26 |
| 發(fā)明(設(shè)計(jì))人: | 李應(yīng)樵;張英輝 | 申請(專利權(quán))人: | 萬維數(shù)碼智能有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F40/253;G06F40/216 |
| 代理公司: | 北京派特恩知識產(chǎn)權(quán)代理有限公司 11270 | 代理人: | 康艷青;姚開麗 |
| 地址: | 中國香港新界沙田香港科學(xué)園科*** | 國省代碼: | 香港;81 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 中文 語料庫 提取 知識 方法 系統(tǒng) | ||
本發(fā)明公開了一種從主要用中文書寫的源語料庫(101)中提取知識(103)的方法、系統(tǒng)和計(jì)算機(jī)可讀介質(zhì),用于生成中文本體庫。所述方法包括步驟:從源語料庫(101)獲取字符串(141),其中每個源語料庫(101)代表一個概念;將所述字符串(141)分割成分割的詞語或單詞(142);對所述分割的詞語或單詞(142)應(yīng)用詞性(POS)標(biāo)注(113);由所述分割的詞語或單詞將單獨(dú)的中文詞語或單詞搭配成有意義的短語或復(fù)合詞;從所述已分割的短語、詞語或單詞(142)中提取中文名詞短語、詞語或單詞(148);為所述提取結(jié)果推算詞頻;并存儲所述提取結(jié)果與所述概念的詞頻加權(quán)向量(149),用于生成另一個中文本體庫。
技術(shù)領(lǐng)域
本發(fā)明涉及詞語切分領(lǐng)域,尤其涉及一種從主要用中文書寫的源語料庫中提取知識的方法和系統(tǒng),用于通過自動詞語切分、詞性(POS)標(biāo)注、中文名詞短語搭配和頻率推算來生成中文本體庫。
背景技術(shù)
在信息技術(shù)時代,每天從網(wǎng)絡(luò)、企業(yè)計(jì)算機(jī)網(wǎng)絡(luò)或其他數(shù)據(jù)庫上傳和下載大量數(shù)據(jù)。數(shù)據(jù)用戶總是希望從網(wǎng)絡(luò)、企業(yè)計(jì)算機(jī)網(wǎng)絡(luò)或其他數(shù)據(jù)庫搜索他們想要的那些信息,但有時返回的信息并不是正好的。本體庫是對不同概念之間特定的相似性和聯(lián)系的表示,其中每一個概念都有其獨(dú)特的語義信息,以提高搜索的準(zhǔn)確性和預(yù)測關(guān)聯(lián)性。
本體庫可以用不同語言的知識生成。無論使用哪種語言,都必須處理這種語言中的語料并提取用于本體庫生成的關(guān)鍵短語。一些語言如中文,單詞間沒有明顯的分隔詞,相比英語,在語言處理中可能更難或更復(fù)雜,而且可能使知識提取變得困難。因此,很難有一種有效的分割方法來將中文文本語料庫分割成有意義的短語。
傳統(tǒng)上,中文文本語料庫的文本分割是通過條件隨機(jī)域(Conditional RandomField,CRF)或隱形馬爾可夫模型(HMM)來實(shí)現(xiàn)的。這兩種方法都是基于圖案識別和預(yù)測的統(tǒng)計(jì)建模方法。然而,這些分割方法的基本單位是單詞或詞語而不是短語,因此所有漢字字符串中的中文短語都被分割成單詞或詞語用于語義相似性的推導(dǎo)。因此,現(xiàn)有技術(shù)的算法不必要地增加了用于識別的整體計(jì)數(shù)并導(dǎo)致用于進(jìn)一步生成中文本體庫的有意義結(jié)果的減少。例如,中文短語如“金融危機(jī)”被分割成“金融”和“危機(jī)”而不是提取整個短語,其中最相關(guān)的信息或知識可能由于所述分割而不被感知。
US20090313243 A1公開了一種方法來計(jì)算一個領(lǐng)域的語義數(shù)據(jù)源中短語的相關(guān)性分?jǐn)?shù)并基于這些短語的相關(guān)性分?jǐn)?shù)來計(jì)算語義數(shù)據(jù)源的權(quán)重。所述相關(guān)分?jǐn)?shù)是根據(jù)一個短語在該領(lǐng)域語料庫中的頻率和該短語的預(yù)期頻率來計(jì)算的。該方法具有本發(fā)明的某些特征,但具有在處理單詞間沒有明確的分隔符或空格的中文短語時的低效和無能的缺點(diǎn)。
CN101169780 A公開了一個基于語義本體庫的檢索系統(tǒng)。其中的文本索引處理單元是通過分析文本內(nèi)容、提取關(guān)鍵詞和文件標(biāo)識信息建立文本索引的常規(guī)處理單元。該出版物中的語義搜索聚焦于關(guān)鍵詞的關(guān)系和屬性,而沒有認(rèn)識到詞語切分、標(biāo)記和識別相關(guān)信息的詞頻加權(quán)的重要性,。
US7680648 B2公開了用于改進(jìn)文本分割的方法和系統(tǒng)。一系列字符可以被分割成多個分割字符串的組合,所公開的方法引入了出現(xiàn)頻率來識別和選擇其中的最佳可操作分割結(jié)果。該方法對沒有明確分隔符的搜索查詢具有較好的分割效果,但沒有搭配或名詞短語識別的概念,對中文句子的處理效果不明顯。
由此,需要一種用于從中文語料庫提取知識的更有效、更準(zhǔn)確的方法和系統(tǒng),優(yōu)選是自動計(jì)算機(jī)可實(shí)現(xiàn)的方法和系統(tǒng),以更好地實(shí)現(xiàn)中文本體庫生成。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于萬維數(shù)碼智能有限公司,未經(jīng)萬維數(shù)碼智能有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810016373.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





