[發(fā)明專利]一種面向海量互聯(lián)網(wǎng)信息的文本語義建模方法在審
| 申請?zhí)枺?/td> | 201610075760.8 | 申請日: | 2016-02-03 |
| 公開(公告)號: | CN107038163A | 公開(公告)日: | 2017-08-11 |
| 發(fā)明(設(shè)計(jì))人: | 李華康;鐘鑫;楊天楚;楊天若 | 申請(專利權(quán))人: | 常州普適信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 213014 江蘇省常州市新北區(qū)*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 海量 互聯(lián)網(wǎng) 信息 文本 語義 建模 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種互聯(lián)網(wǎng)語義模型發(fā)現(xiàn)方法,具體涉及一種基于海量互聯(lián)網(wǎng)信息的文本語義建模方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)上的信息呈幾何級數(shù)爆發(fā)式增長。于此同時(shí),互聯(lián)網(wǎng)作為一種高速、虛擬的交流平臺的匿名特性、高度互動性,將原來只有通過嚴(yán)格審核的新聞傳媒信息傳播模式,轉(zhuǎn)變到每個人均可以發(fā)布、發(fā)表信息和觀點(diǎn)。而由于每個人的認(rèn)知領(lǐng)域的局限性,對非專業(yè)領(lǐng)域內(nèi)的觀點(diǎn)存在很大的主觀性,無法客觀的表達(dá)自身觀點(diǎn)或者評價(jià)。在經(jīng)濟(jì)利益的驅(qū)使下,甚至出現(xiàn)了惡意發(fā)布不正信息和平均的水軍,導(dǎo)致網(wǎng)絡(luò)信息的可信度逐漸降低。另一方面,以前的新聞傳媒記者需要一定的文法功底,所發(fā)表的文章均接受嚴(yán)格審核,在行文文法上具有很好的規(guī)則性。而隨著自媒體的發(fā)展,網(wǎng)絡(luò)用語越來越豐富多彩,跟多的方言、口語內(nèi)容成為了網(wǎng)絡(luò)信息的主流。互聯(lián)網(wǎng)信息的用語的不規(guī)則性問題也越來越突出。如何在海量互聯(lián)網(wǎng)信息中構(gòu)建結(jié)構(gòu)化文本語義模型,使得這些不規(guī)則、弱可信的大規(guī)模信息可信、可用已經(jīng)成為當(dāng)前的研究熱點(diǎn)和難點(diǎn)。
簡單而言,文本語義建模就是將非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本轉(zhuǎn)化為計(jì)算機(jī)可以理解的結(jié)構(gòu)化的表現(xiàn)形式的過程。如“聯(lián)想集團(tuán)于2004年12月8日收購了ThinkPad”和“在2004年十二月八日,ThinkPad出售給了聯(lián)想”。兩句雖然主體詞匯、順序不一樣,但是表達(dá)的語義是一致的。為了避免計(jì)算機(jī)在處理自然語言過程中的模糊性和二義性,即計(jì)算機(jī)使用的結(jié)構(gòu)化表示方式所得到的結(jié)果應(yīng)該是唯一的。結(jié)構(gòu)化數(shù)據(jù)可以被計(jì)算機(jī)所理解,并能夠執(zhí)行查找、推理和轉(zhuǎn)換等操作。
一般的文本語義建模主要包含文本語義的形式表示、構(gòu)建過程、構(gòu)建方法以及淺層語義分析等環(huán)節(jié)。
文本語義建模過程中最為基礎(chǔ)的是文本語義的表示形式。在自然語言處理過程中,根據(jù)不同的場景可以分為謂詞邏輯、產(chǎn)生式、語義網(wǎng)絡(luò)、框架、過程、類對比等多種文本語義表示方法,其中框架理論和語義網(wǎng)絡(luò)最具代表性。框架語義學(xué)是把詞義、句子意義和文本意義統(tǒng)一使用框架進(jìn)行描述。框架由框架名、元素、對應(yīng)詞匯等部分組成。語義網(wǎng)絡(luò)使用概念及語義關(guān)系來表達(dá)內(nèi)容之間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)一個由結(jié)點(diǎn)、弧和指示器三個元素所構(gòu)建知識的拓?fù)浣Y(jié)構(gòu)。
文本語義構(gòu)建根據(jù)過程不同可以分為基本、基于知識庫和語法分析的語義構(gòu)建過程。基本的構(gòu)建過程首先對文本中的實(shí)體進(jìn)行識別,然后建立實(shí)體之間的關(guān)系。基于知識庫的構(gòu)建過程中由于加入了知識庫,文本中的詞匯通過一個轉(zhuǎn)換映射到知識庫中的某個概念或者概念實(shí)例,而知識庫中實(shí)體的關(guān)系就成為文本中的關(guān)系發(fā)現(xiàn)。語法分析構(gòu)建過程加入句法分析,從無結(jié)構(gòu)的文本映射為句法結(jié)構(gòu)分析,再從句法結(jié)構(gòu)映射為語義結(jié)構(gòu)。
目前常用的文本語義構(gòu)建方法包括基于知識的方法、基于數(shù)據(jù)的方法和知識與數(shù)據(jù)相結(jié)合的方法。基于知識的語義構(gòu)建方法基于一個已知的語義抽取規(guī)則,每條抽取規(guī)則包括模式或抽取方法兩個部分,對滿足某個模式的信息,使用相匹配的抽取方法實(shí)現(xiàn)文本語義抽取。基于數(shù)據(jù)的好方法首先構(gòu)建一個數(shù)據(jù)模型,然后使用該模型對大規(guī)模文本數(shù)據(jù)進(jìn)行分析,提取出文本中的語義信息。由于該方法不需要介入太多的人工標(biāo)注,但是缺乏良好的可理解性。兩者結(jié)合的思維是以知識方法為主,使用人工標(biāo)注方法構(gòu)建基礎(chǔ)知識概念、關(guān)聯(lián)關(guān)系等抽象部分,再利用大規(guī)模的數(shù)據(jù)自動抽取規(guī)則和領(lǐng)域詞匯來實(shí)現(xiàn)其他文本信息的處理。
以上介紹的語義構(gòu)建技術(shù)以完全理解文本的內(nèi)容為最終目的,因此又可以成為深層語義分析。于此相對的,淺層語義分析主要研究語句中的詞匯或短語等句法成分之間的語義關(guān)系,即詞匯之間的語義關(guān)系抽取,由于其研究定義清洗、明確,更加便于標(biāo)注、評測,還能夠作為深層語義分析研究的基礎(chǔ),逐漸受到研究人員的關(guān)注。
綜上所述,現(xiàn)有的文本語義建模方法一方面需要大量的人工標(biāo)注,另一方面都是基于完全可信的基礎(chǔ)上予以實(shí)施的。而互聯(lián)網(wǎng)信息的海量性、弱可信、弱可用性等特點(diǎn),使得現(xiàn)有的深度語義構(gòu)建以及淺層語義理解技術(shù)已經(jīng)無法適應(yīng)互聯(lián)網(wǎng)海量信息的文本語義建模實(shí)現(xiàn)。
發(fā)明內(nèi)容
本發(fā)明主要解決自媒體時(shí)代海量互聯(lián)網(wǎng)信息的不規(guī)則性、弱可信與弱可用性帶來的文本信息價(jià)值低、可用性不高等問題,從技術(shù)上構(gòu)建海量互聯(lián)網(wǎng)信息的文本語義模型并做系統(tǒng)實(shí)現(xiàn)。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供的技術(shù)方案如下:
一種面向海量互聯(lián)網(wǎng)信息的文本語義建模方法,包括:
一個原始海量語料庫,存儲從互聯(lián)網(wǎng)上抓取的海量文本信息;
一個分詞詞庫,用以對中文句子的分詞;
一個詞性詞庫,用以對分詞后的詞匯或者短語進(jìn)行詞性標(biāo)注;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于常州普適信息科技有限公司,未經(jīng)常州普適信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610075760.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:紗線導(dǎo)向器
- 下一篇:一種可防盜便捷VR線收納裝置
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種數(shù)據(jù)庫海量數(shù)據(jù)比對的方法
- 基于云計(jì)算的海量數(shù)據(jù)訪問處理系統(tǒng)
- 一種實(shí)現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實(shí)現(xiàn)海量數(shù)據(jù)準(zhǔn)實(shí)時(shí)全量統(tǒng)計(jì)的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點(diǎn)數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲方法
- 基于網(wǎng)絡(luò)電視的互聯(lián)網(wǎng)業(yè)務(wù)處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務(wù)接入網(wǎng)關(guān)的實(shí)現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應(yīng)用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動攝像終端進(jìn)行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡(luò)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護(hù)用于互聯(lián)網(wǎng)資源分配的事務(wù)
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務(wù)器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點(diǎn)中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





