[發(fā)明專利]基于文檔拆分的知識(shí)庫(kù)建設(shè)方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201811038766.3 | 申請(qǐng)日: | 2018-09-06 |
| 公開(公告)號(hào): | CN110889280B | 公開(公告)日: | 2023-09-26 |
| 發(fā)明(設(shè)計(jì))人: | 占釗;畢小栓;楊舜;曹遠(yuǎn)欣;錢凌 | 申請(qǐng)(專利權(quán))人: | 上海智臻智能網(wǎng)絡(luò)科技股份有限公司;貴州小愛(ài)機(jī)器人科技有限公司 |
| 主分類號(hào): | G06N5/025 | 分類號(hào): | G06N5/025;G06F40/258;G06F40/30;G06F40/211;G06F16/34;G06F16/36;G06F16/332 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 張振軍;吳敏 |
| 地址: | 201803 上海市嘉*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 文檔 拆分 知識(shí)庫(kù) 建設(shè) 方法 裝置 | ||
一種基于文檔拆分的知識(shí)庫(kù)建設(shè)方法及裝置,所述知識(shí)庫(kù)建設(shè)方法包括:獲取待處理的文檔;判斷所述文檔是否具有標(biāo)題;如果所述文檔具有標(biāo)題,則確定所述文檔內(nèi)的各級(jí)標(biāo)題;至少將部分標(biāo)題作為介紹知識(shí)點(diǎn)的介紹問(wèn)題,以及將所述部分標(biāo)題下的至少部分內(nèi)容作為所述介紹知識(shí)點(diǎn)的答案存儲(chǔ)至知識(shí)庫(kù)中。本發(fā)明技術(shù)方案可以實(shí)現(xiàn)在已有的文檔的基礎(chǔ)上形成知識(shí)點(diǎn),還可以實(shí)現(xiàn)對(duì)知識(shí)庫(kù)中知識(shí)點(diǎn)的內(nèi)容的擴(kuò)展,提升知識(shí)庫(kù)的豐富性,進(jìn)而擴(kuò)大知識(shí)庫(kù)的應(yīng)用范圍。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)言處理技術(shù)領(lǐng)域,尤其涉及一種基于文檔拆分的知識(shí)庫(kù)建設(shè)方法及裝置。
背景技術(shù)
在智能問(wèn)答系統(tǒng)中,知識(shí)庫(kù)可以提供知識(shí)點(diǎn),知識(shí)點(diǎn)可以包括標(biāo)準(zhǔn)問(wèn)及其答案。在形成知識(shí)庫(kù)中的知識(shí)點(diǎn)時(shí),通常需要人工撰寫或整理標(biāo)準(zhǔn)問(wèn)及其答案。
但是,如何在已有的文檔的基礎(chǔ)上形成知識(shí)點(diǎn),是一個(gè)亟待解決的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明解決的技術(shù)問(wèn)題是如何在已有的文檔的基礎(chǔ)上形成知識(shí)點(diǎn)。
為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供一種基于文檔拆分的知識(shí)庫(kù)建設(shè)方法,所述方法包括:獲取待處理的文檔;判斷所述文檔是否具有標(biāo)題;如果所述文檔具有標(biāo)題,則確定所述文檔內(nèi)的各級(jí)標(biāo)題;至少將部分標(biāo)題作為介紹知識(shí)點(diǎn)的介紹問(wèn)題,以及將所述部分標(biāo)題下的至少部分內(nèi)容作為所述介紹知識(shí)點(diǎn)的答案存儲(chǔ)至知識(shí)庫(kù)中。
可選的,所述判斷所述文檔是否具有標(biāo)題包括:判斷所述文檔是否具備目錄或大綱級(jí)別,當(dāng)所述文檔具備目錄或大綱級(jí)別時(shí),所述文檔具有標(biāo)題;如果所述文檔未具備目錄或大綱級(jí)別,則判斷所述文檔是否具備編號(hào)或不同大小的字體,當(dāng)所述文檔具有編號(hào)或不同大小的字體時(shí),所述文檔具有標(biāo)題;否則,所述文檔不具有標(biāo)題。
可選的,所述確定所述文檔內(nèi)的各級(jí)標(biāo)題包括:如果所述文檔具備目錄,則根據(jù)所述文檔的目錄來(lái)確定各級(jí)標(biāo)題;或者,如果所述文檔具備大綱級(jí)別,則根據(jù)所述文檔的大綱級(jí)別來(lái)確定各級(jí)標(biāo)題;或者,如果所述文檔具有編號(hào),則根據(jù)所述編號(hào)的編號(hào)優(yōu)先級(jí)確定各級(jí)編號(hào),將每級(jí)編號(hào)至首個(gè)換行符之間的內(nèi)容作為每級(jí)標(biāo)題;或者,如果所述文檔具備不同大小的字體,則按照所述文檔中各個(gè)段落的字體從大到小的順序確定各級(jí)標(biāo)題;或者,如果所述文檔具有編號(hào),則按照編號(hào)在所述文檔中首次出現(xiàn)的順序確定各級(jí)編號(hào),將每級(jí)編號(hào)至首個(gè)換行符之間的內(nèi)容作為每級(jí)標(biāo)題。
可選的,所述至少將部分標(biāo)題作為介紹知識(shí)點(diǎn)的介紹問(wèn)題,以及將所述部分標(biāo)題下的至少部分內(nèi)容作為所述介紹知識(shí)點(diǎn)的答案存儲(chǔ)至知識(shí)庫(kù)中包括:對(duì)于第i級(jí)標(biāo)題,確定所述第i級(jí)標(biāo)題或所述第i級(jí)標(biāo)題及其至少一個(gè)上級(jí)標(biāo)題為所述介紹知識(shí)點(diǎn)的介紹問(wèn)題,確定所述第i級(jí)標(biāo)題下的至少部分內(nèi)容作為相應(yīng)的答案,其中,所述文檔包括M級(jí)標(biāo)題,i的取值范圍為[1,M]。
可選的,所述至少將部分標(biāo)題作為介紹知識(shí)點(diǎn)的介紹問(wèn)題,以及將所述部分標(biāo)題下的至少部分內(nèi)容作為所述介紹知識(shí)點(diǎn)的答案存儲(chǔ)至知識(shí)庫(kù)中包括:對(duì)于第i級(jí)標(biāo)題,將所述第i級(jí)標(biāo)題及其至少一個(gè)上級(jí)標(biāo)題采用關(guān)聯(lián)詞進(jìn)行連接,形成完整語(yǔ)句,并將所述完整語(yǔ)句作為所述介紹問(wèn)題,確定所述第i級(jí)標(biāo)題下的至少部分內(nèi)容作為相應(yīng)的答案,其中,所述文檔包括M級(jí)標(biāo)題,i的取值范圍為[1,M]。
可選的,所述基于文檔拆分的知識(shí)庫(kù)建設(shè)方法還包括:如果所述文檔未具有標(biāo)題,則根據(jù)標(biāo)點(diǎn)符號(hào)將所述文檔切分為多個(gè)句子;按照所述多個(gè)句子的語(yǔ)義相關(guān)性將所述多個(gè)句子拆分為多個(gè)段落,段落的數(shù)量小于等于句子的數(shù)量;提取每個(gè)段落的內(nèi)容摘要;將每一段落的內(nèi)容摘要作為所述介紹知識(shí)點(diǎn)的介紹問(wèn)題,以及至少將所述段落作為所述介紹知識(shí)點(diǎn)的答案存儲(chǔ)至所述知識(shí)庫(kù)。
可選的,所述至少將部分標(biāo)題作為介紹知識(shí)點(diǎn)的介紹問(wèn)題,以及將所述部分標(biāo)題下的至少部分內(nèi)容作為所述介紹知識(shí)點(diǎn)的答案存儲(chǔ)至知識(shí)庫(kù)中包括:如果標(biāo)題下的內(nèi)容的字?jǐn)?shù)達(dá)到預(yù)設(shè)閾值,則將所述內(nèi)容切分為多個(gè)句子;按照所述多個(gè)句子的語(yǔ)義相關(guān)性將所述多個(gè)句子拆分為多個(gè)段落,段落的數(shù)量小于等于句子的數(shù)量;提取每個(gè)段落的內(nèi)容摘要;將每一段落的內(nèi)容摘要作為所述介紹知識(shí)點(diǎn)的介紹問(wèn)題,以及至少將所述段落作為所述介紹知識(shí)點(diǎn)的答案存儲(chǔ)至所述知識(shí)庫(kù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海智臻智能網(wǎng)絡(luò)科技股份有限公司;貴州小愛(ài)機(jī)器人科技有限公司,未經(jīng)上海智臻智能網(wǎng)絡(luò)科技股份有限公司;貴州小愛(ài)機(jī)器人科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811038766.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備
- 一種專利文本自動(dòng)分析的系統(tǒng)及方法
- 基于知識(shí)的故障恢復(fù)支持系統(tǒng)
- 一種鐵磁諧振故障知識(shí)庫(kù)構(gòu)建方法
- 融合知識(shí)庫(kù)處理方法和裝置,以及知識(shí)庫(kù)管理系統(tǒng)
- 一種基于病理生理路徑的臨床知識(shí)庫(kù)系統(tǒng)
- 一種面向網(wǎng)絡(luò)安全的知識(shí)庫(kù)構(gòu)建方法
- 基于多知識(shí)庫(kù)推理的數(shù)據(jù)匹配決策方法及系統(tǒng)
- 一種語(yǔ)義知識(shí)庫(kù)構(gòu)建方法
- 基于人工智能的知識(shí)庫(kù)生成方法和智能機(jī)器人應(yīng)答方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)





