[發(fā)明專利]書籍主人公姓名的提取方法、電子設備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201710827796.1 | 申請日: | 2017-09-14 |
| 公開(公告)號: | CN107608965B | 公開(公告)日: | 2018-10-19 |
| 發(fā)明(設計)人: | 周興博 | 申請(專利權(quán))人: | 掌閱科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京市浩天知識產(chǎn)權(quán)代理事務所(普通合伙) 11276 | 代理人: | 宋菲;劉云貴 |
| 地址: | 100124 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 書籍 主人公 姓名 提取 方法 電子設備 存儲 介質(zhì) | ||
1.一種書籍主人公姓名的提取方法,包括:
對待處理書籍中的文本內(nèi)容進行分詞處理,得到包含有多個第一詞語的第一詞語集合;
在所述第一詞語集合中查找與姓氏特征匹配的詞語,得到包含有多個第二詞語的第二詞語集合;
根據(jù)所述多個第二詞語的分布信息,從所述第二詞語集合中確定所述待處理書籍中的主人公姓名;
其中,所述根據(jù)所述多個第二詞語的分布信息,從所述第二詞語集合中確定所述待處理書籍中的主人公姓名進一步包括:
針對所述第二詞語集合中的每一個第二詞語,統(tǒng)計在書籍庫中出現(xiàn)所述第二詞語的書籍的書籍數(shù)量;
判斷所述書籍數(shù)量是否超過數(shù)量閾值;
若判斷得到所述書籍數(shù)量未超過數(shù)量閾值,則分析所述第二詞語在所述待處理書籍中的詞頻、首次出現(xiàn)位置信息和出現(xiàn)章節(jié)分布信息是否符合預設分布要求;
若符合所述預設分布要求,則將所述第二詞語確定為所述待處理書籍中的主人公姓名。
2.根據(jù)權(quán)利要求1所述的方法,所述對待處理書籍中的文本內(nèi)容進行分詞處理,得到包含有多個第一詞語的第一詞語集合進一步包括:
利用預設分詞算法,對待處理書籍中的文本內(nèi)容進行切分處理,得到多個分詞;
針對每一個分詞,計算所述分詞在所述待處理書籍中的凝固度參數(shù)和自由度參數(shù);
將所述凝固度參數(shù)符合預設凝固度閾值且所述自由度參數(shù)符合預設自由度閾值的分詞確定為第一詞語,并將所述第一詞語添加至所述第一詞語集合中。
3.根據(jù)權(quán)利要求2所述的方法,計算所述分詞在所述待處理書籍中的凝固度參數(shù)進一步包括:
對所述分詞進行分割,得到多個分詞元素;
根據(jù)所述待處理書籍中的文本內(nèi)容的總字數(shù)和所述分詞在所述待處理書籍中的總出現(xiàn)次數(shù),計算所述分詞在所述待處理書籍中的出現(xiàn)概率;
針對每一個分詞元素,根據(jù)所述待處理書籍中的文本內(nèi)容的總字數(shù)和所述分詞元素在所述待處理書籍中的總出現(xiàn)次數(shù),計算所述分詞元素在所述待處理書籍中的出現(xiàn)概率;
依據(jù)所述分詞在所述待處理書籍中的出現(xiàn)概率和多個分詞元素在所述待處理書籍中的出現(xiàn)概率,計算得到所述分詞在所述待處理書籍中的凝固度參數(shù)。
4.根據(jù)權(quán)利要求2所述的方法,計算所述分詞在所述待處理書籍中的自由度參數(shù)進一步包括:
在所述待處理書籍中查找所述分詞的左鄰字和右鄰字,得到包含有左鄰字的左鄰字集合和包含有右鄰字的右鄰字集合;
利用所述左鄰字集合計算所述分詞的左鄰字信息熵值;
利用所述右鄰字集合計算所述分詞的右鄰字信息熵值;
根據(jù)計算得到的左鄰字信息熵值和右鄰字信息熵值,計算得到所述分詞在所述待處理書籍中的自由度參數(shù)。
5.根據(jù)權(quán)利要求1-4任一項所述的方法,所述在所述第一詞語集合中查找與姓氏特征匹配的詞語,得到包含有多個第二詞語的第二詞語集合進一步包括:
在所述第一詞語集合中查找與姓氏特征匹配的詞語;
將查找到的與姓氏特征匹配的詞語確定為第二詞語,并將所述第二詞語添加至所述第二詞語集合中。
6.根據(jù)權(quán)利要求1-4任一項所述的方法,在所述對待處理書籍中的文本內(nèi)容進行分詞處理,得到包含有多個第一詞語的第一詞語集合之前,所述方法還包括:
對樣本姓氏數(shù)據(jù)進行分析,得到姓氏特征。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于掌閱科技股份有限公司,未經(jīng)掌閱科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710827796.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





