[發明專利]一種確定圖片簇描述文本核心詞的方法及裝置有效
| 申請號: | 201310674702.3 | 申請日: | 2013-12-11 |
| 公開(公告)號: | CN103646074B | 公開(公告)日: | 2017-06-23 |
| 發明(設計)人: | 陶哲 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京中強智尚知識產權代理有限公司11448 | 代理人: | 姜精斌 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 確定 圖片 描述 文本 核心 方法 裝置 | ||
1.一種確定圖片簇描述文本核心詞的方法,其特征在于,該方法包括:
針對每個圖片簇,提取該圖片簇中每個圖片的圖片描述文本,將每個所述圖片描述文本保存在文本簇中;
對文本簇中的每個圖片描述文本進行切詞處理,得到每個圖片描述文本中的基礎詞;
根據每個基礎詞的屬性信息,確定每個基礎詞在每個圖片描述文本中的權值,并確定每個基礎詞在每個圖片描述文本中的分數值;其中,基礎詞的屬性信息包括:基礎詞的頻度信息、基礎詞在圖片描述文本中的位置信息、基礎詞包含的字節數信息以及基礎詞的詞性信息;
根據每個基礎詞在每個圖片描述文本中的分數值,確定每個基礎詞在文本簇中的總分數值;
根據確定的每個基礎詞在文本簇中的總分數值,確定該圖片簇的核心詞;
根據確定的每個基礎詞在文本簇中的總分數值,確定每個圖片描述文本的總得分值;
根據每個圖片描述文本的總得分值,刪除設定數量的圖片描述文本;
在刪除設定數量的圖片描述文本后,若該文本簇中包含的圖片描述文本的數量達到設定的收斂閾值,則在該文本簇中確定該圖片簇的核心詞。
2.如權利要求1所述的方法,其特征在于,所述確定每個基礎詞在每個圖片描述文本中權值包括:
針對每個圖片描述文本,根據切詞后該圖片描述文本中每個基礎詞的屬性信息及該基礎詞在該圖片描述文本中出現的次數,確定該基礎詞在該圖片描述文本中的權值。
3.如權利要求1或2所述的方法,其特征在于,所述確定該基礎詞在該圖片描述文本中的權值包括:
根據統計的每個基礎詞的頻度,確定該基礎詞的基礎值;
根據該基礎詞在圖片描述文本中出現的位置,及設置的每個位置對應的位置權重值,確定每個基礎詞的位置值;
根據該基礎詞包含的字節數,及設置的每種基礎詞長度對應的長度權重值,確定該基礎詞的長度值;
根據該基礎詞的詞性,及設置的每種詞性對應的詞性權重值,確定該基礎詞的詞性值;
根據確定的該基礎詞的基礎值、位置值、長度值和詞性值,確定該基礎詞的子權值;
根據確定的該圖片描述文本中每個位置的該基礎詞的子權值的和,確定該基礎詞在該圖片描述文本中的權值。
4.如權利要求1-2任一項所述的方法,其特征在于,所述確定每個基礎詞在每個圖片描述文本中分數值包括:
針對每個圖片描述文本,根據確定的每個基礎詞在該圖片描述文本中的權值及該圖片描述文本中每個基礎詞在該圖片描述文本中的權值和,確定每個基礎詞在該圖片描述文本中的分數值。
5.如權利要求1-2任一項所述的方法,其特征在于,所述確定每個基礎詞在文本簇中的總分數值包括:
在文本簇中針對每個基礎詞,根據每個基礎詞在每個圖片描述文本中的分數值,確定每個基礎詞在文本簇中的總分數值。
6.如權利要求1-2任一項所述的方法,其特征在于,所述方法還包括:
若該文本簇中包含的圖片描述文本的數量未達到設定的收斂閾值時,則重新確定該文本簇中剩余的每個圖片描述文本的總得分值直至確定出圖片簇的核心詞。
7.如權利要求6所述的方法,其特征在于,所述重新確定該文本簇中剩余的每個圖片描述文本的總得分值包括:
根據每個基礎詞在文本簇剩余的每個圖片描述文本中的分數值,確定每個基礎詞在文本簇中的總分數值;根據每個基礎詞在文本簇中的總分數值,確定每個圖片描述文本的總得分值;或
根據每個基礎詞在文本簇剩余的每個圖片描述文本中的分數值,對該基礎詞的分數值進行歸一化處理,確定該基礎詞在每個圖片描述文本中的歸一化后的分數值;針對每個圖片描述文本,根據其每個基礎詞歸一化后的分數值,確定每個圖片描述文本歸一化后的總得分值。
8.如權利要求7所述的方法,其特征在于,所述對該基礎詞的分數值進行歸一化處理包括:
根據每個基礎詞在每個圖片描述文本中的分數值,確定文本簇中該基礎詞的總分數值;根據確定的該基礎詞的總分數值與每個圖片描述文本中該基礎詞的分數值的和對該基礎詞的分數值進行歸一化處理;或
根據每個基礎詞在每個圖片描述文本中的分數值,確定文本簇中該基礎詞的總分數值;根據確定的該基礎詞的總分數值與每個圖片描述文本中該基礎詞的分數值的積對該基礎詞的分數值進行歸一化處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310674702.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種含有蚯蚓粉和沼渣的黃鱔飼料及其生產方法
- 下一篇:一種葡萄柚面膜





