[發明專利]一種基于多模態技術的拍照命名方法與系統在審
| 申請號: | 202010616803.5 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111797265A | 公開(公告)日: | 2020-10-20 |
| 發明(設計)人: | 沈之銳;張美珍 | 申請(專利權)人: | 韶關市啟之信息技術有限公司 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/587;G06F40/289;G06F40/211;G06K9/62;G06N3/04;G06N3/08;G10L15/26 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 512026 廣東省韶關市武江區百旺大道42號*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多模態 技術 拍照 命名 方法 系統 | ||
1.一種基于多模態技術的拍照命名方法,其特征在于,所述方法包括:
基于深度學習的Image captioning技術實現端到端文本生成,將照片轉化為描述文本;通過照片中的圖像,分析圖像中人物或事物的情感,并自動生成情感描述;通過地理位置服務,獲取照相時的地理位置和時間;主動獲取語音輸入,并實現語音到文本的轉換,通過結巴分詞工具,獲得人物或者事物名稱;將上述四種模態的數據,處理成文本,通過依存句法分析,進行實體替換,最后合并起來,形成照片的標題;記錄所述標題中的人物或事物以及其對應的圖像語音信息,在下次拍照時復用。
2.根據權利要求1所述的方法,其中,所述基于深度學習的Image captioning技術實現端到端文本生成,將照片轉化為描述文本 ,主要包括:
將圖像中檢測到的目標映射得到相應的向量,再將向量映射到文字詞序列;將所述詞序列轉化為正常語序的句子,基于seq2seq的機器翻譯框架,將原序列的詞對的位置按語序重新排列,生成符合語法規則的文本。
3.根據權利要求1所述的方法,其中,所述通過照片中的圖像,分析圖像中人物或事物的情感,并自動生成情感描述 ,主要包括:
獲取所述描述性文本,使用結巴分詞工具進行分詞,進行詞向量化,輸入到預先訓練好的短文本情感分析神經網絡模型中,模型經過對句子的詞語的時間序列分析,能輸出句子屬于不同情感傾向的概率,取概率最大的情感傾向作為描述文本的情感。
采用基于局部結構特征提取Gabor算法提取人臉的特征信息;根據所述提取的人臉的特征信息,將所述特征信息通過預先訓練好的表情分類模型以識別人臉的表情分類,獲取人臉表情對應的情感。
將所述描述文本的情感和人臉表情對應的情感進行融合,包括:對所述描述文本的情感詞進行情感強度值計算,獲得文本情感強度值;通過在表情知識庫中匹配人臉表情對應的情感強度值,獲得人臉表情情感強度;將文本情感強度值和人臉表情情感強度進行數值轉換成分數,按分數進行相加,得到總體情感極性,作為照片的最終情感描述。
4.根據權利要求1所述的方法,其中,所述通過地理位置服務,獲取照相時的地理位置和時間 ,主要包括:
獲取用戶設備的GPS信號讀取權限,系統通過創建位置服務的LocationManager,調用方法得到地理位置,設置監聽,監聽位置變化信息,從而獲取用戶實時位置;并通過網絡獲取當前時間,做為照片拍攝的時間。
5.根據權利要求1所述的方法,其中,所述主動獲取語音輸入,并實現語音到文本的轉換,通過結巴分詞工具,獲得人物或者事物名稱 ,主要包括:
對獲取的語音轉換成的描述文本進行數據預處理,采用結巴分詞工具進行分詞,將分詞后的結果輸入到預先訓練好的命名實體識別模型,進行命名實體識別,通過命名實體識別出來的人名或物名。
6.根據權利要求1所述的方法,其中,所述將上述四種模態的數據,處理成文本,通過依存句法分析,進行實體替換,最后合并起來,形成照片的標題 ,主要包括:
通過角色語義標注技術,分析出主謂賓、實事與受事屬性,所述角色語義標注技術采用哈工大的LTP工具進行句法分析和角色語義標注處理;通過句法分析工具獲得SBV主語 、VOB賓語;在角色語義標注中, 獲得LOC 地點標簽,TMP 時間標簽;通過替換上述識別出的時間、地點、人物、事情,獲得完整的描述性標題;所述標題描述采用‘時間地點人物事情’四要素進行描寫。
7.根據權利要求1所述的方法,其中,所述記錄所述標題中的人物或事物以及其對應的圖像語音信息,在下次拍照時復用,主要包括:
將以前照相過程中,獲取的人名、地名、存儲起來,當拍照無法獲取人名或地名時,從數據庫查詢照相目標對象所對應的人名或者地名,作為所述目標對象的人名地名,自動生成照片標題。
8.一種基于多模態技術的拍照命名系統,其特征在于,所述系統包括:
照片圖片的文本生成模塊,用于通過深度學習技術根據圖像生成文本;
語音名稱實體獲取模塊,用于通過主動的語音獲取名稱信息,融合到標題中;
情感信息獲取模塊,用于分析生成文本的情感信息和圖像人物表情情感信息;
多模態數據融合模塊,用于將時間地點人物事情多個因素融合在一起,生成標題;
復用模塊,用于對有用信息進行復用,提高信息利用率和計算效率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于韶關市啟之信息技術有限公司,未經韶關市啟之信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010616803.5/1.html,轉載請聲明來源鉆瓜專利網。





