[發明專利]一種基于多模態技術的拍照命名方法與系統在審
| 申請號: | 202010616803.5 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111797265A | 公開(公告)日: | 2020-10-20 |
| 發明(設計)人: | 沈之銳;張美珍 | 申請(專利權)人: | 韶關市啟之信息技術有限公司 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/587;G06F40/289;G06F40/211;G06K9/62;G06N3/04;G06N3/08;G10L15/26 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 512026 廣東省韶關市武江區百旺大道42號*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多模態 技術 拍照 命名 方法 系統 | ||
于深度學習的Image captioning技術實現端到端文本生成,將照片轉化為描述文本;通過照片中的圖像,分析圖像中人物或事物的情感,并自動生成情感描述;通過地理位置服務,獲取照相時的地理位置和時間;主動獲取語音輸入,并實現語音到文本的轉換,通過結巴分詞工具,獲得人物或者事物名稱;將上述四種模態的數據,處理成文本,通過依存句法分析,進行實體替換,最后合并起來,形成照片的標題;記錄所述標題中的人物或事物以及其對應的圖像語音信息,在下次拍照時復用。本發明引入多模態輸入以使系統生成的文本包含更多對拍照情景的準確描述,而為圖片自動生成的描述文本能是用戶更方便快速的搜索到想要的圖片。
技術領域
本發明涉及計算機應用技術領域,尤其涉及一種基于多模態技術的拍照命名方法與系統。
背景技術
目前大部分手機拍攝的照片,系統都會根據拍攝時間自動進行命名。當用戶需要查找特定內容的照片時,如果不記得確切拍攝時間則必須逐張圖片打開去查看,操作起來十分不便。本專利希望發明一個系統,在自動命名的過程中,引入圖像描述生成技術imagecaption。通過對圖片內容的分析自動生成和圖片內容相關的命名,以便于用戶對照片的搜索。
發明專利CN201810644268.7一種圖片標題生成方法、裝置和計算機可讀存儲介質, 結合視覺檢測器和語言建模的方法實現對圖片標題的自動生成。該方法首先利用多實例學習,訓練得到一個視覺檢測器,該檢測器不但可以從圖片中提取可能的單詞,而且可以把單詞對應到具體的圖片局部區域。在提取出可能的單詞之后,基于神經網絡中流行的編碼器-解碼器框架進行語言模型建模。其中編碼器一般為卷積神經網絡(ConvolutionalNeural Network,CNN),可選取網絡中的全連接層或卷積層的輸出作為編碼之后的圖片特征,解碼器一般為循環神經網絡(Recurrent Neural Network,RNN),用于圖片標題序列的生成。
現有的方案能生成和圖片內容相關的文本序列,但在生成文本的過程中,僅僅對圖片像素數據信息進行建模,而忽略了拍照情景中例如具體地理位置、用戶當時心情等多模態上下文信息,因而無法生成有意義,有情感的標題。本發明結合拍照時,拍照者的語音輸入,以及地理位置,能夠更好的將固定的景物,與拍照心情和人物固定名字結合,使命名更加有趣。名稱更加具有當前情境的照片價值。
發明內容
本發明提供了一種基于多模態技術的拍照命名方法與系統用于在拍攝照片后,自動為照片命名,使用戶看名稱就能知道時間地點人物事情,無需預覽就可以迅速獲取照片信息。
本發明提供了一種基于多模態技術的拍照命名方法與系統,主要包括以下步驟:
基于深度學習的Image captioning技術實現端到端文本生成,將照片轉化為描述文本;通過照片中的圖像,分析圖像中人物或事物的情感,并自動生成情感描述;通過地理位置服務,獲取照相時的地理位置和時間;主動獲取語音輸入,并實現語音到文本的轉換,通過結巴分詞工具,獲得人物或者事物名稱;將上述四種模態的數據,處理成文本,通過依存句法分析,進行實體替換,最后合并起來,形成照片的標題;記錄所述標題中的人物或事物以及其對應的圖像語音信息,在下次拍照時復用。
進一步可選地,如上所述的方法中,所述基于深度學習的Image captioning技術實現端到端文本生成,將照片轉化為描述文本 ,主要包括:
將圖像中檢測到的目標映射得到相應的向量,再將向量映射到文字詞序列;將所述詞序列轉化為正常語序的句子,基于seq2seq的機器翻譯框架,將原序列的詞對的位置按語序重新排列,生成符合語法規則的文本。
進一步可選地,如上所述的方法中,所述通過照片中的圖像,分析圖像中人物或事物的情感,并自動生成情感描述 ,主要包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于韶關市啟之信息技術有限公司,未經韶關市啟之信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010616803.5/2.html,轉載請聲明來源鉆瓜專利網。





