Kaggle賽題解析:Diffusion Prompt生成

比賽名稱:Stable Diffusion - Image to Prompts

推斷生成高度詳細、清晰的焦點、插圖、宏偉(wei) 、史詩般的 3d 渲染圖像的prompt

比賽鏈接:https://www.kaggle.com/competitions/stable-diffusion-image-to-prompts

比賽類型:AGIC、Prompt生成

比賽背景

文本到圖像模型的流行是全新的提示工程領域。一部分是藝術,一部分是懸而未決(jue) 的科學,機器學習(xi) 從(cong) 業(ye) 者和研究人員正在迅速努力理解提示與(yu) 其生成的圖像之間的關(guan) 係。

將“4k”添加到提示中是使其更具攝影性的最佳方式嗎?提示中的小擾動會(hui) 導致高度不同的圖像嗎?提示關(guan) 鍵字的順序如何影響生成的場景?本次比賽的任務是創建一個(ge) 模型,該模型可以可靠地反轉生成給定圖像的擴散過程。

為(wei) 了以穩健的方式計算提示相似度,這意味著盡管字符級別存在差異。本次比賽希望創建“高質量、專(zhuan) 注、複雜、詳細、具有不真實的穩健交叉驗證風格”的模型。

比賽任務

本次比賽的目標是扭轉生成文本到圖像模型的典型方向:不是從(cong) 文本提示生成圖像,而是可以創建一個(ge) 模型來預測給定生成圖像的文本提示。

參賽選手需要對包含由 Stable Diffusion 2.0 生成的各種(提示、圖像)對的數據集進行預測,以了解潛在關(guan) 係的可逆性。

評價指標

使用預測和實際提示嵌入向量之間的平均餘(yu) 弦相似度得分來評估提交。可以在本筆記本中找到有關(guan) 如何為(wei) 基本事實提示計算嵌入的精確細節。 

數據描述

您應對此挑戰的任務是預測用於(yu) 生成目標圖像的提示。這個(ge) 挑戰的提示是使用各種(未公開的)方法生成的,範圍從(cong) 相當簡單到相當複雜,具有多個(ge) 對象和修飾符。

圖像是使用 Stable Diffusion 2.0 (768-v-ema.ckpt) 根據提示生成的,以768x768縮小到 512x512 得到比賽數據集。

  • images/ - 根據提示生成的圖像;您的任務是預測用於生成此文件夾中每個圖像的提示。隱藏的重新運行測試文件夾包含大約 16,000 張圖像。
  • prompts.csv - 用於在 images/ 文件夾中創建示例的提示。這些僅作為說明性示例提供。每個參賽者都可以製定自己的策略來創建圖像訓練集,使用預訓練模型等。
  • sample_submission.csv - 格式正確的示例提交文件。在此文件中找到的值是 prompts.csv 文件中提示的嵌入,因此可用於驗證您的嵌入管道。該筆記本演示了如何計算嵌入。

比賽賽程

  • 2023年5月9日:組隊截止日期。
  • 2023年5月16日:最終提交截止日期。

賽題獎金

  • 第一名:12,000 美元
  • 第二名:10,000 美元
  • 第三名:10,000 美元
  • 第四名:10,000 美元
  • 第五名:8,000 美元

解題思路

賽題是一個(ge) 比較明確的任務,首先需要選手理解Stable Diffusion 2.0的原理,並考慮到原始模型的Prompt,也需要考慮到原始模型的詞表。

對於(yu) 圖像則可以考慮使用CLIP生成文本描述,或者使用某個(ge) 模型來調整訓練得到圖像描述。

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

John Locke入圍人數最多的是?John Locke如何選題?

下一篇

什麽是雙專業?到底該不該攻讀雙專業?

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部