Kaggle計算機視覺 | GeoLifeCLEF 2024-基於地理位置的物種存在預測競賽

GeoLifeCLEF 2024 @ LifeCLEF & CVPR-FGVC 基於(yu) 地理位置的 物種存在預測競賽

Kaggle計算機視覺 | GeoLifeCLEF 2024-基於(yu) 地理位置的物種存在預測競賽

競賽名稱:

GeoLifeCLEF 2024@ LifeCLEF & CVPR-FGVC

基於(yu) 地理位置的物種存在預測競賽

競賽類型:計算機視覺

競賽目的:這一挑戰旨在利用各種可能的預測因子來預測給定地點和時間的植物物種:包括衛星圖像和時間序列、氣候時間序列以及其他柵格化環境數據:地貌、人類活動痕跡、生物氣候和土壤變量。

競賽網址:https://www.kaggle.com/competitions/geolifeclef-2024/overview

賽題背景

在空間和時間上預測植物物種組成及其變化,對於(yu) 許多與(yu) 生物多樣性管理和保護相關(guan) 的場景、改進物種識別和清單工具以及教育目的都是有用的。

這一挑戰旨在利用各種可能的預測因子來預測給定地點和時間的植物物種:包括衛星圖像和時間序列、氣候時間序列以及其他柵格化環境數據:地貌、人類活動痕跡、生物氣候和土壤變量。

為(wei) 此,我們(men) 提供了一個(ge) 大規模的訓練集,其中包括約500萬(wan) 個(ge) 歐洲地區的植物出現數據(單標簽、僅(jin) 存在數據),以及約5,000個(ge) 地塊的驗證集和包含20,000個(ge) 地塊的測試集,其中包含所有當前物種(多標簽、存在-缺失數據)。

該挑戰的難點包括從(cong) 單一正標簽進行多標簽學習(xi) 、強烈的類別不平衡、多模態學習(xi) 和大規模學習(xi) 。

Kaggle計算機視覺 | GeoLifeCLEF 2024-基於(yu) 地理位置的物種存在預測競賽

賽題時間

2023年12月:LifeCLEF挑戰的注冊(ce) 開始(免費)

2024年2月28日:發布訓練和測試數據

2024年5月24日:競賽截止日期。

2024年6月7日:提交工作說明論文的截止日期[CEUR-WS會(hui) 議論文]。

2024年6月21日:接受通知 - 工作說明論文[CEUR-WS會(hui) 議論文]。

2024年7月8日:工作說明論文的最終版本截止日期。

2024年9月9日至12日:CLEF 2024在法國格勒諾布爾舉(ju) 行。

動機 MOtivation

預測特定位置的植物物種對許多生物多樣性管理和保護場景都有幫助。

首先,它可以構建物種組成和相關(guan) 生物多樣性指標(如物種多樣性、瀕危物種和入侵物種)的高分辨率地圖。在科學生態學中,這個(ge) 問題被稱為(wei) 物種分布建模。

此外,它還可以顯著提高物種識別工具的準確性 - 如Pl@ntNet - 通過減少在給定地點可觀察到的候選物種列表。

更普遍地說,它可以通過開發基於(yu) 位置的推薦服務(例如在手機上),鼓勵公民科學家觀察者的參與(yu) ,並加速物種觀察的注釋和驗證,以產(chan) 生大規模、高質量的數據集來促進生物多樣性清單。

最後,這可以用於(yu) 教育目的,通過具有任務或情境化教育路徑等功能的生物多樣性探索應用程序。

競賽評估方法

這項競賽的評估指標是在由物種存在-缺失(PA)樣本組成的測試集上計算的樣本平均F1分數(在Kaggle上稱為(wei) F-Score Beta(Micro))。在機器學習(xi) 術語中,這是一個(ge) 多標簽分類任務。F1分數是預測和實際出現在特定位置和時間的物種集之間重疊的平均度量。

每個(ge) 測試PA樣本i與(yu) 一組地麵真實標簽Yi相關(guan) 聯,即與(yu) 給定列patchID和dayOfYear的組合相關(guan) 聯的植物物種的集合(請參閱數據選項卡以獲取有關(guan) 物種觀察數據結構的詳細信息)。

對於(yu) 每個(ge) 樣本,提交將提供一個(ge) 標簽列表,即預測出現的物種集合。

Kaggle計算機視覺 | GeoLifeCLEF 2024-基於(yu) 地理位置的物種存在預測競賽

提交格式

對於(yu) 測試集中的每個(ge) id,您必須預測在給定位置出現的一組物種。文件應包含標題,並具有以下格式:

Kaggle計算機視覺 | GeoLifeCLEF 2024-基於(yu) 地理位置的物種存在預測競賽

提交格式是一個(ge) CSV文件,對於(yu) 每個(ge) 樣本(行),包含兩(liang) 列:

  • surveyId列包含整數,對應於測試樣本的id,對應於patchID和dayOfYear列值的唯一組合。
  • predictions列包含以空格分隔的預測物種標識符列表(在訓練/驗證數據集中的列spId)

對於(yu) 每個(ge) 樣本(行),預測的物種標識符必須按從(cong) 左到右的值遞增的順序排列。沒有測試樣本是空的,測試集隻包含來自訓練或驗證集的物種。

數據集描述

訓練數據包括物種觀察和環境數據。以下詳細解釋了數據。

鏈接

- ❗新的Seafile存儲(chu) 庫❗:包含所有數據的存儲(chu) 庫。為(wei) 了優(you) 化下載時間,請參見本頁麵底部的數據下載部分。

- ❗GLC GitHub存儲(chu) 庫❗:用於(yu) 操作數據的有用代碼,包括簡單的數據加載器、示例和樣本數據。挑戰開始後可以添加更多數據加載器。

觀察數據

與(yu) 物種相關(guan) 的訓練數據包括:

  • 存在-缺失(PA)調查:包括大約9萬(wan) 次調查,涉及大約1萬(wan) 種歐洲植物。存在-缺失數據(PA)用於(yu) 補償(chang) PO數據的假缺失問題,並校準模型以避免相關(guan) 偏差。

  • 僅(jin) 存在(PO)觀察:結合了來自全球生物多樣性信息設施(GBIF,www.gbif.org)的約500萬(wan) 條觀察數據,這些數據來自各種數據集。這些數據構成了訓練數據的較大部分,並覆蓋了研究區域的所有國家,但是它是機會(hui) 性采樣的(沒有標準化的采樣協議),導致了各種采樣偏差。在PO數據中物種的局部缺失並不意味著它真的不存在。觀察者可能沒有報告它,因為(wei) 在這個(ge) 時間點很難“看到”它,將其識別為(wei) 非監測目標,或者隻是不夠吸引人。

環境數據

除物種數據外,我們(men) 還提供了空間化的地理和環境數據作為(wei) 額外的輸入變量(參見圖1)。更具體(ti) 地說,對於(yu) 每個(ge) 物種觀察位置,我們(men) 提供:

  • 衛星圖像塊:3波段(RGB)和1波段(NIR)的128x128圖像,分辨率為10m。
  • 衛星時間序列:六個衛星波段(R、G、B、NIR、SWIR1和SWIR2)的長達20年的值。
  • 環境柵格各種氣候、土壤、土地利用和人類足跡變量的歐洲範圍。我們提供標量值、時間序列和原始柵格,您可以從中提取本地2D圖像。

Kaggle計算機視覺 | GeoLifeCLEF 2024-基於(yu) 地理位置的物種存在預測競賽

圖. 展示了2021年在瑞士北部(經度=8.5744;緯度=47.7704)收集的一個(ge) 事件(glcID=4859165)的環境數據。A. 在觀測周圍2021年采樣的1280x1280米衛星圖像塊。B. 自1999-2000年冬季以來,六個(ge) 衛星波段在該點位置的季度時間序列。C. 從(cong) 提供的環境柵格中提取的三個(ge) 生物氣候圖像(約65x65公裏)。

衛星圖像塊:

1280mx1280m的RGB和NIR圖像塊(四個(ge) 波段),以觀測地理位置為(wei) 中心,同年采集。這些圖像塊被壓縮在兩(liang) 個(ge) zip文件中(patchs_rgb.zip,patchs_nir.zip),可在/SatelliteImages/文件夾中訪問。

  • 格式:128x128的JPEG圖像,一個用於RGB數據的彩色JPEG文件,一個用於近紅外的灰度JPEG文件。
  • 分辨率:每像素10米
  • 來源:由Ecodatacube平台預處理的Sentinel2遙感數據
  • 訪問:首先,必須下載並解壓提供的zip文件。每個JPEG文件對應於一個唯一的觀測位置(通過“surveyId”)。要加載所選觀測的RGB或NIR圖像塊,請從任何事件CSV中獲取“surveyId”,並按照以下規則加載它 --> '…/CD/AB/XXXXABCD.jpeg'。例如,surveyId為3018575的圖像位置是"./75/85/3018575.jpeg"。對於所有“surveyId”小於四位數的情況,您可以使用類似的規則。對於“surveyId”為1的情況是"./1/1.jpeg"。

衛星時間序列:

每個(ge) 觀測都與(yu) 自1999年冬季以來每個(ge) 季節的衛星中位點值的時間序列相關(guan) 聯,涵蓋了六個(ge) 衛星波段(R、G、B、NIR、SWIR1和SWIR2)。這些數據攜帶了過去20年季節性植被變化、潛在極端自然事件(火災)或土地利用變化的高分辨率本地特征。

  • 格式1:六個CSV文件,每個波段一個。每列代表從2000年冬季到2020年秋季的84個季節。
  • 格式2:TimeSeries-Cubes - 上述CSV文件匯總為3D張量,軸為波段、季度和年份。
  • 分辨率:原始衛星數據每像素30米
  • 來源:由Ecodatacube平台預處理的Landsat遙感數據
  • 訪問:/SatelliteTimeSeries/

月度氣候柵格:

從(cong) 2000年1月到2019年12月,每月計算的四個(ge) 氣候變量(平均、最低和最高溫度以及總降水量),產(chan) 生了覆蓋歐洲的960個(ge) 低分辨率柵格。

  • 格式1:CSV文件,每個柵格一個,通過“surveyId”引用。
  • 格式2:TimeSeries-Cubes - 上述CSV文件匯總為3D張量,軸為柵格類型、年份和月份。
  • 分辨率:約1公裏
  • 來源:Chelsa
  • 訪問:
    /EnvironmentalRasters/Climate/Climatic_Monthly_2000-2019

環境柵格:

對於(yu) 每個(ge) 觀測,我們(men) 提供了額外的環境數據,例如GeoTIFF柵格和已從(cong) 柵格中提取的標量值。我們(men) 提供CSV文件,每個(ge) 波段柵格類型一個(ge) ,即氣候、海拔、人類足跡、土地覆蓋和SoilGrids。

生物氣候柵格:覆蓋歐洲的19個(ge) 低分辨率柵格;在物種分布建模中常用。以經度/緯度坐標(WGS84)提供。

  • 格式:帶有壓縮的GeoTIFF文件和帶有提取值的CSV文件。
  • 分辨率:30 arcsec(約1公裏)
  • 來源:CHELSA
  • 訪問:
    /EnvironmentalRasters/Climate/BioClimatic_Average_1981-2010

土壤柵格:

覆蓋歐洲的九個(ge) 土壤學低分辨率柵格。提供的變量描述了從(cong) 5到15厘米深度的土壤特性,並決(jue) 定了植物物種的分布。有關(guan) 所提供變量的定義(yi) ,請查看definition.txt文件(例如,pH、黏土、有機碳和氮含量等)。

  • 格式:帶有壓縮的GeoTIFF文件和帶有提取值的CSV文件。
  • 分辨率:約1公裏
  • 來源:Soilgrids
  • 訪問:/EnvironmentalRasters/Soilgrids
  • 海拔:覆蓋歐洲的高分辨率柵格。
  • 格式:帶有壓縮的GeoTIFF文件,Int16數字存儲(13.2GB)和帶有提取值的CSV文件。
  • 分辨率:1 arc second(約30米)
  • 來源:ASTER Global Digital Elevation Model V3
  • 訪問:/EnvironmentalRasters/Elevation

土地覆蓋:

覆蓋歐洲的中分辨率多波段土地覆蓋柵格。每個(ge) 波段描述了土地覆蓋類別的預測或在各種分類下的置信度。我們(men) 推薦使用IGBP(17個(ge) 類別)或LCCS(43個(ge) 類別)圖層,這些圖層經常用於(yu) 物種分布建模。

  • 格式:帶有壓縮的GeoTIFF文件和帶有提取值的CSV文件。
  • 分辨率:約500米
  • 來源:MODIS Terra+Aqua 500米
  • 訪問:/EnvironmentalRasters/LandCover/

人類足跡:

提供了幾個(ge) 描述人類足跡的低分辨率柵格,涵蓋了由人類存在和活動引起的環境七大壓力(例如夜間光照水平、人口密度)的兩(liang) 個(ge) 時期,分別是90年代初(約1993年)和2000年代末(約2009年)。我們(men) 提供了兩(liang) 個(ge) 總結柵格,結合了所有人類壓力,以及每個(ge) 壓力的兩(liang) 個(ge) 詳細柵格,這些柵格避免了原始數據的任意降級。

  • 格式:帶有壓縮的GeoTIFF文件和帶有提取值的CSV文件。
  • 分辨率:約1千米
  • 來源:Venter等人,2016年
  • 訪問:
    /EnvironmentalRasters/HumanFootprint/文件夾中包含了一個詳細介紹此數據的readme文件和兩個子文件夾:summarized/ 包含了兩個總結柵格(分別為1993年和2009年),以及 detailed/ 包含了2*7個單一壓力柵格。

 

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

芬蘭擬製定政策讓留學生畢業後直接拿永居!

下一篇

7個國際學生的心理健康建議

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部