KDD Cup 2023:亞馬遜多語種商品推薦

賽題名稱:KDD Cup '23: Multilingual Recommendation Challenge

賽題鏈接:https://www.aicrowd.com/challenges/amazon-kdd-cup-23-multilingual-recommendation-challenge

賽題類型:推薦係統、文本生成

賽題介紹

對客戶購物意圖建模是電子商務商店的一項重要任務,因為(wei) 它直接影響用戶體(ti) 驗和參與(yu) 度。準確了解客戶正在搜索的內(nei) 容,例如他們(men) 是否正在尋找帶有搜索查詢“蘋果”的電子產(chan) 品或雜貨,對於(yu) 提供個(ge) 性化推薦至關(guan) 重要。

基於(yu) 會(hui) 話的推薦利用客戶會(hui) 話數據來預測他們(men) 的下一次購買(mai) ,隨著數據挖掘和機器學習(xi) 技術的發展而變得越來越流行。然而,很少有研究在現實世界的多語言和不平衡場景下探索基於(yu) 會(hui) 話的推薦。

為(wei) 了彌補這一差距,我們(men) 提出了“多語言購物會(hui) 話數據集”,這是一個(ge) 由來自六個(ge) 不同地區的數百萬(wan) 用戶會(hui) 話組成的數據集,其中產(chan) 品的主要語言是英語、德語、日語、法語、意大利語和西班牙語。數據集不平衡,法語、意大利語和西班牙語的產(chan) 品少於(yu) 英語、德語和日語的產(chan) 品。

賽題任務

本次比賽的主要目標是構建基於(yu) 會(hui) 話的高級算法/模型,直接預測下一個(ge) 參與(yu) 產(chan) 品或生成其標題文本。我們(men) 提出的三個(ge) 任務是:

  • 下一個產品推薦
  • 對訓練數據不足地區的進行產品推薦
  • 下一個產品標題生成

Task 1

任務 1 旨在根據客戶的會(hui) 話數據和每個(ge) 產(chan) 品的屬性,預測客戶可能會(hui) 參與(yu) 的下一個(ge) 產(chan) 品。

任務 1 的測試集包含來自英語、德語和日語語言環境的數據。參與(yu) 者需要創建一個(ge) 程序,可以預測測試集中每個(ge) 會(hui) 話的下一個(ge) 產(chan) 品。

參與(yu) 者應提供一個(ge) parquet 文件,其中每一行對應於(yu) 測試集中的一個(ge) 會(hui) 話。對於(yu) 每個(ge) 會(hui) 話,參與(yu) 者應根據會(hui) 話中的曆史參與(yu) 預測最有可能參與(yu) 的 100 個(ge) 產(chan) 品 ID (ASIN)。

Task 2

此任務的目標類似於(yu) 任務 1,而測試集由法語、意大利語和西班牙語構成。在任務 2 中,我們(men) 關(guan) 注這三種未被充分代表的語言的表現。鼓勵遷移從(cong) 具有足夠數據的語言中獲得的知識,例如英語、德語和日語,以提高法語、意大利語和西班牙語的推薦質量。

Task 3

任務 3 要求參與(yu) 者根據他們(men) 的會(hui) 話數據預測客戶將使用的下一個(ge) 產(chan) 品的名稱。與(yu) 專(zhuan) 注於(yu) 推薦現有產(chan) 品的任務 1 和 2 不同,預測新產(chan) 品或“冷啟動”產(chan) 品提出了獨特的挑戰。

生成的標題有可能改進各種下遊任務,包括冷啟動推薦和導航。任務 3 的測試集包括來自所有六個(ge) 語言環境的數據,參與(yu) 者應提交一個(ge) parquet 文件,其中包含為(wei) 輸入文件中的每一行/會(hui) 話生成的標題。標題應以字符串格式保存。

數據集

發布的數據集是匿名的,不代表生產(chan) 特征。多語言購物會(hui) 話數據集是匿名客戶會(hui) 話的集合,其中包含來自六個(ge) 不同區域的產(chan) 品,即英語、德語、日語、法語、意大利語和西班牙語。它由兩(liang) 個(ge) 主要部分組成:用戶會(hui) 話和產(chan) 品屬性。

用戶會(hui) 話是用戶按時間順序使用過的產(chan) 品列表,而產(chan) 品屬性包括各種詳細信息,如產(chan) 品標題、本地貨幣價(jia) 格、品牌、顏色和描述。

數據集分為(wei) 三個(ge) 部分:train, phase-1 test, and phase-2 test。對於(yu) 任務 1 和任務 2,每種語言的比例大致為(wei) 10:1:1。對於(yu) Task 3,第一階段測試和第二階段測試的樣本數量固定為(wei) 10,000。

這三個(ge) 任務共享同一個(ge) 訓練集,而它們(men) 的測試集是根據它們(men) 的特定目標構建的。

  • 任務 1:使用英語、德語和日語的數據
  • 任務 2:使用法語、意大利語和西班牙語的數據,鼓勵任務 2 的參與者使用遷移學習來提高他們的係統在測試集上的性能。
  • 任務 3:測試集包括未出現在訓練集中的產品,要求參與者根據用戶會話生成下一個產品的標題。

表 1 總結了數據集統計信息,包括會(hui) 話數、交互、產(chan) 品和平均會(hui) 話時長。作為(wei) KDD Cup 比賽的一部分,該數據集將公開提供,每件產(chan) 品都由唯一的亞(ya) 馬遜標準識別碼 (ASIN) 標識,從(cong) 而可以輕鬆地從(cong) 網絡中提取更多信息。

參賽者可以自由使用外部信息源來訓練他們(men) 的係統,例如公共數據集和預訓練的語言模型,但在描述他們(men) 的係統時必須聲明超出提供的數據集。

評價指標

  • 任務1:Mean Reciprocal Rank (MRR).
  • 任務2:Mean Reciprocal Rank (MRR)
  • 任務3:bilingual evaluation understudy (BLEU)

賽題日程

  • 開始日期:2023 年 3 月 15日
  • 結束日期:2023 年 6 月 14日
  • 獲勝者公布:2023 年 6 月 14日

賽題獎金

三個(ge) 任務都有現金獎勵。對於(yu) 每個(ge) 任務,排行榜上的前三名將贏得以下現金獎勵。

  • ? 第一名:$4,000
  • ? 第二名:$2,000
  •  ? 第三名:$1,000 

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

為什麽雅思寫作分數不穩定?

下一篇

2023 新加坡國立大學夏校總匯

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部