Loading

Amazon KDD Cup 2024: Multi-Task Online Shopping Challenge for LLMs

亚马逊KDD-2024大语言模型多任务挑战赛

综合性介绍

fisher_luo

新闻

亚马逊KDD杯2024的入门套件已经上线了!你可以在这里找到它,包含了一个少量样本的开发数据集,以及将用于评估解决方案的解析器和评价指标。

注意1:当前的开发集仅包含合成数据。然而,问题格式与评估数据保持一致。

注意2:系统目前还未准备好接收提交(提交将于3月18日23:55 UTC至3月21日23:55 UTC开始)。目前,请随意探索挑战介绍并开始设计您的独创性解决方案!

简介

想象一下,你正在试图通过在线商店为朋友的生日寻找完美的礼物。你必须浏览无数的产品,阅读评论以评估质量,比较价格,最后决定购买。这个过程既耗时又有时因为信息和选择的海量而令人不知所措。在线购物的复杂性,如穿梭于产品、评论和价格的网络,同时试图根据你的理解和偏好做出最佳决定,可能会令人感到不知所措。

这个挑战旨在通过大型语言模型(LLMs)简化这一过程。虽然当前的技术经常在理解特定购物术语和知识、客户行为、偏好以及产品和语言的多样性方面有所不足,但我们相信,具有多任务和少量样本学习能力的LLMs有潜力掌握在线购物的这些复杂性。受到这一潜力的启发,这个挑战推出了ShopBench,一个综合性的基准测试,模拟了这些现实世界在线购物的复杂性。我们邀请参与者设计强大的LLMs,以改善最先进的技术如何更好地帮助我们导航在线购物,使之成为一个更直观和令人满意的体验,就像现实生活中知识渊博的购物助手一样

🛍️ 介绍

在线购物是一项复杂的活动,涉及从浏览到购买的各种任务,所有这些任务都需要洞察客户行为和意图。这需要能够利用跨任务共享知识的多任务学习模型。然而,许多当前的模型是特定任务的,增加了开发成本并限制了效果。大型语言模型(LLMs)有可能改变这一点,通过对单一模型进行轻微的提示调整来处理多个任务。此外,LLMs还可以通过提供交互式和及时的推荐来改善客户体验。然而,作为一个高度特定的领域,在线购物具有广泛的领域特定概念(例如品牌、产品线)和知识(例如哪个品牌生产哪些产品),这使得将现有的强大LLMs从一般领域适应到在线购物变得具有挑战性。

出于对LLMs的潜力和挑战的激励,我们介绍了ShopBench,一个针对在线购物的大型挑战,包含57个任务和约20000个问题,这些问题来源于现实世界的亚马逊购物数据。这个挑战中的所有问题都被重新格式化为统一的文本到文本生成格式,以适应探索基于LLM的解决方案。ShopBench专注于四个主要的购物技能(将作为赛道1-4):

  • 购物概念理解
  • 购物知识推理
  • 用户行为对齐
  • 多语言能力

此外,我们设立了赛道5:全能,以鼓励更多样化和全方位的解决方案。赛道5要求参与者用一个解决方案解决赛道1-4中的所有问题,这预计将比赛道1-4的特定解决方案更有原则和统一。我们将相应地为赛道5分配更大的奖励。

我们希望这个挑战能为参与者提供在开发最先进的基于LLM技术解决现实世界问题的宝贵实践经验。我们也相信,这个挑战将使在线用户导向服务行业受益于强大且随时可用的基于LLM的解决方案,同时也为整个机器学习社区提供关于LLM培训和开发的有用见解和指导。

📅 时间线

挑战将分为两个阶段。第一阶段对所有报名的团队开放。第一阶段结束后,我们将应用前25%的截断线,只有在第一阶段排名前1/4的团队才能进入第二阶段。

相应地,ShopBench将被分为两个不相交的测试集,第二阶段将包含更难的样本和任务。最终的获胜者将仅以第二阶段的数据来确定。

网站上线及注册开始:2024年3月15日 23:55 UTC

第一阶段开始日期:2024年3月18日 23:55 UTC

报名截止日期及第一阶段结束日期:2024年5月10日 23:55 UTC

第二阶段开始日期:2024年5月15日 23:55 UTC

结束日期:2024年7月10日 23:55 UTC

获胜者通知:2024年7月15日

获胜者公告:2024年8月26日(在KDD 2024上)

🏆 奖品

挑战设有总额为41,500美元的奖金池,分为以下三种类型的奖项:

获胜者奖金:我们将为每个赛道的获胜者(第一、第二和第三名)颁发现金奖。

AWS积分:每个赛道中排名紧随获胜者之后的团队将获得AWS积分奖励。

学生奖:我们意识到开发LLMs需要大量的计算资源和工程努力,学生无法轻易获得这两者。

因此,我们为每个赛道中最佳学生团队(即所有参与者均为学生)设立了专门的学生奖,以激励学生开发资源高效的解决方案。

具体而言,赛道1-4的奖项如下:

🥇 第一名:$2,000

🥈 第二名:$1,000

🥉 第三名:$500

第4-7名:AWS积分$500

🏅 学生奖:$750

赛道5(全能)的奖项如下:

🥇 第一名:$7,000

🥈 第二名:$3,500

🥉 第三名:$1,500

第4-8名:AWS积分$500

🏅 学生奖:$2,000 所有奖励都是累积的。例如,如果你的解决方案在全能赛道5中排名第二,并且在赛道4中排名第三,你可以获得总计3,500+500=4,000美元的现金奖。然而,赛道5的解决方案将不会自动有资格获得赛道1-4的奖励。你必须提交到相应的赛道才有资格。

除了现金奖,获胜团队还将有机会在2024年举办的KDD杯研讨会上展示他们的工作,该研讨会与ACM SIGKDD 2024联合举办。

📊 数据集

这次挑战中使用的ShopBench是一个从现实世界亚马逊购物数据中抽样得到的匿名化、多任务数据集。以下表格提供了ShopBench的统计信息。

# 任务 # 问题 # 产品 # 产品类别 # 属性 # 评论 # 查询
57 20598 约13300 400 1032 约11200 约4500

ShopBench被分为一个少量样本的开发集和一个测试集,以更好地模仿现实世界的应用——在这里你永远不知道客户事先的问题。通过这种设置,我们鼓励参与者使用任何公开可用的资源(例如预训练模型、文本数据集)来构建他们的解决方案,而不是过度拟合给定的开发数据(例如用GPT生成伪数据样本)。

开发数据集将以json格式提供,包含以下字段。

input_field:此字段包含模型应回答的指令和问题。

output_field:此字段包含问题的真实答案。

task_type:此字段包含任务的类型(下一节“任务”中详述)。

metric:此字段包含用于评估问题的指标(“评估指标”一节中详述)。

然而,测试数据集(对参与者隐藏)将有一个不同的格式,只有两个字段:

input_field,与上述相同。 is_multiple_choice:此字段包含一个真或假,表明问题是否为多项选择题。具体的‘task_type’将不会提供给参与者。

2715

Comments

You must login before you can post a comment.

Execute