PBT集团表示,数据质量对训练ChatGPT至关重要
11月24日 消息:距离OpenAI向公众发布ChatGPT已经接近一年,其采纳率呈现了前所未有的飙升。截至2023年2月,据路透社报道,ChatGPT拥有大约1亿活跃用户。快进到9月,ChatGPT网站吸引了近15亿访问者,展示了该平台在当今数字领域中的巨大流行和重要作用。PBT集团首席技术官Willem Conradie回顾了这一过程,注意到ChatGPT在各个行业中的显著使用和采纳。
图源备注:图片由AI生成,图片授权服务商Midjourney
ChatGPT的崛起突显了一系列重要问题,从输出偏见、问题误解、答案不一致、缺乏同理心到安全问题不一而足。为了应对这些问题,负责任的AI的概念逐渐占据主导,强调在应用人工智能时重要的是公正、包容、安全、透明、可问责和道德的意图。特别是在处理虚假信息时,负责任的AI显得至关重要,因为ChatGPT可能提供不准确或过时的信息。
当然,ChatGPT的多功能性不仅限于公共使用,它在企业环境中也是一个强大的工具,能够增强客户服务查询、邮件起草、个人助理任务、关键词搜索以及演示文稿制作等各种业务流程。为了获得最佳性能,ChatGPT提供准确响应至关重要。这需要对数据进行培训,这些数据不仅要与公司相关,而且要准确且及时。
Conradie指出:“想象一下,ChatGPT被用于自动处理客户查询,以提高客户体验,通过提供个性化的回应。如果底层数据质量受损,ChatGPT可能提供不准确的回应,从错误的客户姓名到在公司移动应用程序上提供不正确的自助指导,这些不准确之处可能导致客户的沮丧,最终损害客户体验,使预期的积极结果化为泡影。”
解决这些数据质量问题至关重要。确保相关性是第一步,这要求用于模型训练的数据与ChatGPT操作的业务背景一致。时效性是另一个关键因素,因为过时的数据可能导致不准确的回应。数据还必须是完整的,确保数据集不包含缺失值、重复项或不相关的条目,因为这些也可能导致不准确的回应和行为。
此外,通过强化学习不断改进模型,将用户反馈纳入模型重新训练周期是至关重要的。这有助于ChatGPT以及对话型AI模型总体上从它们的交互中学习,适应并随时间提升其响应质量。
Conradie总结道:“本文强调的数据质量管理实践虽然不是详尽无遗,但作为一个实用的起点。这些不仅适用于ChatGPT,还适用于对话型AI和其他人工智能应用,如生成式人工智能。所有这些都强调了在AI技术领域数据质量的重要性。”