姚班斯隆奖马腾宇正式宣布大模型创业
11月1日 消息:清华姚班校友兼斯坦福大学助理教授马腾宇宣布了一个引人注目的创业项目,名为Voyage,旨在提供卓越的嵌入模型。这个嵌入模型在MTEB数据集上表现超越OpenAI,成为SOTA。该项目的成功也得益于三位知名教授,包括斯坦福人工智能实验室主任Christopher Manning和AI领域著名华人学者李飞飞,他们担任了Voyage的学术顾问。
Voyage的嵌入模型强调高检索精度,用于将文本向量化。与生成式模型相比,嵌入模型更注重语义理解,利用神经网络(通常是Transformer架构)来捕获和压缩语义上下文。该团队花费了五年时间收集海量训练数据和开发预处理和后处理方法,最终打造出SOTA的嵌入模型。测试结果显示,Voyage在MTEB数据集上超过OpenAI,且在工业领域数据集上表现更出色。此外,Voyage承诺未在MTEB上作弊,并提出了9个真实世界数据集,其中大部分取得了最佳成绩,有些甚至表现出色。
技术上,Voyage采用了自监督损失函数和多领域的训练数据,同时使用了新的微调技术,无需人工标注。该嵌入模型可通过API或Python库调用,支持最大窗口长度为4096个token。Voyage目前提供标准版和轻量版两个版本,价格为每100万token0.4美元,新用户可以免费试用5000次,未来还将推出更多版本,包括XL规模和金融领域版本。
总的来说,Voyage的创始人兼CEO马腾宇是清华姚班校友,斯坦福大学助理教授,他的团队致力于提供高质量的嵌入模型,为检索增强生成(RAG)应用和搜索领域提供更先进的解决方案。这一创业项目在嵌入模型领域取得了巨大的成功,展现了创新技术的潜力。