当前位置：25分类目录 » 站长资讯 » 资讯文章 » 站长新闻 » 文章详细

代码能力超越GPT-4，这个模型登顶Big Code排行榜，YC创始人点赞(代码能力是什么意思)

来源：网络　浏览：44次　时间：2023-11-05

一款号称代码能力超越GPT-4的模型，引发了不少网友的关注。

准确率比GPT-4高出超过10%，速度却接近GPT-3.5，而且窗口长度也更长。

据开发者描述，他们的模型取得了74.7%的Pass@1通过率，超过了原始GPT-4的67%，登上了Big Code榜首。

这个模型名叫Phind，和以其为基础的面向开发者的AI搜索工具同名。

它是由开发团队在CodeLlama-34B的基础之上微调得到的。

Phind利用TensorRT-LLM在H100上可以跑出每秒100个token的速度，是GPT-4的5倍。

此外，Phind的上下文长度达到了16k，其中12k可供用户输入，另外4k保留给检索结果中的文本。

针对这个产品，网友们议论纷纷，结果是喜忧参半:

支持的人，如著名创业投资公司YCombinator创始人Paul Graham表示，Phind可以让人们用更少的资源和大厂抗衡。

也有网友具体列出了Phind的优点:

不认可Phind的网友则说，自己之前用GPT-4写的代码，Phind写不出来:

更是有人吐槽说，GPT“每天都在被打败”，但是从来没被超越过。

有意思的是，在Phind应用当中，自研模型又被称作“fast model”，而“best model”仍然是GPT-4。

（虽然没明说，但是GPT-4和best model的剩余可用次数是同步变化的）

所以，这个号称“击败了GPT-4”的模型到底是不是真的那么好用，我们进行了一番实测。

Phind vs GPT-4

正式开始之前，先来说说对Phind的第一印象。

它的界面十分简洁，主要就是一个搜索框，而且不需要登录就能无限量使用。

左下角有一个Pair Programmer的开关，直观上的区别就是开启之后回答界面更侧重对话，不开启的话则更像搜索引擎。

此外，还可以从自研模型和GPT-4中选择，GPT-4则需要登录，而且每天只能用10次。

接下来就是和GPT-4进行的对比测试，GPT-4没有开启代码解释器。

首先还是从LeetCode题目开始测起，Prompt就是是原问题加上下面这段话:

为了防止Phind通过检索来“作弊”，我们还在Phind的Prompt结尾加入了这句话:

第一题在LeetCode中被归为组合数学问题，难度为困难，通过率67.1%。

Phind给出了这样的代码和解释，经过测试，20条测试数据中有19项正确。

出错的是这一条，这里的输出结果应该是3，但Phind给出的程序运行结果是4。

我们试着反馈给Phind，看它能不能找出错误的原因，结果分析一番之后给出了新的代码，并通过了测试。

而GPT-4这边，则是一次性通过。

进入下一题，这道题目涉及到了动态规划，通过率为53.9%。

这次Phind和GPT-4都是以一次通过。

第三道题目的通过率只有约30%，但它的难度可能在于用来判题的测试数据太庞大了。

Phind给出的这段代码就在通过前12组测试数据之后出现了运行时间超限的现象。

我们让它试着进行优化，结果这次直接是算不对了。

而GPT-4则轻松解决，不过在解释说明部分有些错误，因为超级回文数的概念中的描述是“回文数的平方”而不是“平方是回文数”。

三道LeetCode题目测试下来，Phind以一平两负的成绩输给了GPT-4。

但需要说明的是，这里我们为了测试模型本身表现，通过提示词关闭了Phind的检索功能，但从实用角度出发，如果保留搜索，Phind还是能很好地解决这些问题的。

接着，我们又测试了一下他们的实际开发能力，这次的题目是扫雷游戏。

Phind会问我们有没有什么特殊要求，这里我们直接点跳过。

然后Phind会对任务进行拆解，对每个子任务又分别进行检索。

这时的代码也是分段给出的，有趣的是，在生成过程中，Phind会使用不同来源中的代码。

然后我们让Phind给出完整代码，并通过链接的第三方平台直接运行。

结果呢，我们一进去就看到程序已经非常“贴心”地把雷的位置清楚地标注好了。

不过这次，GPT-4的代码更加离谱一些，运行出来是这样的:

虽然都没做对，但硬要比较的话，这一轮，Phind略胜一筹。

一路测试下来，很难判断它们孰优孰劣，但考虑到搜索能力，以及免费免登录的特性，Phind还是可圈可点的。

参考链接:

https://www.phind.com/blog/phind-model-beats-gpt4-fast

—完—

推荐站点

88分类目录
88分类目录专业提供网站网址免费提交收录,88分类目录是采用开放导航式的网站大全,收录国内外各行业优秀的网站网址,让网站在各大搜索引擎收录快排名靠前。
www.88dir.com
零目录
零目录（www.dir0.com）专业的网站分类目录平台！为您提供网站分类目录索引及网址大全库的建立，是目前较为专业的网站分类目录平台，为用户打造大型正规分类目录网，提供高效便捷的网址存储和查询服务的分类目录网站。
www.dir0.com
YY分类目录
YY分类目录全人工编辑的开放式网站分类目录，收录国内外、各行业优秀网站，旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务。
www.yydir.com
名人百科网
名人百科网(mrenbaike.net)--为大家提供各行各业的名人资料、资讯、图片等,致力于打造国内专业的名人百科平台！
www.mrenbaike.net
菜鸟教程
菜鸟教程提供了基础编程技术教程。菜鸟教程的 Slogan 为：学的不仅是技术，更是梦想！记住：再牛逼的梦想也抵不住傻逼似的坚持！本站域名为 runoob.com, runoob 为 Running Noob 的缩写，意为：奔跑吧！菜鸟。本站包括了HTML、CSS、Javascript、PHP、C、Python等各种基础编程教程。同时本站中也提供了大量的在线实例，通过实例，您可以更好地学习如何建站。本站致力于推广各种编程语言技.
www.runoob.com
中国社会公益网
陕西省社会公益基金会是经陕西省民政厅批准的公募基金会，下设秘书处、公益项目部、筹款募捐部、宣传策划部、社会活动部、专项基金部、资金管理部、公关联络部、青年志愿者工作委员会、青年志愿者爱心乐团等部门机构
www.cpf.net.cn
CNMO科技新媒体
CNMO=Connect More,致力于通过内容成为人与科技、人与产品、人与品牌、人与服务对接的桥梁,让产业、产品的价值与服务得到专业且有趣的解读和适配,引领用户畅享科技带来的美好生活!
www.cnmo.com
国外主机测评
国外主机测评，国外VPS、云服务器，国外服务器，国外主机的相关优惠信息、商家背景、网络带宽、线路走法、售前和售后技术支持等，是目前最好的一家国外主机评测平台。
www.zhujiceping.com
赵容部落
赵容部落，一个收集国内，国外便宜主机，VPS，云服务器，独立服务器优惠促销信息，提供VPS新手教程，VPS评测，VPS代购代付服务的博客。
www.zrblog.net