每个人都在谈论@karpathy autoresearch,但你们大多数人其实不知道它到底做了什么。


有一个训练脚本(train(dot)py),用来训练一个小型语言模型,基本上就是一个婴儿GPT。
还有一个指令文件(program(dot)md),告诉AI代理该做什么。
你按下“开始”。代理会调整训练脚本,训练5分钟,检查分数。表现更好吗?保持。更差?还原。重复100次,整夜睡觉时完成。
这就是全部。
它实际上优化的:模型架构。不是预测。不是交易。也不是你的投资组合。
比如:
→ 4层还是8层?
→ 最佳学习率?
→ AdamW还是Muon优化器?
→ 在这台特定GPU上,哪个批次大小效果最好?
最优架构取决于你的硬件。H100需要完全不同的模型,而你的MacBook则不同。autoresearch会自动找到最适合你机器的配置。
你可以用它做的事情:
> 构建一个写代码的微型LLM,autoresearch找到最佳架构,你用你的数据集训练
> 创建一个离线在手机上运行的轻量级聊天机器人
> 训练一个模仿你写作风格的模型
> 测试“RoPE是否比ALiBi更适合小模型?”一夜内完成100个变体,而不是花3周做博士论文
> 为树莓派或边缘设备优化模型
你不能做的事情:
> 预测股价
> 寻找交易优势
> 分析电子表格
> 预测体育比赛结果
autoresearch是为那些想要构建语言模型的人设计的工具,而不是用它的人。Karpathy建立了一个自主循环,让AI改善AI。真正聪明,但它解决的是一个非常具体的问题。
而这个问题可能不是你的。没关系,只是别再假装它是别的什么。
查看原文
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论