传统AI总“睁眼说瞎话”?Agent0-VL用“双重人格”,提升正确率
发布时间:2025-12-03 17:00 浏览量:4
文 |姑苏九歌
编辑 |姑苏九歌
AI训练最近遇到个大麻烦,以前教AI学东西,全靠人盯着打分,可这人脑打分主观得很,还贵得离谱。
后来想着让AI自己给自己打分省事,结果更糟AI光挑好听的话说,看着像那么回事,实际连图里画的啥都没搞懂。
北卡罗莱纳大学教堂山分校整出个Agent0-VL框架,给AI装了“双重人格”,一个解题一个挑错,用工具当裁判,这事儿说不定能让AI进化换条新路子。
以前AI学东西,全靠人喂饭还总挑食。
你让AI认张图、写段话,得先让人标好“这是猫”“那是狗”,成千上万张图标下来,费时又费钱。
就像那个ImageNet数据集,花了10年时间,砸进去上百万美元才弄好。
更头疼的是,人跟人想法不一样,你让三个标注员看同一张图,保准有一个跟别人想的不一样。
斯坦福大学研究就说了,不同人对视觉推理答案的一致性能到68%就不错了。
后来AI想自己给自己打分,以为能省事儿,结果纯属瞎忙活。
它就盯着语言顺不顺溜,不管内容对不对。
比如做几何题,步骤写得密密麻麻,看着挺专业,实际角度算错了都不知道。
说白了,这就像学生考完试自己改卷,光顾着看字漂不漂亮,答案对不对根本不管。
既然人喂饭不行,自己打分也不行,那AI咋进步?北卡大学的这帮人想了个招给AI装俩“脑子”。
一个负责解题,一个专门挑错,中间还找了工具当“裁判”,这下AI总算有点“自我批评”的意思了。
现在AI有了俩“脑子”,一个解题一个挑错,工具当裁判。
这俩“脑子”分工明确,解决者就像做题快的学生,拿到任务先拆成小步骤,该用计算器算数字就用计算器,该用视觉工具量尺寸就量尺寸。
验证者呢,拿着同样的工具,把解决者的答案从头查一遍。
比如算三角形角度,解决者说30度,验证者马上用视觉工具重测,对不上就打回去重算。
这工具当裁判还真靠谱,以前AI自己算角度,浮点运算偏差,现在用工具量,误差连0.7%都不到。
北卡团队管这叫“工具锚定”,就是让AI的推理有个实打实的依据,不再飘在语言文字里。
这思路跟人类做题挺像,直觉给个答案,再用公式定理验证一遍,靠谱多了。
光说不练假把式,这“双重人格”到底好不好使?实验数据说话。
在几何推理和视觉科学分析这些任务上,Agent0-VL比以前的模型正确率高了12.5%。
要是让它当“老师”给别的AI打分,还能再提7.3%的成绩。
最关键的是“视觉-语言一致性”,以前模型错误率快30%了,现在Agent0-VL只有8.2%。
不过这新模型也不是没毛病,俩“脑子”切换起来费时间,以前算一道题的功夫,现在只能算三道。
而且工具包还不够全,遇到三维图像或者医学影像这种复杂场景,就抓瞎了。
北卡团队自己也说,得想办法让验证深度能自己调节,别啥题都查得那么细。
那以后这技术能往哪儿走?有俩方向挺有意思。
一是让AI自己造工具,现在是给啥用啥,以后说不定遇到没见过的图,自己写个测量程序出来。
二是往专业领域钻,比如医院看CT片,解决者说“这有个结节”,验证者马上量大小、看边缘,俩“脑子”一核对,误诊率能降不少。
自动驾驶也一样,环境感知完了,验证者再评估下风险,安全系数能高一大截。
说白了,Agent0-VL没搞啥玄乎的,就是让AI学会了“做题+检查”这一套学生都懂的道理,可偏偏以前的AI就没想到。
这一步迈出去,说不定以后AI自己就能琢磨着进步,不用人天天盯着喂数据了。
等AI真能做到“自我质疑-工具验证-策略修正”,那离咱们常说的通用人工智能,可能就不远了。