实测OpenSquilla的自我验证：发现AI编程的信任问题真的解决了

佚名 2026-07-03 08:15:53

上周GitHub上出了一个让我挺意外的项目：OpenSquilla。

实测OpenSquilla的"自我验证"，发现AI编程的信任问题真的解决了

发布不到一个月，GitHub Star涨到了5000+。它做的事情听起来很夸张——让AI写代码的时候，自动生成可验证的证据链，证明代码是对的。

我一直觉得AI编程最大的问题不是"写不对"，而是"写了之后不知道对不对"。很多AI Coding工具改完即交，对错还得人逐行复核。

OpenSquilla的思路是：把验证内化进Agent本身。这让我很感兴趣，于是花了两个晚上实测了一下。

先说它解决了什么问题

传统AI编程的工作流是这样的：

用户提需求
AI写代码
人来验证代码是否正确
如果不对，让AI继续改
循环往复，直到人觉得OK

这个流程的问题是：验证这一步完全依赖人。

对于简单的函数，比如写一个排序，验证成本很低。但对于复杂的系统，比如写一个分布式锁的实现，或者一个复杂的状态机，验证成本就非常高了——你需要自己写测试用例、自己设计边界场景、自己运行回归测试。

OpenSquilla的做法是：让AI在交付代码之前，先自己跑一遍"红绿回归证据链" 。

核心技术：红绿回归证据链

OpenSquilla的工作流是这样的：

第一步：写一个注定失败的测试

AI先写一个测试用例，这个测试用例用来验证"问题确实存在"。

比如，如果用户提的需求是"修复排序函数的边界情况bug"，AI会先写一个测试用例，验证"排序函数在某些输入下会返回错误结果"。

这个测试用例必须是红的——即它必须失败，因为它证明的是bug的存在。

第二步：修复问题，让测试变绿

AI修复代码，让测试用例通过。

这时候，如果测试从红变绿，说明AI确实解决了问题。

第三步：跑回归测试

AI运行项目原有的所有测试用例，确保没有引入新的问题。

如果所有测试都通过，说明代码交付完成。

三步全过才算交付，任一不过直接打回。

我的实测

我实测了一个具体的场景：给一个开源项目（micrograd，Karpathy的自动微分库）新增一个"计算正确梯度"的功能。

这个功能的特点是：梯度一旦算错，模型不报错也不崩溃，只会悄悄越学越偏。这种bug是最难发现的，肉眼根本无法判断对错。

实测流程：

Step 1：AI写了失败测试

AI先写了一个测试用例，输入特定的梯度计算请求，预期输出是"梯度值在某个范围内"。

结果测试失败——说明梯度计算确实有问题。

Step 2：AI修复梯度计算

AI修改了梯度计算的代码，然后重新运行测试。

这次测试通过了。

Step 3：AI跑回归测试

AI运行了micrograd原有的所有测试用例，确保没有破坏其他功能。

所有测试通过。

Step 4：AI与PyTorch对比

最后，AI把新功能计算出的梯度值，和PyTorch计算出的标准答案进行了对比——前向值与每一个梯度小数点后10位完全一致。

让我印象最深的发现

实测完成之后，我发现了三个有意思的点：

发现1：自我验证改变了评价标准

以前我们评价AI编程工具，看的是"它声称改对了没有"。现在有了自我验证，评价标准变成了"它能否自证改对了"。

这意味着，AI编程工具从"承诺制"变成了"举证制"。

发现2：测试驱动开发被重新定义

传统TDD（测试驱动开发）是人写测试、人验证。OpenSquilla把验证环节自动化了，变成了AI写测试、AI验证。

这并不是说人可以躺平——人的角色变成了 "审核证据的人" ，而不是"执行验证的人"。

发现3：长任务的可信度大幅提升

以前让AI跑一个复杂任务（比如重构一个模块），我不放心让它自己跑，必须盯着。

现在有了自我验证机制，我可以先让AI跑，跑完之后看它的"证据链"——三关全过，我就信任它；任一不过，我再介入。

【顺便提一嘴】技术大厂，前端-后端-测试，全国均有机会机会。待遇和稳定性都还不错~ 感兴趣可以试试~

技术细节：它是怎么实现的

OpenSquilla的核心架构分为三层：

第一层：Agent层

负责理解用户需求，规划实现步骤，决定是否需要生成测试。

第二层：Coding层

负责代码生成和修改。它有一个特点——每次修改都会自动生成对应的测试用例，而不是等用户问了才写。

第三层：验证层

负责执行测试、分析结果、决定是否继续。验证层有三种策略：

单元测试：验证单个函数的行为
集成测试：验证多个组件的协作
对比测试：与已知正确答案对比（如PyTorch）

我的判断：可验证性将成为AI编程的标配

实测下来，OpenSquilla解决的不是"AI写代码"的问题，而是"AI写代码的信任问题"。

在AI编程工具刚出来的时候，大家关注的是"能不能写对"。现在大家关注的是"能不能证明写对了"。

这是一个很重要的转变——它意味着AI编程从"能用"走向"可信"。

未来，评估一个AI编程工具好不好，不只是看它生成的代码对不对，还要看它有没有自证对错的能力。

详情

逐鹿街机

逍遥游

真红之刃(魔域奇迹MU)

少年名将(送巅峰阵容)

实测OpenSquilla的自我验证：发现AI编程的信任问题真的解决了

红色沙漠怎么快速刷全染料

星辰变：归来逆央秘境玩法说明

凉茶王公园卫士成就解锁攻略分享

怪物猎人物语3全天变古龙如何打

《伯吉的温馨厨房》休闲经营介绍

梦幻西游暂离保护怎样启动2026

小脉生活

东京时笼

开明致学

芭比公主时尚换装

逆竞

螺旋圆舞曲2026

称一称多重

狼与小猪的故事

饭橘app

跳枪战斗

二十六史

停车场多人游戏最新版

超级英雄狂欢

随时问

EasyFloat

春谷农场冒险2026年

怎然招工

塔防镇魂师无限内购版

KernelSU

星球战斗：旋转太空

绘本兔

商品三重排序匹配难题

渔美人

九州壁纸(唯美风景壁纸高清)

详情

导航

详情

实测OpenSquilla的自我验证：发现AI编程的信任问题真的解决了

小脉生活

东京时笼

开明致学

芭比公主时尚换装

逆竞

螺旋圆舞曲2026

称一称多重

狼与小猪的故事

饭橘app

跳枪战斗

二十六史

停车场多人游戏最新版

超级英雄狂欢

随时问

EasyFloat

春谷农场冒险2026年

怎然招工

塔防镇魂师无限内购版

KernelSU

星球战斗：旋转太空

绘本兔

商品三重排序匹配难题

渔美人

九州壁纸(唯美风景壁纸高清)