ChengRang

人人都能懂的科普:你用过安慰剂 skill 吗?

人人都能懂的科普 约 8 分钟阅读

前段时间我下载了一个号称能"模糊照片还原五官、打码也能识别"的 skill。试了几张图,确实惊艳——再模糊、再小,它都能"描"出脸的轮廓。我当时心想,这玩意儿是真厉害啊。

顺手打开 skill 内部的文档想看看它怎么实现的,发现里面只有几样东西:功能描述、场景列表、指令示例、几段模拟输出。没有任何实际的处理逻辑

带着疑惑,我把这个 skill 关掉,用同一张图直接问大模型——结果几乎一模一样。

那一刻我意识到一件事:让我惊艳的不是这个 skill,是底层那颗模型。skill 只是给我加了一层"它在认真为我处理"的仪式感而已。

这是"人人都能懂"系列的第五篇。前四篇分别讲了 谁在干活什么是 agentAI 为什么忘事什么是 Harness。这一篇讲一个普通用户每天都会碰到、但很少有人指出来的事情。

什么是"安慰剂 skill"

我自己造了个词,叫安慰剂 skill。一句话定义:

装了感觉很厉害,不装其实也差不多的 skill。

它有完整的包装、专业的描述、看起来煞有介事的"能力清单",但你把它关掉,用同样的需求直接去问大模型,效果几乎没差别。

这个词是从医学里借的。安慰剂在医学上指"没有治疗成分但做成药片样子"的糖丸,给病人吃下去,有些病人的症状真的会缓解——因为起作用的是"相信"本身,不是糖丸里的成分。

AI 世界里这种东西特别多,而且不一定是"骗"——很多 skill 的作者自己都真心觉得自己写了个有用的东西。

"疗效"到底从哪来

装了 skill 之后感觉效果好,这种感觉是真的,但来源往往不是 skill 本身:

1. 你的预期变了

当你看到一个被认真包装的 skill——有 logo、有作者、有专业话术、有适用场景——你打开它之前就已经在想"这次应该会更专业"。同样一段回答,前面有这层心理铺垫和没有,感受可以差出一个量级。

2. AI 自己在"配合表演"

很多 skill 的核心其实只是一段角色设定:"你是某某领域的资深专家,请用专业口吻回答…"。模型读到这段,回答的语气就会变得更像"专家"——更多名词、更多分点、更多"首先/其次/综上所述"。

话术变专业,不等于内容变专业。模型本来就知道的那些事,包了一层皮之后听起来更像那回事了而已。业内有个词叫 confidence theater(自信戏剧)——讲的就是这种感觉。

3. 你的选择性记忆

试 10 次 skill,有 3 次回答正中下怀,7 次跟没装时差不多。但你大概率只会记住那 3 次。下次有人问"这个 skill 好用吗",你脑子里浮出来的是那 3 次的画面,于是回一句"还挺神"。

4. 作者也在自我安慰

很多人写 skill 是为了"沉淀自己的工作心得"。把心得写成一个文件这个动作本身,会让人觉得"这事我搞透了"——哪怕文件里写的内容模型本来就懂。

四种常见的安慰剂 skill

这一年我装过、卸过、甚至自己写过的 skill 里,下面这四类最容易踩坑。

类型 1:图片处理型

"模糊照片还原五官""老照片修复""一键抠图换装""打码也能识别"。

真相是:现在的多模态大模型自己就能看图、就能描述、就能生成新图。这些 skill 大多只是把请求转译给底层模型,没有任何独门处理

更进一步:所谓"模糊还原"本质上是模型在"重画一张它觉得可能长这样的脸"——不是还原,是想象。如果你拿这种结果去做认人、做证据,是会出大问题的。这类糖丸的危险性比看起来高得多。

类型 2:虚假专家型

"十年经验的写作大师""三甲医院主任医师""华尔街资深律师""TOP 投行分析师"。

打开文件一看,里面只有身份描述、口吻要求、几条"请用专业角度回答"。没有任何这个领域真专家才会有的东西——没有判例数据库、没有用药指南、没有最新的财报数据、没有连接到任何外部专业信息源。

真专家和这类糖丸的区别其实有一条很简单的界线:

这类糖丸最危险的地方在于:装了"医生"两个字之后,用户会更相信它说的话,但它背后还是那个会一本正经胡说八道的通用模型。涉及健康、法律、财务、安全的场景,糖丸是会害人的。

类型 3:提示词优化大师型

"你给我一个烂提示词,我帮你打磨成专业级提示词。"

这类 skill 看起来很神,输入一句"帮我写个产品介绍",它先生成一段长长的"优化后的提示词",再用这段提示词去问模型,最后给你结果。

问题在于:这件事是大模型自己内部本来就在做的。你给它一句模糊的话,它内部会自动补足细节、推断你想要的格式。把这个过程显式化出来给你看,让你觉得"它在认真为我加工"——但效果跟你直接说那句烂提示词区别不大。

当然,把过程显式化也不是完全无用——它至少让你看见"模型在用什么思路理解我"。所以这类糖丸是四种里相对最"无害"的,只是别误以为它真的让模型变聪明了。

类型 4:思维链型

"深度思考助手""慢思考模式""让 AI 先想一想再回答"。

真相是:现在主流的推理模型本来就在内部跑思考链——GPT 的 reasoning 模式、Claude 的 extended thinking、DeepSeek R1 的思维链全都是模型自带的。在非推理模型上加一句"请一步步思考再回答",效果跟弄一个完整的 skill 包装差不多。

这是最容易被"模型已经升级了,skill 没跟上"甩在身后的一类。一年前"一步步思考"的 prompt 还算有用的小技巧,今天大部分情况下已经是默认行为。

怎么识别一个 skill 是不是糖丸

方法很简单,一看一试。

一看:打开它的文件

大部分 skill 都允许你查看内部文件。打开来扫一眼,重点看:

如果打开之后只看到一堆"请专业地""请深入地""请考虑全面"——形容词堆叠却没有具体规则——大概率是糖丸。

一试:装前先关掉对照

这是 10 秒钟就能做的事,但 99% 的人不做:

  1. 关掉这个 skill
  2. 用同一段提问问大模型
  3. 对比结果差多远

如果几乎没差别——糖丸实锤。如果差别明显——值得留着。

就这两个动作,能帮你避开八成踩坑。

为什么糖丸这么多

不是因为做 skill 的人都在"骗",而是几个原因叠加的:

AI 普及初期的必然现象。类似 2010 年前后的 App Store——一堆"手电筒 App""计算器 App""弹钢琴 App"。系统自己就能干的事,被人包装成单独的 App 卖。skill 现在的生态非常像那时候。

包装是廉价的,真功夫是贵的。写一段角色设定 + 几个示例 + 一个漂亮的封面图,半天就能搞定。但要真的攒出一份模型本来不知道、能让回答质量上一个台阶的内部知识,需要十几年的从业经验或者大量的踩坑数据。前者成千上万,后者凤毛麟角。

用户也愿意为"感觉"付费。大部分时候 AI 输出"感觉专业"就够用了——内容是不是真的更对,多数日常场景下用户也不会去严格验证。这就给糖丸留出了生态位。

真正有价值的 skill 长什么样

反过来说,什么样的 skill 不是糖丸?

关键不是"有没有 skill",而是 skill 里有没有装进模型本来不知道的东西。这种"不知道"通常有三种形态:

具体的踩坑记录

比如做小红书运营的 skill 里写着:"封面前 7 个字必须出现核心词,否则在推荐流里截断率会高 30%。"

这种话模型自己说不出来,因为它不在公开数据里。这是真功夫。

具体的判断规则

比如做法律咨询的 skill 里写着:"遇到劳动纠纷类咨询,先追问发生地、合同形式、劳动关系建立时间、是否过了仲裁时效(一年)——任一缺失就先反问,不要急着下结论。"

这种规则不是大模型自己能编出来的判断流程,是从业者实际工作里沉淀下来的"先做什么、再做什么"。

外接的真数据

比如挂载了一个 PDF 知识库(公司内部规章)、连接了一个实时 API(最新汇率、库存、医保目录)。这种 skill 一打开你能明显看见"它知道一些模型本来不知道的事"。

给写 skill 的人的一句话

如果你也在写 skill,避免做出糖丸的诀窍只有一条:

把"请认真做"换成具体的判断规则。

不要写"请深入分析",写"遇到 X 情况先问 Y,再决定 Z"。

不要写"请用专业角度",写"这个领域有 3 个常见误区,分别是 A/B/C,回答前先排除"。

不要写"请考虑用户体验",写"先列出用户的 3 个典型使用场景,再针对每个场景给出方案"。

越具体,越像药。越形容词,越像糖。

几个特别需要警惕的场景

糖丸大多数时候是无害的——浪费点时间,多花点订阅费,就是了。但有两种场景下糖丸可能真的会害人:

涉及付费时。如果一个 skill 绑定了课程、社群、订阅费——你付的钱里有多少是为了那个"装着感觉很厉害"的感觉,多少是为了实际能用的东西?打开它的文件看一眼,往往能省下一笔。

涉及严肃决策时。健康、法律、财务、安全——任何"搞错了会出事"的场景。装着"医生"两个字的糖丸,比没装这两个字的通用模型要更危险,因为它让你更相信回答。这种时候要么找真专家,要么用挂载了真数据源的工具,不要把生死决策交给一颗包了糖衣的通用模型

最后

这年头大家都在做 skill、装 skill、卖 skill。在被一个 skill 惊艳到的时候,先别急着归功给它。打开看看里面有没有真东西,关掉对比一下结果——10 秒钟,能让你判断得清醒很多。

下次再刷到一个很神的 skill,先别急着装。

先问一句,到底是药,还是糖。


参考资料:

← 返回目录