RE
reasoning-judge
推理判断技能:二分类判断、多分类判断、阈值判定、置信度评估、异常检测、排序判断。触发场景:当用户提到"判断"、"分类"、"是否"、"评估"、"异常"、"judge"、"classify"、"threshold"、"confidence"、"anomaly"时加载。
Install
mkdir -p .claude/skills/reasoning-judge && curl -L -o skill.zip "https://agentskills.codes/api/skills/download/15253" && unzip -o skill.zip -d .claude/skills/reasoning-judge && rm skill.zipInstalls to .claude/skills/reasoning-judge
Activation
This is the description your AI agent reads to decide when to run this skill — the better it matches your request, the more reliably it fires.
推理判断技能:二分类判断、多分类判断、阈值判定、置信度评估、异常检测、排序判断。触发场景:当用户提到"判断"、"分类"、"是否"、"评估"、"异常"、"judge"、"classify"、"threshold"、"confidence"、"anomaly"时加载。132 charsno explicit “when” trigger
About this skill
Reasoning Judge 推理判断技能
阈值参考
详见:阈值判定参考指南
Phase 1:确定判断类型
输入:用户请求、待判断数据
输出:判断类型标识 + 判断目标描述
步骤
- 读取用户请求,提取判断关键词
- 匹配判断类型:
binary:二分类(是/否、真/假、合格/不合格)multi-class:多分类(属于 A/B/C/D 中哪一类)threshold:阈值判定(数值是否超过某个临界值)confidence:置信度评估(某结论的可信程度)anomaly:异常检测(是否偏离正常范围)ranking:排序判断(按优先级/分值对多个选项排序)
- 确认判断目标:明确"对什么进行判断"
判断节点:是否能明确判断类型?
- ✅ 明确 → 进入 Phase 2
- ❌ 模糊 → 失败处理:列出可能的判断类型选项,请求用户确认
Phase 2:定义判断标准
输入:判断类型 + 背景数据
输出:量化判断标准(阈值、范围、权重)
步骤
- 根据判断类型定义标准:
binary:确定分界阈值(如 score ≥ 60 → 合格)multi-class:定义每类的数值区间(如 [90,100]→优秀,[75,90)→良好)threshold:明确临界值和方向(> / < / ≥ / ≤)confidence:定义置信度分级(≥ 0.9 高,[0.7,0.9) 中,< 0.7 低)anomaly:确定正常范围 [μ - kσ, μ + kσ],k 默认为 3ranking:定义评分公式和排序方向(升序/降序)
- 禁止使用模糊表达:不得使用"比较好"、"差不多"、"较高"等非量化描述
- 记录标准来源(用户提供 / 领域默认值 / 统计推算)
判断节点:所有标准是否已量化?
- ✅ 全部量化 → 进入 Phase 3
- ❌ 存在模糊标准 → 失败处理:标记模糊项,请求用户提供具体数值
Phase 3:执行判断逻辑
输入:待判断数据 + 量化判断标准
输出:每个分支的判断结论
步骤
-
将数据代入判断标准,逐条检验
-
决策树执行(每个分支必须有明确出口):
IF binary: IF value >= threshold → 结论: 正例(PASS) ELSE → 结论: 负例(FAIL) IF threshold: IF value > upper_limit → 结论: 超上限(OVER) ELIF value < lower_limit → 结论: 低于下限(UNDER) ELSE → 结论: 正常(NORMAL) IF anomaly: IF |value - μ| > k × σ → 结论: 异常(ANOMALY), 偏差 = (value-μ)/σ ELSE → 结论: 正常(NORMAL) IF multi-class: 按区间匹配 → 输出对应类别标签 IF confidence: 计算置信度 → 输出置信度分级 + 数值 IF ranking: 按评分公式计算 → 输出排序列表 -
记录每个判断步骤的中间值,保证可追溯
判断节点:所有数据是否均落入某个判断分支?
- ✅ 全部匹配 → 进入 Phase 4
- ❌ 边界值或空值 → 失败处理:记录未匹配项,使用默认分支或标记为
UNDEFINED
Phase 4:输出判断结果
输入:Phase 3 的判断结论
输出:结构化判断报告
步骤
- 输出结论(每条数据对应的判断标签)
- 附上置信度(如可计算:基于数据与阈值的距离/符合特征数量)
- 附上判断依据(使用的标准 + 实际数值对比)
- 若为多条数据:以表格形式展示
输出示例:
判断结果:异常 (ANOMALY)
置信度:高(0.95)
判断依据:
- 检测值: 142.3
- 正常范围: [80, 120](μ=100, σ=13.3, k=3)
- 偏差: (142.3-100)/13.3 = 3.18σ > 3σ 阈值
建议:触发人工复核流程
降级策略:当数据不足以支持高置信度判断时:
- 置信度 < 0.6 → 标记为"信息不足,建议补充数据"
- 数据缺失超过 30% → 降级为人工判断,不自动输出结论