agentskills.codes
RE

reasoning-judge

推理判断技能:二分类判断、多分类判断、阈值判定、置信度评估、异常检测、排序判断。触发场景:当用户提到"判断"、"分类"、"是否"、"评估"、"异常"、"judge"、"classify"、"threshold"、"confidence"、"anomaly"时加载。

Install

mkdir -p .claude/skills/reasoning-judge && curl -L -o skill.zip "https://agentskills.codes/api/skills/download/15253" && unzip -o skill.zip -d .claude/skills/reasoning-judge && rm skill.zip

Installs to .claude/skills/reasoning-judge

Activation

This is the description your AI agent reads to decide when to run this skill — the better it matches your request, the more reliably it fires.

推理判断技能:二分类判断、多分类判断、阈值判定、置信度评估、异常检测、排序判断。触发场景:当用户提到"判断"、"分类"、"是否"、"评估"、"异常"、"judge"、"classify"、"threshold"、"confidence"、"anomaly"时加载。
132 charsno explicit “when” trigger

About this skill

Reasoning Judge 推理判断技能

阈值参考

详见:阈值判定参考指南


Phase 1:确定判断类型

输入:用户请求、待判断数据

输出:判断类型标识 + 判断目标描述

步骤

  1. 读取用户请求,提取判断关键词
  2. 匹配判断类型:
    • binary:二分类(是/否、真/假、合格/不合格)
    • multi-class:多分类(属于 A/B/C/D 中哪一类)
    • threshold:阈值判定(数值是否超过某个临界值)
    • confidence:置信度评估(某结论的可信程度)
    • anomaly:异常检测(是否偏离正常范围)
    • ranking:排序判断(按优先级/分值对多个选项排序)
  3. 确认判断目标:明确"对什么进行判断"

判断节点:是否能明确判断类型?

  • ✅ 明确 → 进入 Phase 2
  • ❌ 模糊 → 失败处理:列出可能的判断类型选项,请求用户确认

Phase 2:定义判断标准

输入:判断类型 + 背景数据

输出:量化判断标准(阈值、范围、权重)

步骤

  1. 根据判断类型定义标准:
    • binary:确定分界阈值(如 score ≥ 60 → 合格)
    • multi-class:定义每类的数值区间(如 [90,100]→优秀,[75,90)→良好)
    • threshold:明确临界值和方向(> / < / ≥ / ≤)
    • confidence:定义置信度分级(≥ 0.9 高,[0.7,0.9) 中,< 0.7 低)
    • anomaly:确定正常范围 [μ - kσ, μ + kσ],k 默认为 3
    • ranking:定义评分公式和排序方向(升序/降序)
  2. 禁止使用模糊表达:不得使用"比较好"、"差不多"、"较高"等非量化描述
  3. 记录标准来源(用户提供 / 领域默认值 / 统计推算)

判断节点:所有标准是否已量化?

  • ✅ 全部量化 → 进入 Phase 3
  • ❌ 存在模糊标准 → 失败处理:标记模糊项,请求用户提供具体数值

Phase 3:执行判断逻辑

输入:待判断数据 + 量化判断标准

输出:每个分支的判断结论

步骤

  1. 将数据代入判断标准,逐条检验

  2. 决策树执行(每个分支必须有明确出口):

    IF binary:
      IF value >= threshold → 结论: 正例(PASS)
      ELSE → 结论: 负例(FAIL)
    
    IF threshold:
      IF value > upper_limit → 结论: 超上限(OVER)
      ELIF value < lower_limit → 结论: 低于下限(UNDER)
      ELSE → 结论: 正常(NORMAL)
    
    IF anomaly:
      IF |value - μ| > k × σ → 结论: 异常(ANOMALY), 偏差 = (value-μ)/σ
      ELSE → 结论: 正常(NORMAL)
    
    IF multi-class:
      按区间匹配 → 输出对应类别标签
    
    IF confidence:
      计算置信度 → 输出置信度分级 + 数值
    
    IF ranking:
      按评分公式计算 → 输出排序列表
    
  3. 记录每个判断步骤的中间值,保证可追溯

判断节点:所有数据是否均落入某个判断分支?

  • ✅ 全部匹配 → 进入 Phase 4
  • ❌ 边界值或空值 → 失败处理:记录未匹配项,使用默认分支或标记为 UNDEFINED

Phase 4:输出判断结果

输入:Phase 3 的判断结论

输出:结构化判断报告

步骤

  1. 输出结论(每条数据对应的判断标签)
  2. 附上置信度(如可计算:基于数据与阈值的距离/符合特征数量)
  3. 附上判断依据(使用的标准 + 实际数值对比)
  4. 若为多条数据:以表格形式展示

输出示例

判断结果:异常 (ANOMALY)
置信度:高(0.95)
判断依据:
  - 检测值: 142.3
  - 正常范围: [80, 120](μ=100, σ=13.3, k=3)
  - 偏差: (142.3-100)/13.3 = 3.18σ > 3σ 阈值
建议:触发人工复核流程

降级策略:当数据不足以支持高置信度判断时:

  • 置信度 < 0.6 → 标记为"信息不足,建议补充数据"
  • 数据缺失超过 30% → 降级为人工判断,不自动输出结论

Search skills

Search the agent skills registry