SH
shaft-data-center
多数据源、多 jsonl、sample-level 混合、增强策略的统一入口。
Install
mkdir -p .claude/skills/shaft-data-center && curl -L -o skill.zip "https://agentskills.codes/api/skills/download/13568" && unzip -o skill.zip -d .claude/skills/shaft-data-center && rm skill.zipInstalls to .claude/skills/shaft-data-center
Activation
This is the description your AI agent reads to decide when to run this skill — the better it matches your request, the more reliably it fires.
多数据源、多 jsonl、sample-level 混合、增强策略的统一入口。39 charsno explicit “when” trigger
About this skill
Skill:数据中心
触发场景
- 同时训练多份数据
- 需要权重混合/采样策略
- 离线与在线增强并行
步骤
- 在
data.datasets配置多个数据源条目。 - 数据源在 registry 中注册。
- 由
src/shaft/data/center.py中的ShaftDataCenter统一完成:数据源加载、offline transform、sample-level mixing、dataset-aware online transform 编排。 - pipeline 只调用
ShaftDataCenter,不要在 pipeline 内重新手写 mixing 或数据来源分支。 - 增加/更新
tests/test_data_sources.py、tests/test_mixing.py、tests/test_data_center.py。
验收
- 多源可稳定加载;
- 混合策略复现;
- 不在训练核心里写数据来源分支。