mirror of
https://github.com/affaan-m/everything-claude-code.git
synced 2026-02-17 03:43:08 +08:00
2.4 KiB
2.4 KiB
Evalコマンド
評価駆動開発ワークフローを管理します。
使用方法
/eval [define|check|report|list] [機能名]
Evalの定義
/eval define 機能名
新しい評価定義を作成します。
- テンプレートを使用して
.claude/evals/機能名.mdを作成:
## EVAL: 機能名
作成日: $(date)
### 機能評価
- [ ] [機能1の説明]
- [ ] [機能2の説明]
### 回帰評価
- [ ] [既存の動作1が正常に動作する]
- [ ] [既存の動作2が正常に動作する]
### 成功基準
- 機能評価: pass@3 > 90%
- 回帰評価: pass^3 = 100%
- ユーザーに具体的な基準を記入するよう促す
Evalのチェック
/eval check 機能名
機能の評価を実行します。
.claude/evals/機能名.mdから評価定義を読み込む- 各機能評価について:
- 基準の検証を試行
- PASS/FAILを記録
.claude/evals/機能名.logに試行を記録
- 各回帰評価について:
- 関連するテストを実行
- ベースラインと比較
- PASS/FAILを記録
- 現在のステータスを報告:
EVAL CHECK: 機能名
========================
機能評価: X/Y 合格
回帰評価: X/Y 合格
ステータス: 進行中 / 準備完了
Evalの報告
/eval report 機能名
包括的な評価レポートを生成します。
EVAL REPORT: 機能名
=========================
生成日時: $(date)
機能評価
----------------
[eval-1]: PASS (pass@1)
[eval-2]: PASS (pass@2) - 再試行が必要でした
[eval-3]: FAIL - 備考を参照
回帰評価
----------------
[test-1]: PASS
[test-2]: PASS
[test-3]: PASS
メトリクス
-------
機能評価 pass@1: 67%
機能評価 pass@3: 100%
回帰評価 pass^3: 100%
備考
-----
[問題、エッジケース、または観察事項]
推奨事項
--------------
[リリース可 / 要修正 / ブロック中]
Evalのリスト表示
/eval list
すべての評価定義を表示します。
EVAL 定義一覧
================
feature-auth [3/5 合格] 進行中
feature-search [5/5 合格] 準備完了
feature-export [0/4 合格] 未着手
引数
$ARGUMENTS:
define <名前>- 新しい評価定義を作成check <名前>- 評価を実行してチェックreport <名前>- 完全なレポートを生成list- すべての評価を表示clean- 古い評価ログを削除(最新10件を保持)