Add testing module (ab_test, metrics, validator)

2026-02-04 12:32:35 +00:00
parent 820bd9801c
commit ad4c01dac7
1 changed files with 79 additions and 0 deletions
--- a/src/promptforge/testing/ab_test.py
+++ b/src/promptforge/testing/ab_test.py
@@ -0,0 +1,79 @@
 import asyncio
 import uuid
 from dataclasses import dataclass, field
 from typing import AsyncIterator, Dict, List, Optional
 from .metrics import TestMetrics, MetricsCollector
 from .results import TestResult, ComparisonResult
 from ..core.prompt import Prompt
 from ..providers.base import ProviderBase, ProviderResponse
@dataclass
 class ABTestConfig:
    iterations: int = 3
    parallel: bool = False
 class ABTest:
    def __init__(self, provider: ProviderBase, config: ABTestConfig):
        self.provider = provider
        self.config = config
        self.metrics_collector = MetricsCollector()
    async def run_single(self, prompt: Prompt, variables: Dict[str, str]) -> TestResult:
        test_id = str(uuid.uuid4())[:8]
        try:
            response = await self.provider.complete(
                prompt.content.format(**variables) if variables else prompt.content
            )
            metrics = TestMetrics(
                test_id=test_id,
                prompt_name=prompt.name,
                provider=self.provider.name,
                model=self.provider.model,
                latency_ms=response.latency_ms,
                success=True,
                tokens_used=response.usage.get("total_tokens", 0) if response.usage else 0,
            )
            return TestResult(success=True, response=response.content, metrics=metrics)
        except Exception as e:
            metrics = TestMetrics(
                test_id=test_id,
                prompt_name=prompt.name,
                provider=self.provider.name,
                model=self.provider.model,
                latency_ms=0,
                success=False,
                error_message=str(e),
            )
            return TestResult(success=False, response="", metrics=metrics, error=str(e))
    async def run_comparison(self, prompts: List[Prompt]) -> Dict[str, ComparisonResult]:
        results = {}
        for prompt in prompts:
            all_metrics: List[TestMetrics] = []
            for _ in range(self.config.iterations):
                result = await self.run_single(prompt, {})
                all_metrics.append(result.metrics)
            comparison = self.metrics_collector.compare(prompt.name, all_metrics)
            results[prompt.name] = comparison
        return results
    async def run_tests(self, prompt: Prompt, iterations: Optional[int] = None) -> ComparisonResult:
        iterations = iterations or self.config.iterations
        all_metrics: List[TestMetrics] = []
        for _ in range(iterations):
            result = await self.run_single(prompt, {})
            all_metrics.append(result.metrics)
        return self.metrics_collector.compare(prompt.name, all_metrics)