feat(otel): include per-span token usage metrics in OTel export

## Context

AgentV captures detailed token usage from both Copilot CLI (via ACP `usage_update`) and Claude SDK (`input_tokens`, `output_tokens`, `cache_read_input_tokens`) providers. However, the OTel exporter only includes aggregate trace-level counts as root span attributes, not per-message/per-LLM-call token breakdowns.

## Current behavior

In `otel-exporter.ts`, the root span gets:
- `agentv.trace.event_count` — total tool calls
- `agentv.trace.cost_usd` — total cost
- `agentv.trace.llm_call_count` — LLM call count

Child `gen_ai.generation` spans get model name, duration, and content — but **no token usage**.

## Proposal

Add token usage attributes to each LLM child span using the exact [GenAI semantic convention names](https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-spans/):

```typescript
// In exportMessage(), for assistant messages:
if (msg.tokenUsage) {
  span.setAttribute('gen_ai.usage.input_tokens', msg.tokenUsage.inputTokens);
  span.setAttribute('gen_ai.usage.output_tokens', msg.tokenUsage.outputTokens);
  if (msg.tokenUsage.cacheCreationInputTokens != null)
    span.setAttribute('gen_ai.usage.cache_creation.input_tokens', msg.tokenUsage.cacheCreationInputTokens);
  if (msg.tokenUsage.cacheReadInputTokens != null)
    span.setAttribute('gen_ai.usage.cache_read.input_tokens', msg.tokenUsage.cacheReadInputTokens);
}
```

> **Note**: The GenAI spec has **no cost attribute** (`gen_ai.usage.cost` does not exist). Cost should remain as `agentv.trace.cost_usd` on the root span only.

### Data flow prerequisite

The `Message` type in `packages/core/src/evaluation/providers/types.ts` needs `tokenUsage` if not already present. Check what each provider currently captures:

| Provider | Token data available | Where captured |
|---|---|---|
| Claude SDK | `input_tokens`, `output_tokens`, `cache_read_input_tokens`, `cache_creation_input_tokens` | `claude.ts` — from `result.usage` |
| Copilot CLI | `used` (input tokens), no output breakdown | `copilot-cli.ts` — from ACP `usage_update` |
| Copilot SDK | `input_tokens`, `output_tokens` | `copilot-sdk.ts` — from SDK response |
| Azure/AI SDK | Varies by model | `ai-sdk.ts` — from Vercel AI SDK response |

If `Message.tokenUsage` doesn't exist, add it as an optional field and propagate from providers.

## Files to modify

1. **`packages/core/src/evaluation/providers/types.ts`** — Add `tokenUsage?: ProviderTokenUsage` to `Message` type (if missing)
2. **`packages/core/src/evaluation/providers/claude.ts`** — Attach per-message token usage to `Message` objects
3. **`packages/core/src/evaluation/providers/copilot-cli.ts`** — Same
4. **`packages/core/src/observability/otel-exporter.ts`** — Read `msg.tokenUsage` in `exportMessage()` and set attributes
5. **Tests** — Verify token attributes appear on child spans

## Acceptance criteria

- [ ] LLM child spans include `gen_ai.usage.input_tokens` and `gen_ai.usage.output_tokens` when available
- [ ] Cache token attributes use correct names: `gen_ai.usage.cache_creation.input_tokens`, `gen_ai.usage.cache_read.input_tokens`
- [ ] Root span `agentv.trace.cost_usd` remains unchanged (no `gen_ai.usage.cost` — doesn't exist in spec)
- [ ] Providers that don't report per-message tokens gracefully omit the attributes (no zeros or nulls)
- [ ] Unit tests verify attributes on child spans

## References

- [GenAI token usage attributes](https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-spans/) — `gen_ai.usage.*` section
- AgentV OTel exporter: `packages/core/src/observability/otel-exporter.ts:178-253`
- Depends on #298 for attribute naming consistency

## Testing Approach

### Unit Tests (InMemorySpanExporter)
```typescript
const exporter = new InMemorySpanExporter();
// Run mock eval with known token counts (e.g., mock provider returns tokenUsage: { input: 100, output: 50, cached: 20 })

const spans = exporter.getFinishedSpans();
const genSpan = spans.find(s => s.attributes['gen_ai.operation.name'] === 'chat');
expect(genSpan.attributes['gen_ai.usage.input_tokens']).toBe(100);
expect(genSpan.attributes['gen_ai.usage.output_tokens']).toBe(50);
expect(genSpan.attributes['gen_ai.usage.cache_read.input_tokens']).toBe(20);
```

### What to Assert
- [ ] Per-span token attributes present on `gen_ai.chat` spans (not just root)
- [ ] Cache token attributes only present when provider reports them
- [ ] Total tokens on root span match sum of child spans
- [ ] Token attributes use correct GenAI convention names (not `agentv.*`)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat(otel): include per-span token usage metrics in OTel export #299

Context

Current behavior

Proposal

Data flow prerequisite

Files to modify

Acceptance criteria

References

Testing Approach

Unit Tests (InMemorySpanExporter)

What to Assert

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Provider	Token data available	Where captured
Claude SDK	`input_tokens`, `output_tokens`, `cache_read_input_tokens`, `cache_creation_input_tokens`	`claude.ts` — from `result.usage`
Copilot CLI	`used` (input tokens), no output breakdown	`copilot-cli.ts` — from ACP `usage_update`
Copilot SDK	`input_tokens`, `output_tokens`	`copilot-sdk.ts` — from SDK response
Azure/AI SDK	Varies by model	`ai-sdk.ts` — from Vercel AI SDK response

feat(otel): include per-span token usage metrics in OTel export #299

Description

Context

Current behavior

Proposal

Data flow prerequisite

Files to modify

Acceptance criteria

References

Testing Approach

Unit Tests (InMemorySpanExporter)

What to Assert

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions