Ir al contenido

F10 — Learn & Evolve

Cómo se introducen, gobiernan, miden y evolucionan agentes en el portfolio

Sección titulada «Cómo se introducen, gobiernan, miden y evolucionan agentes en el portfolio»

Versión: 5.0.0 | Estado: Activo | Tipo: Core / Phase 10 Framework: AI-First Engineering Framework v6.5


Este documento define el proceso de evolución de agentes una vez que ya existen o están siendo considerados como assets reutilizables del portfolio.

El catálogo de referencia vive en reference/cross_cutting/REF_CROSS_Agent_Catalog.md. Este documento define el operating model para:

  • incubar agentes nuevos
  • promover agentes a reusable assets
  • retirar agentes que ya no aportan valor
  • capturar aprendizaje operativo
  • gestionar la autonomía progresiva (ver reference/cross_cutting/REF_Progressive_Autonomy_Pattern.md)

  • ¿Este agente sigue aportando valor al negocio?
  • ¿Su nivel de autonomía sigue siendo adecuado?
  • ¿Su costo y latencia siguen siendo aceptables?
  • ¿Sus guardrails siguen siendo suficientes?
  • ¿Debe pasar de piloto a approved, o de approved a deprecated?
  • ¿Se han cumplido los SLOs operativos definidos en la Agent Card?

Proposed → Experimental → Pilot → Recommended → Approved → Deprecated → Retired
EstadoDescripciónDuración típica
ProposedIdea documentada, sin implementación1-2 semanas
ExperimentalPrototipo funcional en sandbox1-4 semanas
PilotUso limitado con usuarios reales2-6 semanas
RecommendedValor comprobado, disponible para adopciónIndefinido
ApprovedAsset organizacional oficialIndefinido
DeprecatedMarcado para retiro, alternativa disponible2-4 semanas
RetiredEliminado del portfolio activoTerminal

  • problema claro y documentado
  • owner asignado
  • Agent Card inicial creada
  • tooling identificado
  • presupuesto estimado (tokens/mes)
  • evaluación básica superada (golden dataset ≥ 70 % accuracy)
  • caso de uso real identificado
  • riesgo acotado y documentado en risk register
  • guardrails mínimos implementados
  • evidencia de valor medible (métricas de negocio)
  • métricas estables durante ≥ 2 semanas
  • feedback positivo de usuarios o equipos
  • costo dentro del budget aprobado
  • latencia P95 dentro del SLO
  • reuse comprobado en ≥ 2 contextos
  • documentación completa (Agent Card, runbook, incident playbook)
  • observabilidad y control suficientes (traces, dashboards)
  • aprobación de la AI Factory
  • security review completado (OWASP Agentic checklist)
  • aparición de mejor alternativa
  • costo o complejidad injustificados
  • cambios de arquitectura o riesgo
  • notificación a consumidores con ≥ 2 semanas de anticipación

Cada agente activo debe reportar las siguientes métricas:

MétricaUmbral mínimoFrecuencia
Task success rate≥ 85 %Diario
Grounded response rate≥ 90 %Diario
P95 latency≤ SLO definidoDiario
Token cost / task≤ budget aprobadoSemanal
Human override rate< 15 %Semanal
Incident count0 critical, < 3 minor/mesMensual
User satisfaction (CSAT)≥ 4.0 / 5.0Mensual

  • aumento sostenido de overrides humanos (> 20 % por 2 semanas)
  • caída de grounded response rate (< 85 %)
  • incremento de incidentes (≥ 2 critical en 30 días)
  • cambios regulatorios que afecten al agente
  • cambio de modelo base (nueva versión major)
  • cambio de tooling o permisos
  • exceso de budget > 20 % por 2 semanas consecutivas
  • nueva vulnerabilidad OWASP que aplique

ArtefactoDescripciónTemplate
Agent CardIdentidad, capabilities, permisos, SLOsproject/F10_evolution/agent_evolution_plan.yaml
Métricas operativasDashboard con las métricas de §5Grafana / LLMOps tool
Historial de cambiosLog de versiones, config changes, model swapsGit history + ADR
Incident reviewPost-mortem de incidentes (si aplica)Runbook template
Recomendación de continuidadPromote, evolve, o retireRevisión trimestral

  1. Recopilar métricas — exportar dashboard del trimestre
  2. Evaluar SLOs — comparar contra umbrales de §5
  3. Revisar incidentes — analizar post-mortems del periodo
  4. Evaluar costo vs valor — ROI del agente
  5. Decidir estado — mantener, promover, deprecar o retirar
  6. Actualizar Agent Card — registrar decisión y justificación
  7. Comunicar — notificar a stakeholders el resultado

La AI Factory decide qué agentes se convierten en assets organizacionales y cuáles siguen siendo específicos de un proyecto.

Responsabilidades de la AI Factory:

  • mantener el catálogo oficial (reference/cross_cutting/REF_CROSS_Agent_Catalog.md)
  • aprobar promociones a estado Approved
  • asignar presupuesto de tokens para agentes organizacionales
  • coordinar revisiones trimestrales
  • gestionar el pattern de autonomía progresiva

  • reference/cross_cutting/REF_CROSS_Agent_Catalog.md — catálogo de agentes
  • reference/cross_cutting/REF_Progressive_Autonomy_Pattern.md — autonomía progresiva
  • reference/cross_cutting/REF_CROSS_Subagent_Isolation_Patterns.md — patrones de aislamiento
  • core/F07_Continuous_TEVV/CORE_F07_AI_Evaluation_Quality_Framework.md — evaluación
  • core/F09_Deploy_Operate_GenOps/CORE_F09_Observabilidad_FinOps_Alertas.md — observabilidad
  • guides/Multi_Agent_Orchestration_Guide.md — orquestación multi-agente
  • scripts/schemas/agent_evolution_plan.schema.json — schema de validación