Agentic Design Pattern: P13 – Exception Handling & Recovery – Resilience is Intelligence

Smart agents don’t just act—they recover.
— Khi Agent không chỉ biết làm việc, mà biết đứng dậy sau khi thất bại.


⚙️ At a Glance

Thành phầnMô tả ngắn gọn
WhatException Handling & Recovery Pattern giúp Agent phát hiện, xử lý và phục hồi sau lỗi trong quá trình reasoning, planning hoặc execution.
WhyVì thế giới thực không hoàn hảo — API hỏng, dữ liệu lỗi, tool không phản hồi, model hallucinate… Agent cần cơ chế phục hồi tự động thay vì “chết đứng”.
HowBằng cách thiết kế exception-aware workflows với cơ chế try-catch-recover, fallback strategies, và self-healing routines – cho phép agent tự điều chỉnh và tiếp tục tiến trình.

🧠 Why It Matters

Khi Agentic System vận hành ở quy mô lớn (multi-agent, multi-tool, real-time),
→ lỗi là không thể tránh khỏi.

Điều quan trọng không phải là “làm sao không lỗi”, mà là:

“Khi lỗi xảy ra, Agent có biết xử lý hợp lý và học từ đó không?”

Khả năng resilience (tự phục hồi) giúp:

  • Hệ thống ổn định và tin cậy hơn.
  • Giảm nhu cầu giám sát thủ công.
  • Cho phép Agent hoạt động bền bỉ trong môi trường động.

🧩 How It Works

1️⃣ Exception Detection

Agent nhận biết lỗi qua nhiều cơ chế:

  • Lỗi kỹ thuật: API timeout, tool exception, network failure.
  • Lỗi logic: output không khớp format, kết quả không hợp lệ.
  • Lỗi reasoning: hallucination, vòng lặp vô tận, plan sai điều kiện.

💡 Pattern hỗ trợ: logging, validation, schema check, guardrail prompts.


2️⃣ Exception Categorization

Phân loại lỗi theo tác động và khả năng phục hồi:

Loại lỗiVí dụPhản ứng
TransientNetwork timeoutRetry sau vài giây
RecoverableTool lỗi, API đổi schemaFallback sang tool khác
CriticalLogic sai, output vô nghĩaYêu cầu Reflection/Replanning
FatalKhông còn nguồn xử lýBáo lỗi lên orchestrator

3️⃣ Recovery Strategies

A. Retry with Backoff
– Thử lại sau thời gian ngẫu nhiên, tránh spam API.

B. Fallback Tools / Agents
– Nếu một tool thất bại → chuyển sang công cụ dự phòng.
– Nếu một agent hỏng → gọi agent khác cùng vai trò.

C. Self-Healing Replanning
– Gọi lại Planning Agent để điều chỉnh kế hoạch hoặc route.

D. Context Reset / Memory Truncation
– Xóa hoặc rút ngắn phần context lỗi để tránh lặp lại sai reasoning.

E. Human-in-the-Loop Escalation
– Nếu lỗi vượt khả năng xử lý → escalate lên người giám sát.


4️⃣ Learning from Failure

Sau khi xử lý, Agent ghi lại:

  • Loại lỗi.
  • Cách xử lý hiệu quả nhất.
  • Kết quả sau phục hồi.

→ Dữ liệu này lưu vào Error Memory / Reflection Log, giúp Agent học cách tránh lỗi tương tự lần sau.

💡 Kết hợp với P10 – Self-Improvement Pattern.


⚙️ Example Workflow

Scenario:
Planner Agent tạo kế hoạch → gọi API weather → tool timeout → Agent không crash mà:

1️⃣ Phát hiện lỗi (“TimeoutError”).
2️⃣ Thử lại 2 lần (Retry).
3️⃣ Nếu vẫn lỗi → chuyển sang WeatherBackupTool.
4️⃣ Nếu thành công → tiếp tục pipeline.
5️⃣ Ghi log vào Memory: “Primary API không phản hồi, đã dùng fallback.”

→ Kết quả: hệ thống vẫn đạt mục tiêu mà không gián đoạn.


💼 Practical Applications & Use Cases

1️⃣ Production AI Agents (Ops & Monitoring)

  • AI Ops agent theo dõi hệ thống cloud.
  • Khi API giám sát lỗi, agent tự retry hoặc kích hoạt quy trình khắc phục.
    💡 Foundation for Self-Healing Infrastructure.

2️⃣ Business Workflow Automation

  • Khi email API hỏng → fallback sang SMS.
  • Khi CRM không phản hồi → lưu tạm data vào queue.
    → Đảm bảo quy trình không bị gián đoạn.

3️⃣ Autonomous Coding Systems

  • Khi build fail → agent tự phân tích log lỗi.
  • Nếu lỗi đơn giản → sửa code và rebuild.
  • Nếu lỗi nghiêm trọng → gọi reviewer agent.

💡 Ứng dụng trong AutoDev, OpenDevin, hoặc SWE-Agent.


4️⃣ Data Extraction & ETL Pipelines

  • Khi gặp file hỏng → agent skip và ghi chú.
  • Khi tool OCR sai format → gọi model khác.
  • Khi kết quả sai schema → auto-fix hoặc validate lại.

💡 Dạng “fault-tolerant data agent”.


5️⃣ Multi-Agent Collaboration

  • Một agent lỗi → Coordinator Agent phát hiện và giao task cho agent khác.
  • Hệ thống duy trì redundancy logic như trong microservices.

💡 “Agentic failover system.”


6️⃣ Conversational Agents in Production

  • Khi model trả lời không hợp lệ (bias, toxic, hallucination) → Reflection Agent hoặc Safety Agent tự kích hoạt “repair prompt” để tái sinh đầu ra an toàn.
    💡 Dạng “Guardrail Layer” kết hợp exception handler.

7️⃣ Robotics & Embodied AI

  • Khi robot không thực hiện được hành động → lập kế hoạch lại (replan) để né chướng ngại vật.
  • Dựa trên phản hồi cảm biến để phục hồi trạng thái an toàn.

💡 Đây là Exception Handling ở cấp vật lý.


⚙️ Implementation Note

  • Frameworks:
    • LangGraph:error edgesfallback nodes.
    • CrewAI: hỗ trợ error handling policyrecovery workflow.
    • Google ADK:RetryAgent, ErrorMonitor, RecoveryAgent.
    • AutoGen: hỗ trợ dynamic retry & fallback messaging.
  • Best Practices:
    • Log mọi lỗi với metadata (timestamp, agent, context).
    • Giới hạn số lần retry để tránh loop vô tận.
    • Phân biệt rõ recoverable vs critical error.
    • Kết hợp với Reflection Pattern để học từ lỗi.
    • Luôn có human override path cho lỗi hệ thống.

💡 Key Takeaways

Exception Handling & Recovery = nền tảng của độ tin cậy trong Agentic Systems.
✅ Giúp:

  • Giảm downtime, tránh crash toàn hệ thống.
  • Tăng khả năng tự phục hồi và ổn định.
  • Mở đường cho hệ thống self-healingautonomous reliability.

✅ Kết hợp cùng:

  • Reflection → hiểu lỗi.
  • Memory → ghi nhận lỗi cũ.
  • Self-Improvement → tránh lỗi trong tương lai.
  • Goal Setting → tiếp tục hành trình dù gặp sự cố.

Leave a comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.