Smart agents don’t just act—they recover.
— Khi Agent không chỉ biết làm việc, mà biết đứng dậy sau khi thất bại.
⚙️ At a Glance
| Thành phần | Mô tả ngắn gọn |
|---|---|
| What | Exception Handling & Recovery Pattern giúp Agent phát hiện, xử lý và phục hồi sau lỗi trong quá trình reasoning, planning hoặc execution. |
| Why | Vì thế giới thực không hoàn hảo — API hỏng, dữ liệu lỗi, tool không phản hồi, model hallucinate… Agent cần cơ chế phục hồi tự động thay vì “chết đứng”. |
| How | Bằng cách thiết kế exception-aware workflows với cơ chế try-catch-recover, fallback strategies, và self-healing routines – cho phép agent tự điều chỉnh và tiếp tục tiến trình. |
🧠 Why It Matters
Khi Agentic System vận hành ở quy mô lớn (multi-agent, multi-tool, real-time),
→ lỗi là không thể tránh khỏi.
Điều quan trọng không phải là “làm sao không lỗi”, mà là:
“Khi lỗi xảy ra, Agent có biết xử lý hợp lý và học từ đó không?”
Khả năng resilience (tự phục hồi) giúp:
- Hệ thống ổn định và tin cậy hơn.
- Giảm nhu cầu giám sát thủ công.
- Cho phép Agent hoạt động bền bỉ trong môi trường động.
🧩 How It Works
1️⃣ Exception Detection
Agent nhận biết lỗi qua nhiều cơ chế:
- Lỗi kỹ thuật: API timeout, tool exception, network failure.
- Lỗi logic: output không khớp format, kết quả không hợp lệ.
- Lỗi reasoning: hallucination, vòng lặp vô tận, plan sai điều kiện.
💡 Pattern hỗ trợ: logging, validation, schema check, guardrail prompts.
2️⃣ Exception Categorization
Phân loại lỗi theo tác động và khả năng phục hồi:
| Loại lỗi | Ví dụ | Phản ứng |
|---|---|---|
| Transient | Network timeout | Retry sau vài giây |
| Recoverable | Tool lỗi, API đổi schema | Fallback sang tool khác |
| Critical | Logic sai, output vô nghĩa | Yêu cầu Reflection/Replanning |
| Fatal | Không còn nguồn xử lý | Báo lỗi lên orchestrator |
3️⃣ Recovery Strategies
A. Retry with Backoff
– Thử lại sau thời gian ngẫu nhiên, tránh spam API.
B. Fallback Tools / Agents
– Nếu một tool thất bại → chuyển sang công cụ dự phòng.
– Nếu một agent hỏng → gọi agent khác cùng vai trò.
C. Self-Healing Replanning
– Gọi lại Planning Agent để điều chỉnh kế hoạch hoặc route.
D. Context Reset / Memory Truncation
– Xóa hoặc rút ngắn phần context lỗi để tránh lặp lại sai reasoning.
E. Human-in-the-Loop Escalation
– Nếu lỗi vượt khả năng xử lý → escalate lên người giám sát.
4️⃣ Learning from Failure
Sau khi xử lý, Agent ghi lại:
- Loại lỗi.
- Cách xử lý hiệu quả nhất.
- Kết quả sau phục hồi.
→ Dữ liệu này lưu vào Error Memory / Reflection Log, giúp Agent học cách tránh lỗi tương tự lần sau.
💡 Kết hợp với P10 – Self-Improvement Pattern.
⚙️ Example Workflow
Scenario:
Planner Agent tạo kế hoạch → gọi API weather → tool timeout → Agent không crash mà:
1️⃣ Phát hiện lỗi (“TimeoutError”).
2️⃣ Thử lại 2 lần (Retry).
3️⃣ Nếu vẫn lỗi → chuyển sang WeatherBackupTool.
4️⃣ Nếu thành công → tiếp tục pipeline.
5️⃣ Ghi log vào Memory: “Primary API không phản hồi, đã dùng fallback.”
→ Kết quả: hệ thống vẫn đạt mục tiêu mà không gián đoạn.
💼 Practical Applications & Use Cases
1️⃣ Production AI Agents (Ops & Monitoring)
- AI Ops agent theo dõi hệ thống cloud.
- Khi API giám sát lỗi, agent tự retry hoặc kích hoạt quy trình khắc phục.
💡 Foundation for Self-Healing Infrastructure.
2️⃣ Business Workflow Automation
- Khi email API hỏng → fallback sang SMS.
- Khi CRM không phản hồi → lưu tạm data vào queue.
→ Đảm bảo quy trình không bị gián đoạn.
3️⃣ Autonomous Coding Systems
- Khi build fail → agent tự phân tích log lỗi.
- Nếu lỗi đơn giản → sửa code và rebuild.
- Nếu lỗi nghiêm trọng → gọi reviewer agent.
💡 Ứng dụng trong AutoDev, OpenDevin, hoặc SWE-Agent.
4️⃣ Data Extraction & ETL Pipelines
- Khi gặp file hỏng → agent skip và ghi chú.
- Khi tool OCR sai format → gọi model khác.
- Khi kết quả sai schema → auto-fix hoặc validate lại.
💡 Dạng “fault-tolerant data agent”.
5️⃣ Multi-Agent Collaboration
- Một agent lỗi → Coordinator Agent phát hiện và giao task cho agent khác.
- Hệ thống duy trì redundancy logic như trong microservices.
💡 “Agentic failover system.”
6️⃣ Conversational Agents in Production
- Khi model trả lời không hợp lệ (bias, toxic, hallucination) → Reflection Agent hoặc Safety Agent tự kích hoạt “repair prompt” để tái sinh đầu ra an toàn.
💡 Dạng “Guardrail Layer” kết hợp exception handler.
7️⃣ Robotics & Embodied AI
- Khi robot không thực hiện được hành động → lập kế hoạch lại (replan) để né chướng ngại vật.
- Dựa trên phản hồi cảm biến để phục hồi trạng thái an toàn.
💡 Đây là Exception Handling ở cấp vật lý.
⚙️ Implementation Note
- Frameworks:
- LangGraph: có
error edgesvàfallback nodes. - CrewAI: hỗ trợ
error handling policyvàrecovery workflow. - Google ADK: có
RetryAgent,ErrorMonitor,RecoveryAgent. - AutoGen: hỗ trợ dynamic retry & fallback messaging.
- LangGraph: có
- Best Practices:
- Log mọi lỗi với metadata (timestamp, agent, context).
- Giới hạn số lần retry để tránh loop vô tận.
- Phân biệt rõ recoverable vs critical error.
- Kết hợp với Reflection Pattern để học từ lỗi.
- Luôn có human override path cho lỗi hệ thống.
💡 Key Takeaways
✅ Exception Handling & Recovery = nền tảng của độ tin cậy trong Agentic Systems.
✅ Giúp:
- Giảm downtime, tránh crash toàn hệ thống.
- Tăng khả năng tự phục hồi và ổn định.
- Mở đường cho hệ thống self-healing và autonomous reliability.
✅ Kết hợp cùng:
- Reflection → hiểu lỗi.
- Memory → ghi nhận lỗi cũ.
- Self-Improvement → tránh lỗi trong tương lai.
- Goal Setting → tiếp tục hành trình dù gặp sự cố.