Articles

Technical deep dives on RAG, LLM systems, AI architecture, and production deployment. Published on Medium and Dev.to.

Building Production RAG: Cost Optimization Strategies

🗓️ April 2025 • 📰 Medium • ⏱️ 8 min read

How to reduce RAG pipeline costs by 66% without sacrificing quality. Practical strategies: prompt caching, embedding model selection, batch processing, and cost-per-query optimization. Includes real numbers from production deployment.

Read on Medium →

Evaluating RAG Systems: Beyond Automated Metrics

🗓️ March 2025 • 📰 Dev.to • ⏱️ 10 min read

Why ROUGE and BERTScore fail for RAG evaluation. The case for human-in-the-loop validation, building labeled datasets, and continuous monitoring. Covers uncertainty sampling and production evaluation strategies.

Read on Dev.to →

Conversational AI in Healthcare: Domain-Specific Challenges

🗓️ February 2025 • 📰 Medium • ⏱️ 12 min read

Lessons from building health insurance chatbots. PII handling (HIPAA), regulatory compliance, conservative response strategies, and maintaining accuracy in regulated domains. Real examples from production deployment.

Read on Medium →

Architecture Lessons from 20 Years: Systems Thinking at Scale

🗓️ January 2025 • 📰 Dev.to • ⏱️ 15 min read

Evolutionary lessons building systems from monoliths to microservices to serverless. Why governance matters. Why cost is architecture. Why observability is a first-class concern. Examples from Yale and enterprise systems.

Read on Dev.to →

Hybrid Retrieval for RAG: Semantic + BM25 Search

🗓️ December 2024 • 📰 Medium • ⏱️ 9 min read

Why semantic search alone isn't enough for domain-specific RAG. How to combine vector similarity with keyword matching (BM25) using reciprocal rank fusion. Benchmark results showing 8% accuracy improvement.

Read on Medium →

LLM Prompt Engineering: Best Practices for Production

🗓️ November 2024 • 📰 Dev.to • ⏱️ 11 min read

Techniques that work in production: few-shot learning, chain-of-thought prompting, output formatting, and temperature tuning. How to design prompts for consistency and cost optimization. Examples from health insurance domain.

Read on Dev.to →

Subscribe & Follow

Get notified when new articles are published.

📰 Medium: Follow @antonglenbovitch
💻 Dev.to: Follow @antonglenbovitch
🐙 GitHub: Follow AntonGlenbovitch
🔗 LinkedIn: Connect with Anton