Живые системы в продакшне, а не презентации про ИИ

AI-системы и LLM-инжиниринг

Проектирование и разработка LLM-решений для маркетинга и операций: RAG-помощники, контекстная экстракция, автогенерация отчётов, AI-обработка лидов. У нас четыре таких системы работают в проде прямо сейчас — от Telegram-бота с 2 000+ пользователей до MAP-контроля всего рынка дилеров.

Как это работает в кейсе

Читать кейс →

Samsung Medison · ЗАО «Медиэйс»

API endpoints
55
Автотестов
164
Раундов аудита безопасности
5

Это для вас, если

  • Компании с повторяющимися задачами, где LLM реально экономит часы людей в неделю
  • Бизнесы с большой документацией (инструкции, регламенты, каталоги) — RAG-помощник оживляет мёртвый груз
  • Отделы с большими объёмами экстракции или классификации (прайс-мониторинг, обработка документов, чат-поддержка)
  • Корпорации с отчётностью на другом языке — LLM делает мост между «я расскажу на русском» и «HQ хочет на английском»
  • Команды, которые уже пробовали ChatGPT «для идей» и хотят перейти к продакшн-системам
  • Бизнесы, которым нужен внутренний AI-инструмент с жёсткими правилами, а не general-purpose чат

А вот это — не к нам

  • Те, кто хочет «что-нибудь с ИИ, пока это модно»
  • Бизнесы без чётко сформулированной задачи и метрики успеха
  • Проекты, где за 300 000 ₽ хочется получить RAG-систему продакшн-уровня
  • Случаи, где LLM явно не нужен — простой скрипт решит быстрее, дешевле и предсказуемее
  • Компании, ожидающие, что «AI сам поймёт, что нам нужно»

Что вы получаете

Конкретные артефакты, а не «мы вам поможем»

  1. 01

    Работающая система в вашем окружении — не демо на ноутбуке, не Colab-блокнот

  2. 02

    Архитектурная документация: как устроено, какие компоненты, где точки отказа, как дебажить

  3. 03

    Промпты и цепочки, оптимизированные под конкретную задачу и домен — с тестовым набором и версионированием

  4. 04

    Интеграции с вашими системами: CRM, ERP, базы знаний, Telegram, веб-приложения, почта

  5. 05

    Мониторинг, логирование, fallback-цепочки (что делает система, если LLM упал или ответил мусором)

  6. 06

    Eval-сьюты: тестовые вопросы с ожидаемыми ответами, регрессии при смене модели или промпта

  7. 07

    Руководство для команды: как пользоваться, что менять, когда звать инженера

  8. 08

    2–3 месяца поддержки и оптимизации после запуска

Как мы работаем

Процесс — не магия

  1. Discovery

    Что автоматизируем. Какие данные есть. Какой ROI ждём. Где LLM реально нужен, а где нет. Выход — архитектурный документ и eval-набор на 15–20 тестовых запросов.

    1 неделя
  2. Прототип

    Минимальная работающая версия на мок-данных или ограниченной выборке. Проверяем гипотезу: получится ли вообще и с какой точностью.

    2–3 недели
  3. MVP в стейджинге

    Полноценная система в тестовом окружении. Реальные данные, реальные интеграции, но без продакшн-нагрузки. Confidence-scoring, fallback-цепочки.

    3–4 недели
  4. Продакшн + аудит

    Перенос в прод. Аудит безопасности и устойчивости. Нагрузочное, если нужно. Мониторинг качества ответов в реальном времени.

    2–3 недели
  5. Поддержка и развитие

    Мониторинг качества ответов на реальных логах. Оптимизация промптов. Добавление новых кейсов. Реакция на дрифт модели. Обновление эмбеддингов.

    Ongoing

Форматы работы

Как это можно запустить

От короткого аудита без обязательств до долгого retainer-а. Выбор формата зависит от того, на какой стадии вы сейчас и какой риск готовы брать.

  • AI-дискавери

    1 неделя, фикс

    Неделя на discovery и технический отчёт: стоит ли вообще ввязываться, что реально можно сделать, во что это обойдётся. Без обязательств.

  • Прототип / Proof of Concept

    2–3 недели

    Минимальная рабочая версия за 2–3 недели. Показываем стейкхолдерам — решаем, идём ли в продакшн.

  • Полная разработка

    2–4 месяца

    От прототипа до продакшн-системы с интеграциями, аудитом и документацией. Включает 2–3 месяца поддержки после запуска.

  • Retainer на оптимизацию

    От 3 месяцев

    Ежемесячный цикл улучшений: новые кейсы, тюнинг промптов, мониторинг дрифта модели, обновление базы знаний. Без retainer RAG-системы деградируют за 3–6 месяцев — это не баг, это свойство.

Откуда мы это знаем

Четыре AI/enterprise-системы у нас работают в проде прямо сейчас — у основного заказчика (дистрибьютор Samsung Medison). Мы их сами спроектировали, подняли, задеплоили и поддерживаем.

Мы не продаём «нейросети ради нейросетей». Мы проектируем практичные AI-решения под конкретные задачи бизнеса — и встраиваем их в живые процессы клиента.

Четыре живых примера — четыре разных типа AI-задачи

  1. RAG-ассистент в Telegram. 1 000+ страниц инструкций Samsung → удобный сервис. 2 000+ пользователей, мультимодальный ввод (текст, голос, фото экрана сканера), видеоинструкции по шагам. Работает в РФ без VPN. Стек: n8n + Supabase (pgvector).
  2. Контекстная LLM-экстракция цен. 3-уровневый pipeline (JSON-LD → Claude → regex) на ~1 000 URL дилеров за прогон. MAP-контроль по 6 моделям сканеров. 30–45 минут, ~$5 за прогон. Стек: Python 3.14 + Claude Haiku 4.5 + SerpAPI.
  3. Автогенерация отчётов RU → EN. Marketing Expense Tracker с LLM-генератором 5 полей отчёта по мероприятиям для HQ в Корее. 127 автотестов, аудит на PostgreSQL-триггерах, квартальная блокировка. Стек: Next.js 16 + Prisma 7 + Claude Haiku.
  4. Дилерская платформа с integration-heavy бизнес-логикой. Здесь LLM не нужен — и это принципиально: не тащить AI туда, где он лишний. 55 endpoints, 164 теста, Контур.Фокус, 4 роли, статусная машина. Стек: Node.js 20 + Express + PostgreSQL 15.

Это не «мы читали статьи про RAG». Это проверенная боль: что ломается в проде, что дрифтит, какие промпты выживают через месяц, а какие — нет.

Где LLM реально помогает

Четыре типа задач, где LLM на момент 2026-го честно окупает себя:

  1. Контекстная экстракция. Когда из неструктурированного источника надо вытащить данные по сложному правилу: «цена именно этого товара, а не похожих на него». Regex не справится, LLM справляется.
  2. RAG-поиск по базе знаний. Документация, инструкции, прошлые проекты. Вместо «где эта инструкция?» — «расскажи, что у нас про Z».
  3. Автоматическая генерация структурированных документов из свободной формы. Отчёты, саммари, письма. Особенно сильно работает, когда нужен перевод «свободный русский → структурированный английский».
  4. Классификация входящих запросов. Кому направить, с каким приоритетом, что ответить сразу.

Где LLM НЕ помогает

Список такой же важный:

  • Точные вычисления. Считать калькулятор — не задача LLM. Он ошибётся.
  • Детерминированные workflow. Есть чёткие правила — пишите скрипт, дешевле и надёжнее. В кейсе дилерской платформы мы специально не ставили LLM, хотя было много запросов «а сделайте с ИИ».
  • Критически точные решения (медицинские диагнозы, юридические). LLM — ассистент эксперта, не замена.
  • Задачи без метрики качества. Если нельзя оценить, хорошо ли LLM отвечает — проект обречён.

Российский контекст — это архитектура

Российский B2B-рынок добавляет особые вызовы, о которые спотыкаются «общие» AI-подрядчики:

  • Работа без VPN. У клиента в клинике/офисе нет туннеля. Надо класть API-gateway снаружи страны, интерфейс — в удобном мессенджере.
  • Русский язык. Не всё, что хорошо работает с английским промптом, так же хорошо работает с русским. Это тестируется.
  • Доменная терминология. Медицинская, юридическая, финансовая лексика — промпт должен это знать, а не угадывать.
  • Отчётность на другом языке. Корпорации с HQ за рубежом живут в языковой коллизии. LLM решает это лучше переводчиков.

Как обычно выглядит проект

Возьмём типичный RAG по базе знаний:

  • Неделя 1: discovery. Смотрим документацию, интервью с будущими пользователями. Формулируем 15–20 тестовых запросов с ожидаемыми ответами.
  • Недели 2–3: прототип. Простая разбивка на чанки, базовый retrieval, первый промпт. Гоняем на тестовых запросах.
  • Недели 4–6: MVP в стейджинге. Нормальный интерфейс, реальные интеграции, confidence-scoring, fallback-цепочки.
  • Недели 7–9: продакшн. Аудит, мониторинг, документация.
  • Дальше: retainer. Смотрим реальные логи. Добавляем случаи, которые не покрыли. Обновляем эмбеддинги, когда приходят новые документы.

Без retainer-этапа RAG-системы деградируют за 3–6 месяцев. Это не баг, это свойство.

Что мы НЕ делаем

  • Не продаём «AI трансформацию». Делаем отдельные системы с измеримой экономией.
  • Не используем LLM, когда задача решается регулярным выражением.
  • Не обещаем «умный агент, который сам поймёт». Делаем системы с чёткими бизнес-правилами.
  • Не работаем без продакшн-доступа. AI-система, которая живёт только в демо, — не наша история.

С чего начать

Если у вас есть задача, где повторяющаяся работа съедает часы людей в неделю, — напишите в Telegram. За первый созвон мы скажем, стоит ли вообще AI в вашем случае, или проще решить скриптом.

Частые вопросы

То, о чём спрашивают до созвона

Нет. Работаем через API с настройкой «данные не используются для тренировки». У Anthropic это дефолт, у OpenAI включается в настройках проекта. Для чувствительных данных дополнительно проверяем политику и подписываем DPA.

Да, если есть GPU и задача того стоит. Для большинства корпоративных задач облачный LLM дешевле, быстрее и качественнее, чем open-source локально. Но мы не религиозны — считаем экономику под каждую задачу.

Да. В кейсе RAG-ассистента @samsung_uzi_bot мы специально заложили архитектуру, при которой API-gateway к LLM находится за пределами страны, а клиентский интерфейс (Telegram) внутри. Пользователь не включает VPN для того, чтобы задать вопрос. Это ключевой архитектурный выбор — делает систему юзабельной для ежедневной работы.

На том, что ближе задаче. Скрейпинг с контекстной экстракцией — обычно Python (как в кейсе Price Monitor). Интерактивный веб-продукт с AI — Next.js + Vercel AI SDK (как в Marketing Expense Tracker). RAG-пайплайн с мессенджером — n8n + Supabase (как в @samsung_uzi_bot). Смешивать не боимся.

Честно: от 1,5 млн ₽ за полную разработку небольшой системы (RAG по базе знаний, генератор отчётов). Большие интеграционные проекты — от 3–5 млн. Если бюджет меньше — можно начать с дискавери и прототипа за 300–500 тысяч, чтобы понять, что реально нужно, и не платить за воздух.

Это нормальная часть работы с LLM. Мы не делаем «чат-бот, который отвечает на всё». Мы делаем системы с бизнес-правилами: если LLM не уверен — говорит «не знаю». Если отвечает — ответ валидируется (проверка фактов, сравнение с источником, confidence-scoring). Это дороже в разработке, но это единственный способ делать AI для бизнеса.

Четыре системы в проде у дистрибьютора Samsung Medison: RAG-ассистент в Telegram с видеоинструкциями, контекстная LLM-экстракция цен по всему рынку дилеров, генератор отчётов с русского на английский для HQ Кореи, и дилерская платформа бронирования (без LLM, но с enterprise-архитектурой). Подробные разборы — по ссылкам на кейсы ниже.

Как это выглядит в деле

Связанные кейсы

Все кейсы →

Как со мной связаться

Расскажите задачу —
разберём, как её решать.

Первый разговор бесплатный, без презентаций и «а давайте я пришлю коммерческое». Смотрим, что есть, что мешает расти, и честно говорим, берём мы вашу задачу или нет. Если берём — собираем точечный план на ближайшие 60 дней.

Обычно отвечаю в течение рабочего дня. На часовых поясах от Калининграда до Владивостока проверено — пишите, когда вам удобно.