Перейти к содержимому
ТехнологииВажное

Запуск моделей ИИ превращается в игру с памятью

Стоимость инфраструктуры ИИ всё чаще зависит не только от GPU Nvidia, но и от цены оперативной памяти: за последний год цены на DRAM выросли примерно в 7 раз. Аналитик Doug O’Laughlin в интервью с Val Bercovici, chief AI officer компании Weka, отметил, что хорошее управление кэш‑памятью может сократить количество токенов в запросах и снизить расходы компаний.

Система кэширования запросов Anthropic иллюстрирует новую бизнес‑модель: из простой рекомендации «используйте кэш — это дешевле» за несколько месяцев выросла «энциклопедия» тарифов, где пользователи покупают окна кэш‑памяти от 5 минут до часа, а разница в цене создаёт возможности арбитража.

Сигнал: рост цен на память и усложнение кэш‑стратегий открывают новый уровень конкурентного преимущества в ИИ‑инфраструктуре; компании, которые оптимизируют память, снижают издержки и могут предлагать более рентабельные сервисы.

Сейчас цены на DRAM в дата‑центрах резко растут, меняя традиционную модель расходов, где основной статьёй расходов были видеокарты. По данным аналитика Doug O’Laughlin, цены на модули памяти подскочили в 7 раз за год, а гиперскейлеры планируют вложить миллиарды долларов в новые объекты, где память станет главным ресурсом.

What happened

В интервью с Val Bercovili (Weka) обсуждалось, как компании начинают управлять памятью, чтобы нужные данные попадали к нужному агенту в нужный момент. Пример Anthropic показывает, что кэш‑память теперь продаётся по токен‑часовым тарифам: 5‑минутные и 1‑часовые окна, а цена зависит от количества предоплаченных записей, создавая арбитражные возможности.

Why it matters

  • Эффективное кэш‑управление уменьшает количество токенов, необходимых для выполнения запросов, что напрямую снижает стоимость инференса.
  • Снижение затрат открывает путь к коммерциализации пока ещё неприбыльных ИИ‑приложений.
  • Технологии оптимизации кэша, такие как стартап Tensormesh, уже показывают потенциал снижения расходов на отдельном уровне стека.

What's next

По мере развития управления памятью компании будут переходить к более длительным кэш‑окнам и гибридным схемам использования DRAM и HBM. Это создаст новый барьер для конкурентов: те, кто вкладывает в программные и аппаратные решения по оптимизации памяти, получат заметное преимущество на рынке ИИ‑услуг.

Все материалы