Сейчас цены на DRAM в дата‑центрах резко растут, меняя традиционную модель расходов, где основной статьёй расходов были видеокарты. По данным аналитика Doug O’Laughlin, цены на модули памяти подскочили в 7 раз за год, а гиперскейлеры планируют вложить миллиарды долларов в новые объекты, где память станет главным ресурсом.
What happened
В интервью с Val Bercovili (Weka) обсуждалось, как компании начинают управлять памятью, чтобы нужные данные попадали к нужному агенту в нужный момент. Пример Anthropic показывает, что кэш‑память теперь продаётся по токен‑часовым тарифам: 5‑минутные и 1‑часовые окна, а цена зависит от количества предоплаченных записей, создавая арбитражные возможности.
Why it matters
- Эффективное кэш‑управление уменьшает количество токенов, необходимых для выполнения запросов, что напрямую снижает стоимость инференса.
- Снижение затрат открывает путь к коммерциализации пока ещё неприбыльных ИИ‑приложений.
- Технологии оптимизации кэша, такие как стартап Tensormesh, уже показывают потенциал снижения расходов на отдельном уровне стека.
What's next
По мере развития управления памятью компании будут переходить к более длительным кэш‑окнам и гибридным схемам использования DRAM и HBM. Это создаст новый барьер для конкурентов: те, кто вкладывает в программные и аппаратные решения по оптимизации памяти, получат заметное преимущество на рынке ИИ‑услуг.