Оптимизированная для искусственного интеллекта архитектура хранения данных
Инфраструктура хранения нового поколения, призванная помочь системам искусственного интеллекта обрабатывать огромные объемы контекстной памяти и многооборотные рассуждения, призвана изменить способы поддержки крупномасштабных рабочих нагрузок вывода.
Появился новый класс технологий хранения данных от NVIDIA, ориентированных на искусственный интеллект, который решает одну из самых сложных задач в современных рабочих нагрузках искусственного интеллекта: эффективное управление и совместное использование огромных объемов контекстных данных во время вывода.Традиционные иерархии хранения и памяти, созданные для общих вычислений, а не для конкретных потребностей ИИ, с трудом справляются с задачей, поскольку модели превращаются в многоагентные, многооборотные системы рассуждения, которым требуется постоянная контекстная память большой емкости.
Ядром разработки является специализированный процессор данных, который лежит в основе недавно анонсированной архитектуры хранения данных на основе искусственного интеллекта, которая расширяет память графического процессора и разделяет кэш вывода ключ-значение (KV) между кластерами с высокой пропускной способностью и предсказуемой задержкой.Это изменение обусловлено переходом ИИ от обработки единичных запросов к непрерывному, длинноконтекстному рассуждению, где большой объем общей памяти необходим для оперативности и точности.
Ключевые особенности:
Расширяет память графического процессора за счет емкости кэша ключей и значений кластерного масштаба для вывода в длинном контексте.
Пропускная способность токенов в секунду выше до 5 раз по сравнению с традиционным хранилищем.
Размещение кэша KV с аппаратным ускорением снижает нагрузку на метаданные и перемещение данных.
Эффективное совместное использование контекста между узлами через высокопроизводительный Ethernet.
До 5 раз более высокая энергоэффективность по сравнению с традиционными архитектурами хранения данных.
Партнеры отрасли, в том числе крупные поставщики систем хранения и систем, уже создают вспомогательные платформы и планируют их доступность во второй половине 2026 года. Ранние тесты и прогнозы указывают на значительный прирост производительности и эффективности для рабочих нагрузок вывода, которые зависят от быстрого доступа к контексту и совместного использования.Помимо чистой производительности, новая инфраструктура решает проблемы масштабируемости и энергоэффективности — двух ограничений, которые преследуют центры обработки данных по мере роста рабочих нагрузок ИИ.За счет отделения служб хранения от центральных процессоров и обеспечения аппаратного ускорения размещения данных кэша «ключ-значение» архитектура обещает до пятикратного улучшения количества обрабатываемых токенов в секунду и энергоэффективности по сравнению с обычными системами хранения при аналогичных нагрузках.
Эта конструкция также обеспечивает более тесную интеграцию между высокопроизводительными сетевыми функциями, памятью и хранилищем, используя передовые фабрики Ethernet для обеспечения удаленного прямого доступа к памяти с малой задержкой между серверами.Результатом является основа, которая лучше согласуется с развивающимися парадигмами вывода, где решающее значение имеют сохранение памяти и совместное использование контекста между узлами.По мере развития инфраструктуры искусственного интеллекта этот уровень хранения может стать ключевым фактором для сервисов искусственного интеллекта следующего поколения, снижая задержки и затраты на электроэнергию, одновременно поддерживая более сложные задачи рассуждения в масштабе.