Taalas бросает вызов традиционному проектированию чипов, встраивая целые модели искусственного интеллекта непосредственно в кремний.

Совершенно другая конструкция процессора встраивает целые модели искусственного интеллекта в кремний, обеспечивая чрезвычайно высокую скорость и производительность для рабочих нагрузок вывода нового поколения.

Новая архитектура процессора искусственного интеллекта Taalas бросает вызов традиционным конструкциям микросхем, внедряя целые модели искусственного интеллекта непосредственно в кремний и значительно повышая производительность и эффективность вывода. Такой подход устраняет необходимость в традиционных уровнях реализации программного обеспечения, обеспечивая немедленную реакцию и значительно снижая эксплуатационные расходы.

В отличие от графических процессоров общего назначения и ускорителей искусственного интеллекта, в которых приоритет отдается гибкости, эта архитектура создана для специализации на одной модели. Каждый чип разрабатывается специально для конкретной модели искусственного интеллекта и жестко запрограммирует его параметры и вес в самом кремнии. Это изменение увеличивает производительность на один-два порядка по сравнению с существующими решениями.

Ключевые особенности включают в себя:

Он подключает полную модель искусственного интеллекта (веса + параметры) непосредственно к кремнию.
Он обеспечивает в 10–100 раз более высокую производительность вывода, чем графические процессоры.
Задержка менее миллисекунды при более чем 14 тысячах токенов в секунду
До 100 раз более низкая стоимость токена для рабочих нагрузок вывода
Быстрый цикл разработки чипов (~2 месяца на модель)**
Процессор может быть разработан в течение двух месяцев после выпуска модели, что позволяет быстро развернуть оптимизированное оборудование. Ранние демонстрации показывают задержку менее миллисекунды и пропускную способность более 14 000 токенов в секунду на традиционных моделях, благодаря чему выходные данные кажутся почти мгновенными.

Этот скачок производительности также приводит к серьезным экономическим выгодам. Затраты на вывод сокращаются до долей одного процента на миллион токенов – намного ниже, чем в системах на базе графических процессоров – что потенциально позволяет поставщикам облачных услуг обрабатывать гораздо больше запросов с меньшими затратами.

Однако дизайн имеет свои компромиссы. Сосредотачиваясь на одной модели, чип жертвует программируемостью и не может использоваться для других рабочих нагрузок. Хотя ограниченная гибкость может ограничить более широкое внедрение, эта архитектура является важным шагом на пути к крайней специализации в аппаратном обеспечении искусственного интеллекта.

Эта разработка представляет собой растущий сдвиг отрасли в сторону кремния, ориентированного на конкретную предметную область, где прирост производительности и эффективности перевешивает потребность в вычислениях общего назначения. В случае широкого использования этот подход, основанный на моделях, может изменить инфраструктуру искусственного интеллекта, особенно для больших объемов рабочих нагрузок вывода.

Выберите язык для отображения

Taalas бросает вызов традиционному проектированию чипов, встраивая целые модели искусственного интеллекта непосредственно в кремний.