Taalas бросает вызов традиционному проектированию чипов, встраивая целые модели искусственного интеллекта непосредственно в кремний.
Совершенно другая конструкция процессора встраивает целые модели искусственного интеллекта в кремний, обеспечивая чрезвычайно высокую скорость и производительность для рабочих нагрузок вывода нового поколения.
Новая архитектура процессора искусственного интеллекта Taalas бросает вызов традиционным конструкциям микросхем, внедряя целые модели искусственного интеллекта непосредственно в кремний и значительно повышая производительность и эффективность вывода. Такой подход устраняет необходимость в традиционных уровнях реализации программного обеспечения, обеспечивая немедленную реакцию и значительно снижая эксплуатационные расходы.
В отличие от графических процессоров общего назначения и ускорителей искусственного интеллекта, в которых приоритет отдается гибкости, эта архитектура создана для специализации на одной модели. Каждый чип разрабатывается специально для конкретной модели искусственного интеллекта и жестко запрограммирует его параметры и вес в самом кремнии. Это изменение увеличивает производительность на один-два порядка по сравнению с существующими решениями.
Ключевые особенности включают в себя:
Он подключает полную модель искусственного интеллекта (веса + параметры) непосредственно к кремнию.
Он обеспечивает в 10–100 раз более высокую производительность вывода, чем графические процессоры.
Задержка менее миллисекунды при более чем 14 тысячах токенов в секунду
До 100 раз более низкая стоимость токена для рабочих нагрузок вывода
Быстрый цикл разработки чипов (~2 месяца на модель)**
Процессор может быть разработан в течение двух месяцев после выпуска модели, что позволяет быстро развернуть оптимизированное оборудование. Ранние демонстрации показывают задержку менее миллисекунды и пропускную способность более 14 000 токенов в секунду на традиционных моделях, благодаря чему выходные данные кажутся почти мгновенными.
Этот скачок производительности также приводит к серьезным экономическим выгодам. Затраты на вывод сокращаются до долей одного процента на миллион токенов – намного ниже, чем в системах на базе графических процессоров – что потенциально позволяет поставщикам облачных услуг обрабатывать гораздо больше запросов с меньшими затратами.
Однако дизайн имеет свои компромиссы. Сосредотачиваясь на одной модели, чип жертвует программируемостью и не может использоваться для других рабочих нагрузок. Хотя ограниченная гибкость может ограничить более широкое внедрение, эта архитектура является важным шагом на пути к крайней специализации в аппаратном обеспечении искусственного интеллекта.
Эта разработка представляет собой растущий сдвиг отрасли в сторону кремния, ориентированного на конкретную предметную область, где прирост производительности и эффективности перевешивает потребность в вычислениях общего назначения. В случае широкого использования этот подход, основанный на моделях, может изменить инфраструктуру искусственного интеллекта, особенно для больших объемов рабочих нагрузок вывода.