Пополнение в железе для RISC-V AI — канадская компания, под руководством Джима Келлера представила новый чип Wormhole.
Tenstorrent Launches Wormhole AI Processors: 466 FP8 TFLOPS at 300W
Представлены 2 варианта плат разработчика n150 и n300, с производительностью равной 262 и 466 TeraFLOPs (FP8) соответственно.
Младшую плату можно приобрести за 1000$. за старшую модель придется заплатить уже 1400$.
Больше деталей и характеристик найдется на сайте компании.
Компилятор, для запуска ML-моделей на железе от TT называетсяCUDA BUDA😬
Cофт стек в целом - TT-Metalium, открытый низкоуровневый SDK.
SDK TT-Metalium будет полезен для разработчиков, которые хотят настроить и оптимизировать свои модели машинного обучения, писать новые ядра для выполнения ключевых операций, экспериментировать с низкоуровневыми вычислениями и запускать код, не связанный с машинным обучением, с максимальной производительностью и эффективностью.
[Спасибо Artem E, за подсказку в комментариях]
Подробности о софтверном стeке от Tenstorrent можно найти на github'e проекта.
Так же для понимания и правильного позиционирования продукта рекомендую прочитать интервью с Джимом Кэеллером порталу Nikkei Asia. В этом интервью CEO Tenstorrent бегло отвечает на вопрос о использовании HBM в AI ускорителях с точки зрения энергопотребления и цены конечного продукта.
Tenstorrent Launches Wormhole AI Processors: 466 FP8 TFLOPS at 300W
Представлены 2 варианта плат разработчика n150 и n300, с производительностью равной 262 и 466 TeraFLOPs (FP8) соответственно.
Младшую плату можно приобрести за 1000$. за старшую модель придется заплатить уже 1400$.
Больше деталей и характеристик найдется на сайте компании.
Компилятор, для запуска ML-моделей на железе от TT называется
Cофт стек в целом - TT-Metalium, открытый низкоуровневый SDK.
SDK TT-Metalium будет полезен для разработчиков, которые хотят настроить и оптимизировать свои модели машинного обучения, писать новые ядра для выполнения ключевых операций, экспериментировать с низкоуровневыми вычислениями и запускать код, не связанный с машинным обучением, с максимальной производительностью и эффективностью.
[Спасибо Artem E, за подсказку в комментариях]
Подробности о софтверном стeке от Tenstorrent можно найти на github'e проекта.
Так же для понимания и правильного позиционирования продукта рекомендую прочитать интервью с Джимом Кэеллером порталу Nikkei Asia. В этом интервью CEO Tenstorrent бегло отвечает на вопрос о использовании HBM в AI ускорителях с точки зрения энергопотребления и цены конечного продукта.
Please open Telegram to view this post
VIEW IN TELEGRAM
Intel сократит более 15 000 сотрудников
Число невероятно большое, иногда забываю, насколько огромны такие корпорации. Интересно, наберется ли во всем СНГ 15 000 сотрудников в области полупроводников?
The Verge пишет, что в планах также остановить некую "non-essential work". Конечно же, загадка, что именно скрывается за этой обтекаемой формулировкой.
Больше всего интересно узнать, какая судьба будет у Intel ARC в сегменте GPU и Intel Gaudi в сегменте AI-ускорителей. Оба этих семейства пока что не произвели большого впечатления на рынке.
Intel — одна из немногих компаний, у которой есть собственные производственные мощности для выпуска чипов. Intel занимается буквально всем: разработкой и поддержкой новых техпроцессов, процессорами общего назначения, серверными процессорами, GPU, AI-ускорителями, FPGA-подразделением (бывшая настоящая Altera), разработкой программной экосистемы для новых продуктов.
В 2018 году, когда TSMC уже начала производство 7-нм чипов, у Intel появились проблемы с внедрением 10-нм технологий. Как только у Intel пропало явное преимущество в технологическом процессе перед AMD, конкуренция резко обострилась, и скомпенсировать утерю преимущества микроархитектурой, как мы видим, не удалось.
Так что запасаемся попкорном, а обсудить взлеты и падения Intel всегда можно в комментариях 👀
Число невероятно большое, иногда забываю, насколько огромны такие корпорации. Интересно, наберется ли во всем СНГ 15 000 сотрудников в области полупроводников?
The Verge пишет, что в планах также остановить некую "non-essential work". Конечно же, загадка, что именно скрывается за этой обтекаемой формулировкой.
Больше всего интересно узнать, какая судьба будет у Intel ARC в сегменте GPU и Intel Gaudi в сегменте AI-ускорителей. Оба этих семейства пока что не произвели большого впечатления на рынке.
Intel — одна из немногих компаний, у которой есть собственные производственные мощности для выпуска чипов. Intel занимается буквально всем: разработкой и поддержкой новых техпроцессов, процессорами общего назначения, серверными процессорами, GPU, AI-ускорителями, FPGA-подразделением (
В 2018 году, когда TSMC уже начала производство 7-нм чипов, у Intel появились проблемы с внедрением 10-нм технологий. Как только у Intel пропало явное преимущество в технологическом процессе перед AMD, конкуренция резко обострилась, и скомпенсировать утерю преимущества микроархитектурой, как мы видим, не удалось.
Так что запасаемся попкорном, а обсудить взлеты и падения Intel всегда можно в комментариях 👀
Фиксируем прибыль с акций Интела?
По ссылке выше грустная история инвестиций в 700 000 долларов, полученных по наследству и слитых за 1 день☕️
По ссылке выше грустная история инвестиций в 700 000 долларов, полученных по наследству и слитых за 1 день
Please open Telegram to view this post
VIEW IN TELEGRAM
Если бурления вокруг Intel уже приелись, а душа требует срача, то на хабре случился очередной panchul-gate.
Я, наверное, подожду ещё пару дней, пока комментарии настоятся, но ревнители жанра могут ознакомиться с мнениями хабра-экспертов уже сейчас☺️
Я, наверное, подожду ещё пару дней, пока комментарии настоятся, но ревнители жанра могут ознакомиться с мнениями хабра-экспертов уже сейчас
Please open Telegram to view this post
VIEW IN TELEGRAM
Продолжая тему проблемы энергоэффективности, стоит отметить, что вопрос энергоснабжения AI/HPC-кластеров, становится всё более актуальным. Всё чаще можно встретить новости такого рода: "Tech companies are turning to nuclear plants as AI increases demand for power".
Так что, кроме привычного "почем киловатт-час", вскоре будут спрашивать и "сколько TOPS-ватт?", "сколько FLOPs на Джоуль?" Самое время получше разобраться в вопросе энергоэффективности вычислительных операций.
Энергоэффективность операций в вычислительной технике наглядно демонстрируется в лекции Онура Мутлу (профессора в ETH Zurich) "Memory-Centric Computing".
Например, разница между выполнением целочисленной операции сложения и обращением к памяти DRAM может достигать 6400 раз.
Лекцию можете посмотреть по ссылке на YouTube, а презентацию, на скромные 456 слайдов найдете в первом комментарии к посту😏
Так что, кроме привычного "почем киловатт-час", вскоре будут спрашивать и "сколько TOPS-ватт?", "сколько FLOPs на Джоуль?" Самое время получше разобраться в вопросе энергоэффективности вычислительных операций.
Энергоэффективность операций в вычислительной технике наглядно демонстрируется в лекции Онура Мутлу (профессора в ETH Zurich) "Memory-Centric Computing".
Например, разница между выполнением целочисленной операции сложения и обращением к памяти DRAM может достигать 6400 раз.
Лекцию можете посмотреть по ссылке на YouTube, а презентацию, на скромные 456 слайдов найдете в первом комментарии к посту
Please open Telegram to view this post
VIEW IN TELEGRAM
В дополнение к посту — вот отрывок из статьи журнала HPCwire "A Zettascale Computer Today Would Need 21 Nuclear Power Plants".
Лиза Су, генеральный директор AMD, на выставке ISSCC поделилась перспективами создания суперкомпьютера с производительностью на уровне зеттафлопс. Однако она также подчеркнула серьезные проблемы с энергоэффективностью современных технологий.
Главная проблема, по словам Лизы Су, заключается в том, что производительность вычислительных систем растет быстрее, чем разрабатываются решения для повышения их энергоэффективности. В докладе отмечается, что для работы суперкомпьютера с производительностью на уровне зеттафлопс, если использовать сегодняшние технологии, потребуется около 21 гигаватта, что эквивалентно мощности 21 атомной электростанции, согласно тексту статьи. Но даже с лучшими технологиями и оптимизациями, предполагается, что минимальная потребляемая мощность такого суперкомпьютера составит около 500 мегаватт, что по-прежнему является значительным показателем.
Для сравнения: на Смоленской АЭС работают три энергоблока с реакторами РБМК-1000, каждый из которых имеет электрическую мощность до 1000 мегаватт. Таким образом, даже минимальная оценка в 500 мегаватт для зеттафлопсного компьютера составляет половину мощности одного такого энергоблока.
Лиза Су, генеральный директор AMD, на выставке ISSCC поделилась перспективами создания суперкомпьютера с производительностью на уровне зеттафлопс. Однако она также подчеркнула серьезные проблемы с энергоэффективностью современных технологий.
Главная проблема, по словам Лизы Су, заключается в том, что производительность вычислительных систем растет быстрее, чем разрабатываются решения для повышения их энергоэффективности. В докладе отмечается, что для работы суперкомпьютера с производительностью на уровне зеттафлопс, если использовать сегодняшние технологии, потребуется около 21 гигаватта, что эквивалентно мощности 21 атомной электростанции, согласно тексту статьи. Но даже с лучшими технологиями и оптимизациями, предполагается, что минимальная потребляемая мощность такого суперкомпьютера составит около 500 мегаватт, что по-прежнему является значительным показателем.
Для сравнения: на Смоленской АЭС работают три энергоблока с реакторами РБМК-1000, каждый из которых имеет электрическую мощность до 1000 мегаватт. Таким образом, даже минимальная оценка в 500 мегаватт для зеттафлопсного компьютера составляет половину мощности одного такого энергоблока.
Понедельник день тяжелый. Поэтому меньше слов, больше картинок☺️
Принес вам floorplan нового мобильного процессора AMD Strix Point.
Процессор изготовлен на базе техпроцесса TSMC N4P.
На floorplan'e можно оценить площадь NPU на базе архитектуры XDNA 2, относительно ядер Zen5.
Краткий обзор XDNA 2 NPU можно посмотреть на AnandTech.
В обзоре также упоминаются блочные флоты, обратите на них внимание.
О Microscaling форматах мы с вами поговорим позже.
Принес вам floorplan нового мобильного процессора AMD Strix Point.
Процессор изготовлен на базе техпроцесса TSMC N4P.
На floorplan'e можно оценить площадь NPU на базе архитектуры XDNA 2, относительно ядер Zen5.
Краткий обзор XDNA 2 NPU можно посмотреть на AnandTech.
В обзоре также упоминаются блочные флоты, обратите на них внимание.
О Microscaling форматах мы с вами поговорим позже.
Please open Telegram to view this post
VIEW IN TELEGRAM
На портале chipsandcheese три дня назад вышел детальный разбор AMD’s Strix Point. Так что если ищите лонг-лонг рид про новый чип от AMD, добро пожаловать☺️
Please open Telegram to view this post
VIEW IN TELEGRAM
Вернемся к теме матричных расширений 👀
Не так давно я делился с вами выступлением Валерии Пузиковой с обзором архитектур матричных расширений.
На портале Истовый Инженер, теперь можно ознакомиться с этим докладом в текстовом формате, а так же с подробным разбором AME расширения от T-head и обзором работы SiG ( special interest groups) по разработке новых матричных расширений для архитектуры RISC-V.
Ниже приведены ссылки на эти материалы:
1) Панорама матричных расширений: от x86 до RISC-V
(расширенная, текстовая версия доклада с Митапа RISC-V Альянса)
2) Заглянем в хрустальный шар: как продвигается разработка стандартных матричных расширений RISC-V (обзор работы рабочих групп по разработке интегрированного матричного расширения [IME] и независимого матричного расширения [AME])
3) Погружение в матрицу: расширение RISC-V от T-Head (обзор открытого AME-расширения от T-Head)
4) Математика матричных расширений: умножение матриц на примере T-Head Matrix Extension (разбор матричного умножения на программном уровне с использованием расширения от T-Head)
Не так давно я делился с вами выступлением Валерии Пузиковой с обзором архитектур матричных расширений.
На портале Истовый Инженер, теперь можно ознакомиться с этим докладом в текстовом формате, а так же с подробным разбором AME расширения от T-head и обзором работы SiG ( special interest groups) по разработке новых матричных расширений для архитектуры RISC-V.
Ниже приведены ссылки на эти материалы:
1) Панорама матричных расширений: от x86 до RISC-V
(расширенная, текстовая версия доклада с Митапа RISC-V Альянса)
2) Заглянем в хрустальный шар: как продвигается разработка стандартных матричных расширений RISC-V (обзор работы рабочих групп по разработке интегрированного матричного расширения [IME] и независимого матричного расширения [AME])
3) Погружение в матрицу: расширение RISC-V от T-Head (обзор открытого AME-расширения от T-Head)
4) Математика матричных расширений: умножение матриц на примере T-Head Matrix Extension (разбор матричного умножения на программном уровне с использованием расширения от T-Head)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Chip Annotation Viewer
Год назад я писал про профиль на фото-хостинге Flickr, где автор выкладывает отличные фотографии микросхем (die shots).
Сегодня я нашел интересный ресурс, на котором собраны die shots различных энтузиастов. Для некоторых процессоров даже добавлены разметки floor-plan'a.
Например, вот ссылка на ядро i5-2500 на базе микроархитектуры Sandy Bridge от Intel.
Фильтр включается в поле рядом с названием модели чипа, а регулировать масштаб лучше специальными кнопками в левом нижнем углу экрана, а не колесиком мыши☺️
#dieshots
Год назад я писал про профиль на фото-хостинге Flickr, где автор выкладывает отличные фотографии микросхем (die shots).
Сегодня я нашел интересный ресурс, на котором собраны die shots различных энтузиастов. Для некоторых процессоров даже добавлены разметки floor-plan'a.
Например, вот ссылка на ядро i5-2500 на базе микроархитектуры Sandy Bridge от Intel.
Фильтр включается в поле рядом с названием модели чипа, а регулировать масштаб лучше специальными кнопками в левом нижнем углу экрана, а не колесиком мыши
#dieshots
Please open Telegram to view this post
VIEW IN TELEGRAM
Понедельник день тяжелый, продолжаю соблюдать принцип меньше букв - больше картинок.
Принес вам подборку девбордов на базе RP2350, которую обсуждали с вами на прошлой неделе.
1) Подборка плат в онлайн-сторе Pimoroni;
2) development board от sparkfun;
3) development board от ilabs;
4) development board от Seeed Studio;
☺️
Принес вам подборку девбордов на базе RP2350, которую обсуждали с вами на прошлой неделе.
1) Подборка плат в онлайн-сторе Pimoroni;
2) development board от sparkfun;
3) development board от ilabs;
4) development board от Seeed Studio;
Please open Telegram to view this post
VIEW IN TELEGRAM
Принес вам классную статью с портала semianalysis: Groq Inference Tokenomics: Speed, But At What Cost?
В статье обсуждается производительность программно-аппаратного комплекса от Groq при работе с моделью Mixtral 8x7b. Обратите внимание, что на первом же графике указывается соотношение USD на 1 миллион токенов. Числа для топсов/флопсов придержите для рекламы и продакт брифов.
Интересен Groq в первую очередь с архитектурной точки зрения. Это VLIW машина, без внешний памяти, блоков типа предсказателя переходов, префетчеров, контроллера кэшей, а вся модель размещается на кластере, состоящей из Groq чипов.
В данной статье описывается, что для работы с моделью Mixtral потребовалось подключить 576-чипов, каждый из чипов обладает на кристальной SRAM памятью в 230 MB!
ФактическиDSP-core AI/ML ускоритель от Groq — это классическая числодробилка. Блоки умножения матриц, как ни странно - для умножения матриц, VectorUnit для вычислений посложнее, например, обсчет активационных функций (sigmoid, softmax, и.т.п), а между модулями матричной и векторной обработки расположены блоки SRAM памяти.
Больше чисел, графиков и ссылок найдете в вышеуказанной статье
В статье обсуждается производительность программно-аппаратного комплекса от Groq при работе с моделью Mixtral 8x7b. Обратите внимание, что на первом же графике указывается соотношение USD на 1 миллион токенов. Числа для топсов/флопсов придержите для рекламы и продакт брифов.
Интересен Groq в первую очередь с архитектурной точки зрения. Это VLIW машина, без внешний памяти, блоков типа предсказателя переходов, префетчеров, контроллера кэшей, а вся модель размещается на кластере, состоящей из Groq чипов.
В данной статье описывается, что для работы с моделью Mixtral потребовалось подключить 576-чипов, каждый из чипов обладает на кристальной SRAM памятью в 230 MB!
Фактически
Больше чисел, графиков и ссылок найдете в вышеуказанной статье
Продолжая тему чипа от Groq настоятельно рекомендую ознакомиться с докладом Andrew Bitar'a, Principal Compiler Engineer в компании Groq:
Groq’s Software-Defined Hardware for Dataflow Compute
Это доклад посвящен современным вызовам и решениям в области вычислительных архитектур. С окончанием закона Деннарда и ростом вычислений, связанных с обработкой больших массивов данных, особенно в области AI/ML ускорителей и высокопроизводительных вычислений, возрождается тренд на проектирование чипов на базе Domain-specific architecture.
В докладе рассказывается о концепции Software-Defined Hardware на примере архитектуры Groq.
Этот подход позволяет упростить управление вычислительными ресурсами, устраняя необходимость в аппаратном контроле за потоками данных, что в свою очередь значительно упрощает микроархитектуру конечного чипа. Важность такого подхода заключается в том, что он делает работу с данными более предсказуемыми и эффективными, что особенно критично в эпоху замедления закона Мура и роста требований к производительности в задачах AI/ML ускорителей.
В качестве дополнительной литературы автор доклада рекомендует ознакомиться со следующими статьями:
1) A Software-defined Tensor Streaming Multiprocessor forLarge-scale Machine Learning
2) Think Fast: A Tensor Streaming Processor (TSP)for Accelerating Deep Learning Workloads
Groq’s Software-Defined Hardware for Dataflow Compute
Это доклад посвящен современным вызовам и решениям в области вычислительных архитектур. С окончанием закона Деннарда и ростом вычислений, связанных с обработкой больших массивов данных, особенно в области AI/ML ускорителей и высокопроизводительных вычислений, возрождается тренд на проектирование чипов на базе Domain-specific architecture.
В докладе рассказывается о концепции Software-Defined Hardware на примере архитектуры Groq.
Этот подход позволяет упростить управление вычислительными ресурсами, устраняя необходимость в аппаратном контроле за потоками данных, что в свою очередь значительно упрощает микроархитектуру конечного чипа. Важность такого подхода заключается в том, что он делает работу с данными более предсказуемыми и эффективными, что особенно критично в эпоху замедления закона Мура и роста требований к производительности в задачах AI/ML ускорителей.
В качестве дополнительной литературы автор доклада рекомендует ознакомиться со следующими статьями:
1) A Software-defined Tensor Streaming Multiprocessor forLarge-scale Machine Learning
2) Think Fast: A Tensor Streaming Processor (TSP)for Accelerating Deep Learning Workloads
Редакция канала Истовый Инженер поделилась замечательным ресурсом — Silicon Zoo, где собраны чип-арты, оставленные разработчиками микросхем.
На портале Silicon Zoo собраны самые разные чип арты, созданные разработчиками микросхем.
Эти рисунки создаются дизайнерами на свободных участках чипа и могут включать в себя как простые инициалы, так и сложные изображения, которые можно увидеть только под микроскопом. Такие изображения можно сравнить с аппаратной версией пасхальных яиц в программном обеспечении.
А в этом разделе, можете почувствовать себя в роли silicon art хантера и отыскать кремниевую creature на предложенном dieshot.
Chip Art из шапки поста — AMD Athlon K7 Pluto.
#dieshots
На портале Silicon Zoo собраны самые разные чип арты, созданные разработчиками микросхем.
Эти рисунки создаются дизайнерами на свободных участках чипа и могут включать в себя как простые инициалы, так и сложные изображения, которые можно увидеть только под микроскопом. Такие изображения можно сравнить с аппаратной версией пасхальных яиц в программном обеспечении.
А в этом разделе, можете почувствовать себя в роли silicon art хантера и отыскать кремниевую creature на предложенном dieshot.
Chip Art из шапки поста — AMD Athlon K7 Pluto.
#dieshots
Понедельник день тяжелый — никаких лонгридов, только мемы.
Мне дико зашел шаблон Triangle Factory.
Принес вам интерпретацию мема про Texas Instruments.
Мне дико зашел шаблон Triangle Factory.
Принес вам интерпретацию мема про Texas Instruments.
13000 тестов для проверки процессоров на базе RISC-V ISA от Tenstorrent
Компания Tenstorrent продолжает вносить свой вклад в экосистему открытого исходного кода RISC-V. На GitHub представлено более 13 000 программных тестов, охватывающих широкий спектр RISC-V ISA, включая RV64-I, RV-M, RV-F, RV-D, RV-C, RV-V и другие.
Для RISC-V Vector поддерживаются две конфигурации для 128 и 256 битной длины векторного регистра.
Важно отметить, что несмотря на то, что тесты являются микроархитектурно-нейтральными и могут работать на популярных симуляторах RISC-V, таких как Whisper и Spike, успешный запуск этих тестов на конечной аппаратуре зависит от соответствия с memory map, проверяемого устройства.
Если карта памяти проверяемого устройства отличается от той, что используется в тестах, это может помешать их корректному запуску.
В репозитории можно найти только .elf файлы и файлы дизасемблера, которые и так можно получить из .elf файла.
В таком случае может потребоваться адаптация или перекомпиляция тестов в соответствии с картой памяти тестируемого устройства, а местами возможно и ручное обновления адресов, что кратно усложняет задачу по использованию данного тестового окружения.
Почему Tenstorent не предоставили исходники, который каждый может собрать под себя остаётся вопросом🖥
Компания Tenstorrent продолжает вносить свой вклад в экосистему открытого исходного кода RISC-V. На GitHub представлено более 13 000 программных тестов, охватывающих широкий спектр RISC-V ISA, включая RV64-I, RV-M, RV-F, RV-D, RV-C, RV-V и другие.
Для RISC-V Vector поддерживаются две конфигурации для 128 и 256 битной длины векторного регистра.
Важно отметить, что несмотря на то, что тесты являются микроархитектурно-нейтральными и могут работать на популярных симуляторах RISC-V, таких как Whisper и Spike, успешный запуск этих тестов на конечной аппаратуре зависит от соответствия с memory map, проверяемого устройства.
Если карта памяти проверяемого устройства отличается от той, что используется в тестах, это может помешать их корректному запуску.
В репозитории можно найти только .elf файлы и файлы дизасемблера, которые и так можно получить из .elf файла.
В таком случае может потребоваться адаптация или перекомпиляция тестов в соответствии с картой памяти тестируемого устройства, а местами возможно и ручное обновления адресов, что кратно усложняет задачу по использованию данного тестового окружения.
Почему Tenstorent не предоставили исходники, который каждый может собрать под себя остаётся вопросом
Please open Telegram to view this post
VIEW IN TELEGRAM
Год назад я писал про AI-ускорители от SAPEON 220-й серии. Чипы выпускались по устаревшему 28-нм техпроцессу, но при этом 220-я серия позиционировалась как прямой конкурент Nvidia A2. Среди особенностей - ускорители работали только с целочисленными форматами данных int16/8/4.
Недавно SAPEON анонсировала 330-ю серию. Основные обновления: 7-нм техпроцесс, добавлена поддержка FP16/8. В 330-й серии наблюдается четырёхкратный прирост производительности по сравнению с 220-й при работе с моделью Resnet-50 v1.5.
Больше подробностей смотрите на сайте компании и в product brief🖥
Недавно SAPEON анонсировала 330-ю серию. Основные обновления: 7-нм техпроцесс, добавлена поддержка FP16/8. В 330-й серии наблюдается четырёхкратный прирост производительности по сравнению с 220-й при работе с моделью Resnet-50 v1.5.
Больше подробностей смотрите на сайте компании и в product brief
Please open Telegram to view this post
VIEW IN TELEGRAM