Думаю, многие из вас уже знакомы с проектом pulp-platform, в котором представлены различные готовые IP-блоки: от простейших FIFO и LZC до сложных процессорных систем, таких как Snitch Cluster.
Сегодня хочу поделиться с вами GitHub-аккаунтом лаборатории открытых компьютерных архитектур, LOCA из Барселонского суперкомпьютерного центра BSC.
На GitHub-аккаунте BSC LOCA можно найти множество интересных проектов на любой вкус и цвет. Вот несколько примеров:
1. Sargantana — in-order RISC-V процессор, способный загрузить Linux.
2. SAURIA — тензорный ускоритель на основе систолического массива (Systolic Array) с поддержкой формата FP16.
3. Memory Management Unit (MMU) — базовый строительный блок для разработки процессорных ядер с поддержкой Linux. Реализована поддержка формата виртуальной адресации SV39.
4. L1 Instruction Cache — кеш инструкций первого уровня.
Подробнее c портфолио проектов ознакомиться можно здесь: https://github.com/bsc-loca
Помимо GitHub-репозиториев, у BSC также есть официальный каталог, в котором собраны ключевые проекты и инициативы в области RISC-V и полупроводниковых технологий:
BSC RISC-V Technologies Catalogue — посмотреть PDF
Сегодня хочу поделиться с вами GitHub-аккаунтом лаборатории открытых компьютерных архитектур, LOCA из Барселонского суперкомпьютерного центра BSC.
На GitHub-аккаунте BSC LOCA можно найти множество интересных проектов на любой вкус и цвет. Вот несколько примеров:
1. Sargantana — in-order RISC-V процессор, способный загрузить Linux.
2. SAURIA — тензорный ускоритель на основе систолического массива (Systolic Array) с поддержкой формата FP16.
3. Memory Management Unit (MMU) — базовый строительный блок для разработки процессорных ядер с поддержкой Linux. Реализована поддержка формата виртуальной адресации SV39.
4. L1 Instruction Cache — кеш инструкций первого уровня.
Подробнее c портфолио проектов ознакомиться можно здесь: https://github.com/bsc-loca
Помимо GitHub-репозиториев, у BSC также есть официальный каталог, в котором собраны ключевые проекты и инициативы в области RISC-V и полупроводниковых технологий:
BSC RISC-V Technologies Catalogue — посмотреть PDF
70% Size, 100% Accuracy:
Lossless LLM Compression for Efficient GPU
Inference via Dynamic-Length Float
Новый день - новый формат флота. В этот раз с динамической экспонентой.
В статье представлен метод Dynamic-Length Float (DFloat11) — фреймворк сжатия весов больших языковых моделей без потери точности, который позволяет снизить объём памяти и при этом сохраняет совместимость с эффективным выполнением инференса на GPU.
Эксперименты на популярных моделях, таких как Llama-3.1, Qwen-2.5 и Gemma-3, подтвердили эффективность подхода, который значительно повышает пропускную способность и окно контекста.
Что-то похоже было у Tesla Dojo Technology - Configurable Float8 (CFloat8) пару лет назад.
CFloat:
Делит фиксированные 8 бит между мантиссой и экспонентой, а также использует настраиваемый сдвиг экспоненты, но не использует энтропийное кодирование.
DFloat11:
Сжимает данные за счёт энтропийного кодирования экспоненты, что позволяет уменьшить общий размер хранения без потери точности - не изменяет ширину поля мантиссы.
https://arxiv.org/pdf/2504.11651
p.s. А мой любимый Posit всё так и не находити скорее всего не найдет применения в современных задачах для AI/ML👋
Lossless LLM Compression for Efficient GPU
Inference via Dynamic-Length Float
Новый день - новый формат флота. В этот раз с динамической экспонентой.
В статье представлен метод Dynamic-Length Float (DFloat11) — фреймворк сжатия весов больших языковых моделей без потери точности, который позволяет снизить объём памяти и при этом сохраняет совместимость с эффективным выполнением инференса на GPU.
Эксперименты на популярных моделях, таких как Llama-3.1, Qwen-2.5 и Gemma-3, подтвердили эффективность подхода, который значительно повышает пропускную способность и окно контекста.
Что-то похоже было у Tesla Dojo Technology - Configurable Float8 (CFloat8) пару лет назад.
CFloat:
Делит фиксированные 8 бит между мантиссой и экспонентой, а также использует настраиваемый сдвиг экспоненты, но не использует энтропийное кодирование.
DFloat11:
Сжимает данные за счёт энтропийного кодирования экспоненты, что позволяет уменьшить общий размер хранения без потери точности - не изменяет ширину поля мантиссы.
https://arxiv.org/pdf/2504.11651
p.s. А мой любимый Posit всё так и не находит
Please open Telegram to view this post
VIEW IN TELEGRAM
16, 8, and 4-bit Floating Point Formats – How Does it Work?
Классная статейка про работу с low-precision флотами.
Также упоминаются более продвинутые методы, применяемые в больших моделях, вплоть до 2-битного и тернарного представления весов.
Классная статейка про работу с low-precision флотами.
Также упоминаются более продвинутые методы, применяемые в больших моделях, вплоть до 2-битного и тернарного представления весов.
Towards Data Science
16, 8, and 4-bit Floating Point Formats - How Does it Work? | Towards Data Science
Let's go into bits and bytes
Please open Telegram to view this post
VIEW IN TELEGRAM
Открытое RISC-V ядро Sargantana, разработанное инженерами из группы Laboratory for Open Computer Architecture (LOCA) при Barcelona Supercomputing Center (BSC), получило масштабное обновление:
🎉 RISC-V Vector Extension (RVV) версии 1.0 (пока без поддержки инструкций с конфигурации длины вектора, для LMUL > 1 и без векторных инструкций для работы с плавающей точкой).
Подробнее ознакомиться с обновлением можно в исходниках проекта:
Исходный код ядра Sargantana
Исходный код VPU
🎉 RISC-V Vector Extension (RVV) версии 1.0 (пока без поддержки инструкций с конфигурации длины вектора, для LMUL > 1 и без векторных инструкций для работы с плавающей точкой).
Подробнее ознакомиться с обновлением можно в исходниках проекта:
Исходный код ядра Sargantana
Исходный код VPU
Сложно переоценить влияние компании Intel на современную полупроводниковую индустрию и подходы, которые сегодня применяются в дизайн-центрах по всему миру. Многие из этих подходов были впервые внедрены именно в Intel. Одной из таких важных концепций является «War Room».
Цена ошибки при выпуске микросхем крайне высока, но не менее критичен и срыв сроков. Очерёдность tape-out (финальной передачи дизайна микросхемы на производство) планируется не только условиями контракта, но и загруженностью фабрики. Поэтому перенести дату производства, если не невозможно, то крайне сложно.
В процессе подготовки микросхемы задействованы команды логического проектирования, верификации и физического дизайна. И чем ближе дата того самого RTL freeze (момента, после которого описание аппаратуры нельзя изменять), тем выше накал страстей при взаимодействии этих команд. В определённый момент уже нет возможности вносить исправления в чип, так как команде физического дизайнга необходимо иметь стабильное и неизменяемое описание аппаратуры.
Именно на этом этапе возникают критически важные вопросы: какой баг является действительно важным и требует немедленного исправления, и как его устранение повлияет на график подготовки продукта к выпуску? Для быстрого анализа таких ситуаций и оперативного принятия решений вводится понятие War Room.
Специалисты в полупроводниковой отрасли, знакомые с терминами tape-out и RTL freeze, отлично понимают важность и необходимость такого подхода.
Подробнее о применении концепции War Room и других интересных аспектах разработки процессоров можно прочитать в книге «The Pentium Chronicles».
Цена ошибки при выпуске микросхем крайне высока, но не менее критичен и срыв сроков. Очерёдность tape-out (финальной передачи дизайна микросхемы на производство) планируется не только условиями контракта, но и загруженностью фабрики. Поэтому перенести дату производства, если не невозможно, то крайне сложно.
В процессе подготовки микросхемы задействованы команды логического проектирования, верификации и физического дизайна. И чем ближе дата того самого RTL freeze (момента, после которого описание аппаратуры нельзя изменять), тем выше накал страстей при взаимодействии этих команд. В определённый момент уже нет возможности вносить исправления в чип, так как команде физического дизайнга необходимо иметь стабильное и неизменяемое описание аппаратуры.
Именно на этом этапе возникают критически важные вопросы: какой баг является действительно важным и требует немедленного исправления, и как его устранение повлияет на график подготовки продукта к выпуску? Для быстрого анализа таких ситуаций и оперативного принятия решений вводится понятие War Room.
Специалисты в полупроводниковой отрасли, знакомые с терминами tape-out и RTL freeze, отлично понимают важность и необходимость такого подхода.
Подробнее о применении концепции War Room и других интересных аспектах разработки процессоров можно прочитать в книге «The Pentium Chronicles».
В канале теперь работает функция личных сообщений админу каналу то есть мне , так что если у вас есть какие-либо вопросы/предложения, которые вы хотите задать не в комментариях, а в личных сообщениях - welcome
p.s. работает только на последней версии телеграма, на телефоне у меня апдейт уже появился, а на ПК еще не завезли😑
p.s. работает только на последней версии телеграма, на телефоне у меня апдейт уже появился, а на ПК еще не завезли
Please open Telegram to view this post
VIEW IN TELEGRAM
А чтобы не скучали, вот вам пейпер на 40 страниц с исчерпывающим обзором современных подходов к проектированию систолических массивов.
A Survey of Design and Optimization for Systolic Array-based DNN Accelerators
A Survey of Design and Optimization for Systolic Array-based DNN Accelerators
Если всё ещё не поняли, что такое чиплеты, почему о них все говорят и зачем они нужны, — вот классная статья на эту тему👀
Chiplets and the Future of System Design
Chiplets and the Future of System Design
Please open Telegram to view this post
VIEW IN TELEGRAM
Chipstrat
Chiplets and the Future of System Design
How chiplets keep integration scaling alive. Benefits, trade-offs, and the need for open standards.
Пока в интернете обсуждают WWDC25 и Liquid Glass, напоминаю как выглядят EDA тулы у проектировщиков процессоров в 2025-м году
Эту недельку придется потерпеть вам душные посты про матрицы, флоты, dot product и fma.
Но обещаю потом все лето не душнить про computer arithmetic (нет🗿)
Но обещаю потом все лето не душнить про computer arithmetic
Одна из задач при проектировании нейроускорителя — реализация вычислительного тракта для операций с плавающей точкой. Классический скалярный 4–5 стадийный FMA здесь не подходит: требуется параллельное перемножение большого количества пар операндов с последующим сложением в общий аккумулятор.
Для этого применяется техника поздней нормализации и перевода чисел с плавающей точкой в fixed-point представление, что позволяет выполнять точное накопление без промежуточного округления.
В этом посте найдете ссылки на статьи, подробно раскрывающие, как и почему NPU отклоняются от стандарта IEEE-754, как обрабатываются NaN и бесконечности, и как определяется ширина fixed-point представления для различных форматов чисел с плавающей точкой.
1. Exact Dot Product Accumulate Operators
for 8-bit Floating-Point Deep Learning
2. Experimental Analysis of Matrix Multiplication Functional Units
3. Modified Fused Multiply and Add for exact low precision product accumulation
Для этого применяется техника поздней нормализации и перевода чисел с плавающей точкой в fixed-point представление, что позволяет выполнять точное накопление без промежуточного округления.
В этом посте найдете ссылки на статьи, подробно раскрывающие, как и почему NPU отклоняются от стандарта IEEE-754, как обрабатываются NaN и бесконечности, и как определяется ширина fixed-point представления для различных форматов чисел с плавающей точкой.
1. Exact Dot Product Accumulate Operators
for 8-bit Floating-Point Deep Learning
2. Experimental Analysis of Matrix Multiplication Functional Units
3. Modified Fused Multiply and Add for exact low precision product accumulation
MXDOTP: A RISC-V ISA Extension for Enabling Microscaling (MX) Floating-Point Dot Products
В этой статье представлена реализация dot product с аппаратной поддержкой формата Microscaling (MX) — нового стандартизованного формата, сочетающего простоту реализации для 8-битных чисел и расширенный динамический диапазон благодаря использованию scale-факторов (общих экспонент для блоков элементов, не путать с блочными флотами! ).
MXDOTP — это расширение ISA для RISC-V, интегрированное в ядро Snitch. Оно позволяет выполнять dot product между двумя 8-элементными FP8-векторами с накоплением в FP32 и применением двух независимых scale-факторов. Для обхода ограничения на количество портов чтения регистрового файла используется механизм Stream Semantic Registers (SSR), что позволяет эффективно подавать четыре операнда за такт. SSR — особенность ядра Snitch, позволяющая передавать потоковые данные напрямую в вычислительные блоки без участия регистрового файла и LSU. Это компромисс между дополнительной сложностью в программной поддержке и выигрышем в доступности данных при минимальной площади.
Исходный код MXDOTP доступен на GitHub репозитории проекта.
Эмуляцию формата MX можно выполнить с помощью MX PyTorch Emulation Library от Microsoft.
Подробнее с форматом можно ознакомиться в спецификации формата или в обзорной статье Николаса Бруни.
p.s. Очень здорово оформлена самая статья. Работа выполнена в рамках европейского проекта NeuroSoC, финансируемого по линии Horizon Europe (Grant Agreement №101070634). По ссылке можно изучить детали проекта: участников, цели, бюджеты, отчётность, документацию и сроки:
https://cordis.europa.eu/project/id/101070634
В этой статье представлена реализация dot product с аппаратной поддержкой формата Microscaling (MX) — нового стандартизованного формата, сочетающего простоту реализации для 8-битных чисел и расширенный динамический диапазон благодаря использованию scale-факторов (общих экспонент для блоков элементов
MXDOTP — это расширение ISA для RISC-V, интегрированное в ядро Snitch. Оно позволяет выполнять dot product между двумя 8-элементными FP8-векторами с накоплением в FP32 и применением двух независимых scale-факторов. Для обхода ограничения на количество портов чтения регистрового файла используется механизм Stream Semantic Registers (SSR), что позволяет эффективно подавать четыре операнда за такт. SSR — особенность ядра Snitch, позволяющая передавать потоковые данные напрямую в вычислительные блоки без участия регистрового файла и LSU. Это компромисс между дополнительной сложностью в программной поддержке и выигрышем в доступности данных при минимальной площади.
Исходный код MXDOTP доступен на GitHub репозитории проекта.
Эмуляцию формата MX можно выполнить с помощью MX PyTorch Emulation Library от Microsoft.
Подробнее с форматом можно ознакомиться в спецификации формата или в обзорной статье Николаса Бруни.
p.s. Очень здорово оформлена самая статья. Работа выполнена в рамках европейского проекта NeuroSoC, финансируемого по линии Horizon Europe (Grant Agreement №101070634). По ссылке можно изучить детали проекта: участников, цели, бюджеты, отчётность, документацию и сроки:
https://cordis.europa.eu/project/id/101070634
Смотрите, что мне принесла лента LinkedIn.
Книга посвящена изучению процесса проектирования интегральных схем с использованием open-source инструментов OpenLane и Caravel. В ней описывается полный путь от уровня Register Transfer Level (RTL) до финального представления чипа в формате GDSII.
Книга(судя по описанию и оглавлению) объясняет весь процесс tape-out, делая его понятным и доступным для студентов, исследователей и инженеров.
Ссылка на книгу
Книга посвящена изучению процесса проектирования интегральных схем с использованием open-source инструментов OpenLane и Caravel. В ней описывается полный путь от уровня Register Transfer Level (RTL) до финального представления чипа в формате GDSII.
Книга
Ссылка на книгу