Реализации микропроцессора ячейки - Cell microprocessor implementations

Первый рекламный ролик Микропроцессор клетки Cell BE, был разработан для Sony PlayStation 3. IBM разработала PowerXCell 8i для использования в Суперкомпьютер Roadrunner.[1]

Выполнение

Первое издание Ячейки на 90 нм CMOS

IBM опубликовала информацию о двух различных версиях Cell в этом процессе, раннем инженерном образце, обозначенном DD1, а расширенная версия обозначена DD2 предназначен для производства.

Известные варианты ячейки в процессе 90 нм
ОбозначениеПлощадь умираютВпервые раскрытУлучшение
DD1221 мм2ISSCC 2005
DD2235 мм2Cool Chips, апрель 2005 г.Усовершенствованный сердечник СИЗ

Основным усовершенствованием DD2 было небольшое удлинение кристалла для размещения большего ядра PPE, которое, как сообщается, «содержит больше ресурсов SIMD / векторного исполнения»[1].Некоторая предварительная информация, выпущенная IBM, ссылается на вариант DD1. В результате некоторые ранние журналистские отчеты о возможностях Cell теперь отличаются от производственного оборудования.

План помещения

Материал PowerPoint, сопровождающий презентацию STI, сделанную доктором Питером Хофсти], включает фотографию кристалла ячейки DD2 с перерисованными границами функциональных единиц, которые также подписаны по имени, что показывает разбивку площади кремния по функциональным единицам следующим образом:


Функциональные единицы ячеек и площадь основания
Функциональный блок ячейкиПлощадь (%)Описание
XDR интерфейс5.7Интерфейс к системной памяти Rambus
контроллер памяти4.4Управляет внешней памятью и кешем L2
Кэш L2 512 КБ10.3Кэш-память для СИЗ
Ядро СИЗ11.1Процессор PowerPC
тест2.0Неуказанная «логика тестирования и декодирования»
ЕИБ3.1Элементные процессоры связи шины межсоединения
SPE (каждый) × 86.2Синергетический элемент сопроцессинга
Контроллер ввода / вывода6.6Внешняя логика ввода / вывода
Rambus FlexIO5.7Внешняя сигнализация для контактов ввода / вывода

План здания SPE

Дополнительные подробности, касающиеся внутренней реализации SPE, были раскрыты инженерами IBM, в том числе Питер Хофсти, Главный разработчик элемента синергетической обработки IBM, в научной публикации IEEE.[2]

В этом документе содержится фотография SPE 2,54 × 5,81 мм, реализованная в 90-нм ТАК ЧТО Я. В этой технологии SPE содержит 21 миллион транзисторов, из которых 14 миллионов содержатся в массивах (термин, предположительно обозначающий файлы регистров и локальное хранилище), а 7 миллионов транзисторов являются логическими. Эта фотография перекрыта границами функциональных единиц, которые также подписаны по имени, что показывает распределение площади кремния по функциональным единицам следующим образом:

Функциональные блоки SPU и занимаемая площадь
Функциональный блок SPUПлощадь (%)ОписаниеТрубка
одинарная точность10.0исполнительный блок одиночной точности FPчетное
двойная точность4.4исполнительный блок двойной точности FPчетное
простой фиксированный3.25блок исполнения с фиксированной точкойчетное
управление выпуском2.5питает исполнительные единицы
вперед макрос3.75питает исполнительные единицы
Георадар6.25файл реестра общего назначения
переставлять3.25блок исполнения перестановкистранный
ответвляться2.5блок исполнения филиаластранный
канал6.75канальный интерфейс (три дискретных блока)странный
LS0 – LS330.0четыре блока по 64 КиБ местного магазинастранный
MMU4.75блок управления памятью
DMA7.5блок прямого доступа к памяти
БИУ9.0блок интерфейса шины
RTB2.5встроенный тестовый блок массива (ABIST)
АТО1.6атомарный модуль для атомарных обновлений DMA
HB0.5затемнять

Понимание каналов диспетчеризации важно для написания эффективного кода. В архитектуре SPU две инструкции могут отправляться (запускаться) в каждом тактовом цикле с использованием назначенных каналов отправки. четное и странный. Эти две трубы имеют разные исполнительные единицы, как показано в таблице выше. Поскольку IBM разбила это на разделы, большинство арифметических инструкций выполняются на четное pipe, в то время как большинство инструкций памяти выполняются на странный трубка. Блок перестановки тесно связан с инструкциями памяти, поскольку он служит для упаковки и распаковки структур данных, находящихся в памяти, в формат множественных операндов SIMD, который SPU вычисляет наиболее эффективно.

В отличие от других схем процессора, предусматривающих отдельные конвейеры выполнения, каждая инструкция SPU может отправляться только по одному назначенному конвейеру. В конкурирующих конструкциях может быть разработано более одной трубы для обработки чрезвычайно распространенных инструкций, таких как Добавить, позволяя одновременно выполнять более двух или более из этих инструкций, что может служить для повышения эффективности несбалансированных рабочих процессов. В соответствии с в высшей степени спартанской философией дизайна, для SPU не предусмотрено множество исполнительных модулей.

Понимание ограничений ограничительной конструкции с двумя конвейерами - одна из ключевых концепций, которые программист должен усвоить, чтобы написать эффективный код SPU на самом низком уровне абстракции. Для программистов, работающих с более высокими уровнями абстракции, хороший компилятор будет автоматически балансировать параллелизм конвейера там, где это возможно.

Мощность и производительность SPE

Согласно тестированию IBM при большой нагрузке на трансформацию и освещение [средний IPC 1,4], профиль производительности этой реализации для одного процессора SPU оценивается следующим образом:

Отношение скорости к температуре
Напряжение (В)Частота (ГГц)Мощность (Вт)Die temp. (° C)
0.92.0125
0.93.0227
1.03.8331
1.14.0438
1.24.4747
1.35.01163

Запись для работы на частоте 2,0 ГГц при 0,9 В представляет собой конфигурацию с низким энергопотреблением. Другие записи показывают пиковую стабильную рабочую частоту, достигаемую при каждом приращении напряжения. Как правило, в схемах КМОП рассеиваемая мощность возрастает примерно по отношению к V2F, квадрат напряжения, умноженного на рабочую частоту.

Хотя измерениям мощности, предоставленным авторами IBM, не хватает точности, они дают хорошее представление об общей тенденции. Эти цифры показывают, что деталь способна работать на частотах выше 5 ГГц в условиях испытательной лаборатории, хотя температура кристалла слишком высока для стандартных коммерческих конфигураций. Первые коммерчески доступные процессоры Cell были оценены IBM как работающие на частоте 3,2 ГГц, рабочая скорость, при которой эта диаграмма показывает, что температура кристалла SPU находится в комфортном районе 30 градусов.

Обратите внимание, что один SPU составляет 6% площади кристалла процессора Cell. Значения мощности, приведенные в таблице выше, представляют собой лишь небольшую часть общего бюджета мощности.

IBM публично объявила о своем намерении внедрить Cell в будущей технологии ниже 90-нм узла, чтобы улучшить энергопотребление. Снижение энергопотребления может потенциально позволяют увеличить частоту существующей конструкции до 5 ГГц или выше без превышения тепловых ограничений существующих продуктов.

Ячейка на 65 нм

Первая усадка Cell произошла в узле 65 нм. Уменьшение до 65 нм уменьшило существующие 230 мм2 кристалл на основе процесса 90 нм до половины его текущего размера, около 120 мм2, что значительно снижает производственные затраты IBM.

12 марта 2007 года IBM объявила о начале производства 65 нм клеток на своей фабрике East Fishkill. Производимые там чипы, по-видимому, предназначены только для собственной ячейки IBM. лезвие серверы, которые первыми получили 65 нм Cells. Sony представила третье поколение PS3 в ноябре 2007 года, модель 40 ГБ без PS2-совместимости, которая была подтвержденный использовать 65 нм Cell. Благодаря уменьшенной ячейке потребляемая мощность снизилась с 200 Вт до 135 W.

Сначала было известно только, что 65 нм-Cells работают на частоте до 6 ГГц и работают на 1,3. Напряжение сердечника V, как продемонстрировал на ISSCC 2007. Это дало бы чипу теоретическую пиковую производительность 384 GFLOPS с четвертью FP8 (48 GFLOP в FP64 двойной точности), что является значительным улучшением по сравнению с 204,8 Пиковое значение GFLOPS (25,6 GFLOPs FP64 двойной точности), которую ячейка 90 нм 3,2 ГГц может обеспечить с 8 активными SPU. IBM также объявила о внедрении новых функций энергосбережения и двойного источника питания для массива SRAM. Эта версия еще не была долгожданной "Cell +" с улучшенной производительностью с плавающей запятой двойной точности, которая впервые увидела свет в середине 2008 г. Суперкомпьютер Roadrunner в виде QS22 Блейды PowerXCell. Хотя IBM уже говорила и даже показывала Cells с более высокой тактовой частотой, тактовая частота осталась постоянной на уровне 3,2 ГГц, даже для «Cell +» Roadrunner с двойной точностью. Поддерживая постоянную тактовую частоту, IBM вместо этого предпочла снизить энергопотребление. PowerXCell объединяет даже лучшие IBM Синий ген кластеры (371 MFLOPS / ватт), которые уже намного более энергоэффективны, чем кластеры, состоящие из обычных процессоров (265 MFLOPS / ватт и ниже).

Будущие выпуски в CMOS

Перспективы на 45 нм

На ISSCC 2008 IBM объявил Ячейка в узле 45 нм. IBM заявила, что ей потребуется на 40 процентов меньше энергии при той же тактовой частоте, чем у ее 65-нм предшественницы, и что площадь кристалла сократится на 34 процента. Ячейка 45 нм требует меньшего охлаждения и обеспечивает более дешевое производство, в том числе за счет использования гораздо меньшего радиатора. Первоначально планировалось, что массовое производство начнется в конце 2008 года, но было перенесено на начало 2009 г..

Перспективы за пределами 45 нм

Sony, IBM и Toshiba объявил чтобы начать работу над Cell размером всего 32 нм в январе 2006 года, но поскольку сокращение процесса на фабриках обычно происходит в глобальном, а не в индивидуальном масштабе чипа, это было просто публичным обязательством довести Cell до 32 нм.

Рекомендации

  1. ^ Кевин Дж. Баркер, Кей Дэвис, Адольфи Хойси, Даррен Дж. Кербисон, Майк Лэнг, Скотт Пакин, Хосе С. Санчо.«Вступление в эру петафлопа: архитектура и производительность Roadrunner».