Видеоускоритель AMD Radeon RX Vega 64

Часть 1: теория и архитектура    

Содержание

 

Представляем базовый детальный материал с исследованием AMD Radeon RX Vega 64.

Объект исследования: Ускоритель трехмерной графики (видеокарта) AMD Radeon RX Vega 64 8 ГБ 2048-битной HBM2

Сведения о разработчике: Компания ATI Technologies (торговая марка ATI) основана в 1985 году в Канаде как Array Technology Inc. В том же году была переименована в ATI Technologies. Штаб-квартира в г. Маркхам (Торонто). C 1987 года компания сконцентрировалась на выпуске графических решений для ПК. Начиная с 2000 года основным брендом графических решений ATI становится Radeon, под которым выпускаются GPU как для настольных ПК, так и для ноутбуков. В 2006 году компанию ATI Technologies покупает компания AMD, в которой образуется подразделение AMD Graphics Products Group (AMD GPG). C 2010 года AMD отказывается от бренда ATI, оставив лишь Radeon. Штаб-квартира AMD в Саннивейл (Калифорния), а у AMD GPG остается главным офисом бывший офис AMD в Маркхаме (Канада). Своего производства нет. Общая численность сотрудников AMD GPG (включая региональные офисы) около 2000 человек.

Часть 1: Теория и архитектура

Выхода мощных графических решений компании AMD энтузиасты компьютерной графики ждали очень долго, ведь решения семейства Polaris хоть и вышли в июне 2016, но они были не топового уровня, а ступенькой ниже. В сегменте рынка видеокарт для энтузиастов компании AMD было попросту нечем конкурировать с Nvidia, видеокарты серии Fury были слишком дороги в производстве и их довольно быстро сняли с конвейера, а на замену им долгое время ничего не было выпущено. Обновление линейки Radeon RX 500 было чисто номинальным, а объявленная ещё в конце прошлого года Vega всё не выходила и не выходила.

Понятно, что выпуск подобного продукта затянулся сразу по нескольким причинам, основной из которых, по всей вероятности, стали относительная новизна и дороговизна быстрой памяти HBM второго поколения, на которую сделали (снова!) ставку в AMD. Возможно, в компании слишком оптимистично отнеслись к перспективам этого интереснейшего типа памяти, но проблемы с её освоением и снижением себестоимости явно затянули процесс выхода на рынок для Vega. Но вот, на прошедшей недавно в Лос-Анджелесе конференции SIGGRAPH прошло специальное мероприятие Capsaicin, на котором компания наконец-то анонсировала новые продукты, предназначенные для энтузиастов — долгожданную линейку видеокарт Radeon RX Vega вместе с также весьма интересными высокопроизводительными процессорами Ryzen Threadripper.

 

Специалисты Radeon Technologies Group заявляют, что архитектура Vega стала самым большим изменением в графических процессорах компании со времени выхода первых решений, основанных на архитектуре GCN — а ведь с тех пор прошло уже более пяти лет! Новая архитектура Vega отвечает всем современным требованиям и принципам: масштабируемость и гибкость, поддержка больших объёмов данных и улучшенная энергоэффективность.

Объёмы данных упомянуты не просто так, ведь растут не только потребности в вычислительных мощностях графических процессоров. Развитие компьютерной графики показало, что разработчикам требуется работа с огромными объёмами данных: геометрических, текстурных и других. В игровых применениях это обусловлено появлением доступных 4K-мониторов, в том числе с HDR-экранами, набирающими популярность VR-шлемами, повышающими нагрузку на GPU минимум вдвое, появлением новых версий графических API с новыми возможностями, развитием алгоритмов и применением новых техник компьютерной графики и т. д.

Вычислительные задачи не отстают, появляются все новые сферы их применения: машинное обучение и зрение, распознавание образов и речи, обработка огромных массивов данных и т. п. В профессиональных применениях также постоянно растут требования к мощности GPU в части сложного моделирования, физически корректного рендеринга в реальном времени, создания качественного контента в высоком разрешении, моделирования физически корректных эффектов и многом другом.

Компания AMD считает, что предыдущие графические архитектуры не слишком хорошо подходят для современных задач, не говоря уже о будущем, и плохо масштабируются под постоянно растущие потребности графических и вычислительных задач. Объемы данных, используемых в игровых приложениях, за несколько лет выросли в десятки раз. Если в начале 2000-х годов было достаточно нескольких сотен мегабайт, то к 2016 году объемы игр выросли до десятков гигабайт. Не говоря о профессиональной графике, объемы данных в которой занимают уже не один петабайт, а также используемых объемах данных в вычислительных задачах, которые растут еще стремительнее. Ведь для распознавания речи, отслеживания объектов и распознавания образов требуется обрабатывать огромное количество данных.

При этом объемы доступной локальной памяти у графических процессоров просто не успевают за ростом их вычислительных мощностей — если производительность GPU за прошедшие несколько лет выросла уже в сотни раз, то рост среднего объема видеопамяти за это же время был на порядок ниже. Поэтому, учитывая возрастающие запросы, в AMD разработали новую графическую архитектуру Vega, использующую «масштабируемую архитектуру памяти», в основе которой лежит известная нам по предыдущим решениям очень быстрая память HBM, но уже второго поколения — HBM2. Причем, это уже не просто локальная видеопамять, а высокопроизводительный кэш — High Bandwidth Cache, о котором мы подробно расскажем в нашем материале.

 

На мероприятии было представлено сразу несколько моделей видеокарт RX Vega, которые основаны на графической архитектуре нового поколения. Эти видеокарты отличаются друг от друга как характеристиками, производительностью, так и системой охлаждения и ценой. Были анонсированы три модели: Radeon RX Vega 64 Liquid Cooled Edition, обычная RX Vega 64 и наименее мощная RX Vega 56, основанная на графическом процессоре Vega, урезанном по исполнительным блокам.

Судя по спецификациям, три представленные модели отличаются друг от друга только по количеству исполнительных блоков, частотам GPU и памяти, а также значениям энергопотребления — от 210 Вт у слабой карты до 345 Вт у топового варианта с жидкостным охлаждением. К слову, хоть это и не анонсировалось пока что, но в будущем весьма вероятен выпуск Nano-варианта Vega с печатной платой миниатюрных размеров и уровнем потребления энергии в 150 Вт — такую видеокарту уже подарили известному разработчику Тиму Свини (Unreal Engine).

Но пока что мы остановимся исключительно на обычной Radeon RX Vega 64. Так как основой всех видеокарт семейства является графический процессор Vega 10, имеющий улучшенную архитектуру GCN, которая во многих деталях схожа с ранее вышедшими решениями компании AMD, то перед прочтением теоретической части статьи будет полезно ознакомиться и с нашими предыдущими материалами по прошлым видеокартам компании, основанным на архитектуре GCN предыдущих поколений:

 

Рассмотрим подробные характеристики видеоплаты Radeon RX Vega 64, основанной на полной версии графического процессора нового поколения Vega 10 и имеющей воздушное охлаждение.

 

Графический ускоритель Radeon RX Vega 64 (с воздушным охлаждением)
Параметр Значение
Кодовое имя чипа Vega 10
Технология производства 14 нм FinFET LPP
Количество транзисторов 12,5 млрд.
Площадь ядра 486 мм²
Архитектура Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX DirectX 12, с поддержкой уровня возможностей Feature Level 12_1
Шина памяти 2048-битная шина памяти с поддержкой стандарта High Bandwidth Memory второго поколения
Частота графического процессора 1274 (1546) МГц
Вычислительные блоки 64 вычислительных блока GCN, состоящих в целом из 4096 ALU для расчетов с плавающей запятой (поддерживаются целочисленные и плавающие форматы INT8, INT16, FP16, FP32 и FP64)
Блоки текстурирования 256 текстурных блоков, с поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растеризации (ROP) 64 блока ROP с поддержкой режимов сглаживания с возможностью программируемой выборки более чем 16 сэмплов на пиксель, в том числе при FP16- или FP32-формате буфера кадра. Пиковая производительность до 64 отсчетов за такт, а в режиме без цвета (Z only) — 256 отсчетов за такт
Поддержка мониторов Интегрированная поддержка до шести мониторов, подключенных по интерфейсам DVI, HDMI 2.0b и DisplayPort 1.4
 
 
Спецификации референсной видеокарты Radeon RX Vega 64
 
Параметр Значение
Частота ядра 1274 (1546) МГц
Количество универсальных процессоров 4096
Количество текстурных блоков 256
Количество блоков блендинга 64
Эффективная частота памяти 1890 (2×945) МГц
Тип памяти HBM2
Шина памяти 2048-бит
Объем памяти 8 ГБ
Пропускная способность памяти 484 ГБ/с
Вычислительная производительность (FP32) до 12,7 терафлопс
Теоретическая максимальная скорость закраски 99 гигапикселей/с
Теоретическая скорость выборки текстур 396 гигатекселей/с
Шина PCI Express 3.0
Разъемы Один разъем HDMI и три DisplayPort
Энергопотребление до 295 Вт
Дополнительное питание Два 8-контактных разъема
Число слотов, занимаемых в системном корпусе 2
Рекомендуемая цена $499 (для рынка США)

Названия новых моделей видеокарт компании AMD изменили принятую ранее систему наименований. Во-первых, они снова (как и Fury) имеют имя собственное — Vega, во-вторых, цифра после названия семейства теперь означает количество активных исполнительных блоков архитектуры GCN в графическом процессоре — 64 или 56 для урезанной версии. Так что цифр типа 560, 570 и 580 в этот раз нет. А вот начальные буквы RX остались, и это немного странно. Они ведь раньше показывали уровень видеокарты: R7 были медленнее, чем R9, например. Похоже, что теперь AMD просто понравилось сочетание RX, и они продолжили его использовать.

Рассматриваемая сегодня модель нового семейства Vega становится в текущей линейке компании на место околотопового решения, сверху дополняя семейство Polaris на рынке. Vega 64 относится к верхнему ценовому уровню, выше неё разве что Liquid Cooled Edition с несколько большей производительностью (и ценой, соответственно). Вообще, давайте сразу же посмотрим на цены всех представленных решений:

 

Да, разброс в цене представленных решений немалый — от $399 за RX Vega 56 до $699 за топовую видеокарту с водяным охлаждением. Но в данном случае речь идёт уже не только о видеокарте, а целом паке, который обходится в лишнюю сотню долларов. Что же предлагает AMD за дополнительные $100? В компании считают, что таким образом помогут пользователям решиться на апгрейд игровых систем, добавив возможность приобрести современный монитор, процессор и системную плату со значительной скидкой. А кроме этого, в комплекте будут предлагаться ещё и бесплатные игры.

 

В частности, в предложение компании входит $200 скидка на приобретение ультраширокоформатного современного монитора Samsung CF791 с диагональю 34″ и поддержкой технологии FreeSync, $100 скидка на некоторые процессоры Ryzen 7 в комплекте с системными платами на чипсете X370 — уже только это даёт экономию в $300, а они ещё и предлагают игры в комплекте, который будет зависеть от региона (для США их стоимость в рознице составляет ещё $120).

На бумаге предложение выглядит неплохо. В принципе, для тех, кто планирует сделать большой апгрейд, подобное предложение выглядит отличным вариантом для того, чтобы сэкономить свои деньги, а если кто просто хочет купить себе новую Radeon RX Vega, то заплатит на сотню меньше. В реальности есть некоторые детали — во-первых, нужно учитывать региональные особенности (кое-где никаких мониторов вам не предложат, а набор игр будет не таким привлекательным), а во-вторых — в некоторых случаях, предложенная скидка на приобретение монитора просто не имеет смысла, так как можно купить аналогичную модель за те же деньги и без каких-то скидок.

Кстати, внимательный читатель заметит, что показанные на слайдах видеокарты с воздушным охлаждением существуют двух видов: с серебристым корпусом системы охлаждения и чёрным, причём, по одной цене. В действительности, отличия между ними есть только по корпусу, а по остальным характеристикам они идентичны. Первые выпущены ограниченной серией и закончатся в продаже довольно быстро, если уже не (есть такие данные, что первые партии уже в основном распроданы).

Референсный вариант Radeon RX Vega 64 предлагается по рекомендованной цене в $499, и эту цену нельзя назвать слишком уж привлекательной, ведь на рынке по схожей цене давно продаётся такая модель, как GeForce GTX 1080, в том числе и в виде фабрично разогнанных версий. Именно с ними и конкурирует новинка. Насколько хорошо это у неё будет получаться — мы узнаем в практическом разделе статьи с игровыми тестами.

По понятным причинам, видеокарты Radeon RX Vega 64 существуют исключительно в версиях с 8 ГБ памяти типа HBM2, и даже Vega 56 не будет отличаться по этому параметру. Решение по установке именно 8 ГБ памяти на новый GPU практичное. 4 ГБ на топовую карту ставить нельзя, даже на картах семейства Fury этого было маловато, но и 16 ГБ кажутся расточительством с учётом огромной себестоимости HBM2-памяти. Так что 8 ГБ можно считать «золотой серединой», и это хоть и не оставляет особого запаса на будущее, но в ближайшее время будет вполне достаточно, особенно учитывая, что видеопамять у Vega можно расширить за счёт системной памяти (подробнее см. далее).

Для дополнительного питания референсная плата использует два 8-контактных разъема, и значение типичного энергопотребления для модели Radeon RX Vega 64 на основе полноценного графического процессора Vega 10 при воздушном охлаждении установлено на уровне 295 Вт. С одной стороны, два разъёма оставляют полезный запас на случай разгона, с другой — выглядят довольно пугающе. Как бы не получилось так, что по потреблению Radeon RX Vega 64 станет рекордсменом — с такими то предпосылками.

Архитектурные особенности Vega

Все анонсированные решения AMD основаны на первом графическом процессоре новой архитектуры Vega, который произведён по 14 нм FinFET LPP техпроцессу и содержит 12,5 миллиардов транзисторов. Этот сложный чип получил название Vega 10 и он содержит в себе в целом порядка 45 МБ SRAM-памяти, разработан для работы на высокой тактовой частоте вплоть до 1,7 ГГц (при условии жидкостного охлаждения), а внутренние связи используют уже известную нам по процессорам компании шину Infinity Fabric. Площадь немаленького чипа составляет 486 мм2 и на следующей фотографии можно наглядно оценить размеры кристаллов Vega (справа), по сравнению с кристаллами Fiji (видеокарты семейства Fury):

 

Графический процессор Vega 10 относится к архитектуре Graphics Core Next, хоть и значительно модифицированной. Базовым блоком архитектуры является вычислительный блок Compute Unit (CU), из которых собраны все графические процессоры AMD. Вычислительный блок CU имеет выделенное локальное хранилище данных для обмена данными или расширения локального регистрового стека, а также кэш-память первого уровня с возможностью чтения и записи и полноценный текстурный конвейер с блоками выборки и фильтрации, он разделен на подразделы, каждый из которых работает над своим потоком команд. Каждый из таких блоков занимается планированием и распределением работы самостоятельно.

Полноценный графический процессор Vega 10 содержит 4 движка асинхронного исполнения команд, 4 модифицированных геометрических движка и 64 вычислительных блока Compute Unit нового поколения — серьёзно переделанные, по сравнению с предыдущими архитектурами, как заверяют представители AMD. Всего в составе этих вычислительных блоков находится 4096 потоковых процессоров, 256 текстурных блоков и 64 блока ROP. Соответственно, по количеству блоков можно понять, что это топовый GPU, предназначенный сразу для нескольких рынков: игрового, вычислительного, профессиональной графики и т. д. Рассмотрим схему нового графического процессора (по клику на изображении доступна увеличенная версия иллюстрации):

 

Хотя по количеству блоков Vega 10 повторяет чип Fiji, новое решение отличается специальными оптимизациями для работы на повышенной частоте, а также включает множественные архитектурные модификации, улучшающие производительность и энергоэффективность. К примеру, самая мощная модель Radeon RX Vega 64 Liquid Cooled Edition с жидкостным охлаждением способна дать производительность в 13,7 терафлопс при вычислениях с одинарной точностью и 27,4 терафлопс для 16-битных вычислений половинной точности, поддержка которых появилась в Vega.

При проектировании нового чипа для снижения задержек инженеры AMD воспользовались опытом создания архитектуры Zen, на 8% сократив внутренние задержки, получив на 18% меньшую площадь на кристалле для внутренних линий с почти вдвое меньшим потреблением энергии. Все линии данных в чипе на критических участках были укорочены и оптимизированы, основные ALU имеют четыре стадии, чип оптимизирован по утечкам, и в результате (вклад нового техпроцесса также учитываем) Vega 10 может работать на частоте до 1,7 ГГц, хотя предыдущие 28 нм чипы довольствовались частотой порядка 1,0-1,3 ГГц.

Графический процессор Vega 10 стал первым, в котором используется внутренняя шина Infinity Fabric, имеющая низкие задержки и предназначенная для соединения всех блоков процессора друг с другом. Так как эта шина стала стандартной для всех современных решений AMD, то она позволяет использовать гибкий модульный подход при создании различных чипов, в которых можно использовать любые блоки. В представленном GPU каналы данных Infinity Fabric соединяют основное графическое ядро с другими логическими блоками, такими как контроллеры памяти, контроллер PCI Express, дисплейный движок, движок обработки видеоданных. Благодаря использованию Infinity Fabric во всех них, встраивать возможности архитектуры Vega в будущие чипы (кто сказал APU?) будет намного проще.

Новая иерархия памяти с высокопроизводительным кэшем

В графическом процессоре Vega 10 используется HBM2-память с поддержкой ECC, важной для профессиональных применений, расположенная на одной подложке с самим GPU. Новый чип имеет HBM2-память, работающую по 2048-битной шине при тактовой частоте, близкой к 1 ГГц, что даёт высокую пропускную способность в 484 ГБ/с. В достижениях именно HBM2-памяти, по сравнению с первым поколением высокопроизводительной памяти — теоретически еще большая пиковая пропускная способность. HBM второго поколения может быть вдвое быстрее первого (хотя в случае Vega решили оставить ПСП на том же уровне). Также доступна до восьми раз большая емкость на каждый стек чипов памяти, что было наибольшим недостатком и самым обидным ограничением HBM1-памяти, известным по графическим процессорам Fiji, на которых основаны видеокарты серии Fury.

Отметим и традиционные преимущества HBM2 перед GDDR5-памятью, вроде более чем вдвое меньшего физического размера, занимаемого на печатной плате — именно поэтому и стало возможно создание таких малогабаритных плат, как Radeon R9 Nano и планируемой к выпуску RX Vega Nano (название условное, мы сами придумали). Также сотрудники AMD заявляют, что новый тип памяти, который планируется применять в Vega, до четырех-пяти раз более энергоэффективен, по сравнению с привычной GDDR5-памятью.

Теоретически возможен объем памяти до 32 ГБ, раз нам говорят о восьмикратном приросте поддерживаемого объёма на стек. Пока что в AMD решили поставить на игровые чипы 8 ГБ HBM2-памяти, а на профессиональные решения для высокопроизводительных вычислений — 16 ГБ. Это и понятно, ведь себестоимость этой новой памяти весьма велика, а 8 ГБ до сих пор хватает практически всем играм почти в любых условиях и настройках. А если и не хватит, то Vega будет использовать системную память, и вот об этой возможности мы сейчас и поговорим.

Самое любопытное в подсистеме памяти Vega то, что HBM2-память можно использовать как кэш-память для данных, которые находятся на медленных носителях. По сути, HBM2 в Vega используется как кэш-память последнего уровня для системной памяти и накопителей данных. По словам представителей AMD, высокопроизводительный кэш и его контроллер позволяют использовать плоскую виртуальную адресацию до 512 терабайт данных на разных носителях, и его работа полностью прозрачна для пользовательских приложений. 512 ТБ — это 49-битный доступ, но почему именно столько? Потому что этого как раз достаточно для того, чтобы с большим запасом покрыть 48-битную виртуальную адресацию современных CPU вместе с локальной видеопамятью GPU, что позволяет получить доступ к полному и единому адресному пространству памяти CPU и GPU, а также к дополнительным данным на накопителях.

При рендеринге, GPU требуется доступ ко всем ресурсам и данным, используемым в сцене, и обычно все они должны помещаться в локальную видеопамять. Альтернативный подход предлагает подкачивать недостающие данные из системной памяти по PCI Express шине, но зачастую такой метод не обеспечивает достаточной ПСП и имеет большие задержки. Конечно, игровые разработчики стараются обходить эти ограничения при помощи специальных хаков в коде, но сложное управление памятью — явно не то, чем бы они хотели заниматься, а объём локальной видеопамяти всегда ограничен.

По исследованиям AMD, игры The Witcher Wild Hunt и Fallout 4 в 4K-разрешении при ультра-настройках качества в реальности используют примерно вдвое меньше данных из локальной видеопамяти, чем они заполнили ее объема. К примеру, если игра заняла всю имеющуюся локальную видеопамять объемом в 8 ГБ, то при рендеринге кадра в реальности осуществляется доступ к ресурсам, занимающим вдвое меньший объем. То есть, играм технически совсем не обязательно было занимать все 8 ГБ, можно было бы обойтись и 4 ГБ локальной памяти. Иными словами, в играх видеопамять зачастую уже и так используется как общее адресное пространство, которое графический движок заполняет геометрией и текстурами. Фактически, можно хранить только самые важные данные в быстрой кэш-памяти, постепенно подгружая из более медленной все новые и новые ресурсы, требуемые при работе над кадром.

А ведь в дальнейшем объемы, занимаемые ресурсами игр и других приложений, продолжат свой неумолимый рост, и этот вопрос нужно как-то решать. Путь тупого наращивания объема видеопамяти — самый простой, но неоптимальный вариант, да и при этом потребление энергии микросхемами памяти будет расти слишком быстро, поэтому в AMD и решили пойти другим путем, предложив быстрый кэш, подгружающий ресурсы с более медленной памяти большего объема. Важно, что их решение не требует какого-либо вмешательства со стороны разработчиков программного обеспечения, и аппаратная кэш-память сама определяет, какие ресурсы будут нужны в каждый момент времени, подгружая их в быструю память по мере необходимости.

Такой подход позволяет использовать больший объем данных, чем помещается в видеопамяти, но лишь при правильной работе контроллера кэш-памяти. И то — вряд ли он сможет решить все проблемы, когда объем данных, требуемых при работе над сценой, значительно превышает объем быстрой кэш-памяти. Но в теории все выглядит красиво — с точки зрения ПО будет некая общая память, размещением данных в каждой из составляющих которой, и их менеджментом не нужно заниматься разработчику, а всё делается графическим процессором автоматически.

Для того, чтобы HBM2-память работала как кэш для системной памяти, энергонезависимой памяти (твердотельные SSD-накопители) или даже сетевых накопителей, нужно специальное управление всей этой иерархией — чтобы GPU брал данные из одного места и сохранял их в других по мере необходимости. Для решения этих задач в графический процессор Vega был внедрен новый контроллер высокопроизводительной кэш-памяти — High Bandwidth Cache Controller (HBCC).

 

Архитектура виртуальной памяти Vega использует страницы памяти разного размера (размер страниц настраивается, большие страницы лучше подойдут для последовательного доступа, а маленькие для случайного), неактивные перемещаются в более медленное хранилище, освобождая кэш для активных страниц памяти. При этом не требуется сложного управления памятью со стороны приложения, да и хранить все данные в быстрой локальной памяти (кэше) не обязательно. Такой подход позволяет использовать виртуально бесконечный объём ресурсов из многих миллионов треугольников и сотен гигабайт текстурных данных. В принципе, это похоже на поддержку виртуальной памяти в графических процессорах конкурента, но его решения имеют подобные возможности только для вычислительных применений, но не в графических задачах.

Если GPU пытается получить доступ к данным, не находящимся в локальной памяти, он подтягивает только требуемые страницы памяти по шине PCI Express, и сохраняет их в высокопроизводительном кэше (она же HBM2-память), вместо того, чтобы заставить весь чип простаивать до копирования ресурса целиком (например, если это большая текстура на несколько мегабайт) по шине. Разница между подходами в том, что маленькие страницы памяти меньше текстур и других ресурсов целиком, и их можно скопировать в кэш намного быстрее. А уже после копирования в кэш, любой доступ к данным внутри страницы будет максимально быстрым, так как она целиком находится в HBM2.

AMD называет такую новую архитектуру памяти революционной и для игровых и для профессиональных применений. Процессоры, основанные на архитектуре Vega, потенциально имеют лучший аппаратный менеджмент памяти, по сравнению с привычными программными решениями. К примеру, весьма интересно выглядит профессиональная карта Radeon Pro SSG с SSD-накопителями на борту, которые позволяют иметь видеопамять очень большого объёма (терабайты!), со сниженными задержками и высокой ПСП. Подобные решения могут использоваться при качественном рендеринге и редактировании видеоданных в 8К-разрешении и уже применяются в профессиональной сфере.

Важно, что можно использовать различные режимы работы высокопроизводительного кэша HBM2: inclusive и exclusive, с иерархической или плоской моделью памяти, а также устанавливать необходимый размер страниц, которые оптимизируются для частных случаев: маленькие страницы для случайного доступа и большие для последовательного.

 

Доступ к большому объёму видеопамяти с аппаратным менеджментом в теории позволит игровым разработчикам создавать уникальные игровые миры большого размера с высокой детализацией, лучшим освещением и анимацией, без традиционных опасений вылететь за пределы имеющегося объёма локальной видеопамяти. Но пока что это лишь теория, а практически новой технологией компании AMD заинтересовались, к примеру, в компании Bethesda, известной по играм с виртуальными мирами огромного размера, и наверняка какие-то их грядущие проекты будут использовать возможности HBCC.

Чтобы получить максимум от новой иерархии памяти в Vega, все исполнительные блоки нового GPU получили доступ к кэш-памяти второго уровня (L2), что отличается от предыдущих чипов архитектуры GCN, в которых пиксельные движки имели собственные независимые кэши. Это также важно для различных техник, использующих рендеринг в текстуры, например (карты теней, отложенное затенение и многое другое. А также, так как L2-кэш теперь играет ещё более важную роль в новой иерархии памяти и из-за применения тайловой растеризации (см.далее), то в AMD решили вдвое увеличить его объём — до 4 МБ, по сравнению с 2 МБ у предыдущих GPU компании.

Ещё одно важное отличие Vega от ранних графических архитектур, которое мы отметим — если пиксельные и текстурные блоки предыдущих GPU не могли обращаться к памяти одновременно (когерентность памяти), то теперь блоки растеризации RBE (render back-end) имеют быстрый доступ к кэш-памяти второго уровня и используют ее для экономии ПСП видеопамяти. Все это в теории должно помочь серьезно увеличить производительность в игровых и профессиональных приложениях, использующих отложенное затенение (deferred shading), в частности.

Геометрические движки нового поколения

Нововведения в графической архитектуре Vega многочисленны, и связаны они не только с подсистемой памяти. Также в новом GPU были сделаны и улучшения в геометрическом конвейере, более гибком и программируемом, чем предыдущие. Не секрет, что одной из наиболее существенных проблем 3D-графики с давних времён является так называемый overdraw — многократная прорисовка одних и тех же пикселей на экране, относящихся к разным поверхностям и моделям, которые загораживают друг друга так, что камере виден лишь ближайший пиксель.

После всех оптимизаций в кадре и так присутствует несколько миллионов полигонов, но если прорисовывать всю геометрию уровня, то это значение вырастет в десятки раз, и графический процессор большую часть времени будет заниматься бесполезной работой по отрисовке тех пикселей, которые пользователь никогда не увидит. Для оптимизации существует большое количество алгоритмов, включающих сравнение Z-координат и другие методы, предназначенные для отбрасывания невидимой геометрии, но её всё равно остаётся больше, чем необходимо.

Новый программируемый геометрический движок в графическом процессоре Vega 10 включает несколько нововведений, позволяющих увеличить итоговый темп обработки геометрии — по данным AMD, новый GPU способен обрабатывать геометрию значительно быстрее, по сравнению с решениями предыдущих поколений. Если графический процессор Fiji имеет четыре движка геометрии и обрабатывает четыре полигона за такт, то GPU новой архитектуры Vega с тем же количеством геометрических движков способен обрабатывать до 17 полигонов за такт (в определённых условиях). Также специалисты компании AMD смогли улучшить балансировку загрузки различных вычислительных блоков работой при помощи продвинутого блока распределения работы.

 

Более того, AMD уже некоторое время выступает за довольно радикальное изменение существующего геометрического конвейера и введение новых типов шейдеров. Каждая стадия существующего графического конвейера имеет свои недостатки, обусловленные ограничениями старых GPU, но новые графические процессоры их не имеют и являются более гибкими. Специалисты компании предлагают ввести Primitive Shaders — новую аппаратную стадию конвейера, которая объединяет проходы вершин и примитивов и позволит отбрасывать невидимые примитивы очень рано, повысив общую эффективность работы.

Эти новые шейдеры могут работать над различными типами примитивов (вершины, полигоны, патчи), и у них много потенциальных применений, кроме отбрасывания невидимых примитивов: для ускорения исполнения вершинных шейдеров, при рендеринге карт теней, систем частиц, рендеринге с переменным разрешением и т. д. И хотя Vega и сама по себе быстрее Fiji обрабатывает геометрию, предлагаемое изменение конвейера позволяет повысить скорость ещё втрое-вчетверо! Хотя Vega 10 имеет четыре геометрических движка, которые в обычных условиях могут обрабатывать четыре же примитива за такт, это значение вырастает до 17 и более при условии применения шейдеров примитивов.

 

Новый тип шейдеров не заменяет предыдущий подход с традиционным конвейером, а дополняет его. Шейдеры примитивов невозможно использовать в рамках текущих API и приложений без соответствующих изменений, но компания сотрудничает с ведущими разработчиками для того, чтобы заинтересовать их. Плюс к этому, специалисты AMD могут использовать новый подход для специфических оптимизаций под конкретные приложения в своих драйверах.

Произошли и изменения, связанные с новой иерархией памяти (кэширования данных). Геометрические движки теперь могут использовать начиповую кэш-память второго уровня для хранения вершинных данных. Эта возможность дополняет имеющийся выделенный кэш параметров, который удвоился в объеме, по сравнению с решениями предыдущего поколения Polaris. Возможности кэширования геометрии стали более гибкими и они позволяют видеодрайверу выбрать оптимальный подход для различных вариантов использования.

Ещё одно улучшение в обработке геометрии в Vega — улучшенная балансировка нагрузки между несколькими имеющимися геометрическими движками. Для этого в новом GPU есть специальный блок — интеллектуальный диспетчер intelligent workload distributor (IWD), который максимизирует загрузку движков, настраивает параметры геометрического конвейера в зависимости от вызовов функций отрисовки (draw calls), которые он получает от ПО. Диспетчер IWD старается минимизировать простои геометрических движков, связанные с переключениями контекста при выполнении вызовов функций отрисовки и пакует несколько небольших вызовов, которые не заполняют wavefront из 64 потоков, в один большой пакет.

Вычислительные блоки NCU и двойной темп для 16-битных вычислений

Из других важных изменений Vega 10 отметим улучшения, связанные с вычислительными блоками нового поколения, которые назвали Vega NCU — Next-Generation Compute Unit. Одной из самых важных новых возможностей вычислительного блока следующего поколения является Rapid Packed Math — двойной темп операций вычислений над целочисленными данными и данными с плавающей запятой половинной точности — то есть, INT16 и FP16 (по сравнению с общепринятыми в графических процессорах FP32).

Каждый из имеющихся в новом графическом процессоре Vega блоков NCU умеет исполнять 128 операций с привычной 32-битной точностью (FP32) за такт, или вдвое больше — 256 уже 16-битных (FP16 или INT16) операций, так называемых packed-вычислений. То же самое касается и операций над 8-битными данными, которые могут выполняться с еще более высоким темпом — учетверённым.

 

Вычисления в форматах INT16 и FP16 имеют вполне достаточную точность для использования во множестве современных задач, таких как машинное зрение и обучение, а удвоенный темп их исполнения, по сравнению с FP32, позволяет ускорить такие вычисления ровно вдвое, в отличие от предыдущих поколений GPU, не имеющих такой особенности. Также сниженная точность вычислений может подойти и для некоторых игровых применений, не требующих привычной точности 32-битных вычислений, и в этом очень поможет поддержка ускоренных 16-битных вычислений современными консолями, которые никогда не испытывают избытка вычислительных ресурсов. На это есть большая надежда, так как решения AMD применяются чуть ли не во всех консолях текущего поколения.

Интересно, что в решениях конкурирующей с AMD компании Nvidia аналогичная аппаратная возможность FP16-вычислений с двойным темпом появилась в графических процессорах даже несколько раньше, но... только в профессиональных и мобильных решениях, но не в GPU, предназначенных для установки в массовые настольные ПК. Так что у вышедших видеокарт на чипе Vega появилось потенциальное преимущество, которое раскроется, если разработчики действительно начнут использовать INT16 и FP16 массово. Правда, вычисления со сниженной точностью в играх применимы далеко не во всех алгоритмах и эффектах — помнится, несколько лет назад за подобный подход критиковали решения Nvidia того времени.

Лишь небольшая часть алгоритмов и техник в графических задачах может довольствоваться сниженной точностью вычислений, в том числе и потому, что ошибки накапливаются при нескольких проходах. Даже если на 16-битные «рельсы» переведут значимую часть вычислительных алгоритмов в играх, то реальное влияние на общую производительность вряд ли превысит десяток процентов. По замерам специалистов AMD, использование FP16 и INT16, а также смешанной точности вычислений даёт в некоем бенчмарке 3DMark Serra при постобработке до 20-25% преимущества, по сравнению с полной FP32-точностью — и это без видимых потерь в качестве. В указанном тесте целочисленные 16-битные данные используются при генерации процедурных поверхностей и в алгоритме шума для объёмного освещения, дающие 25% прироста производительности, а также 16-битные операции с плавающей запятой в алгоритме постобработки Bloom, что даёт 20% прирост скорости рендеринга.

Самое главное, что 16-битные форматы данных и операций уже сейчас можно использовать в существующих графических API, и при оптимизации мультиплатформенных игр велика вероятность того, что ПК-версии также получат соответствующие оптимизации, связанные с применением 16-битных вычислений там, где это не приводит к деградации изображения. А уж чисто вычислительные задачи нового поколения, вроде распознавания образов, машинного зрения и обучения, совершенно точно получат приличный прирост в скорости от удвоенного темпа 16-битных вычислений.

Всего же в архитектуру Vega добавили 40 новых инструкций. Кроме операций над 16-битными данными, служащими для повышения количества исполняемых операций за такт, были добавлены 32-битные целочисленные инструкции, восемь инструкций для адресации памяти и хеширования, используемых в задачах криптографии и майнинге криптовалют, а также новые ADD/SUB инструкции, полезные для минимизации использования регистров.

NCU также поддерживает набор 8-битных целочисленных операций SAD (Sum of Absolute Differences), QSAD (счетверённый SAD), объединяющая SAD с операторами сдвига для увеличения производительности и энергоэффективности, а также «маскируемую» инструкцию MQSAD, игнорирующую пиксели заднего плана и используемую для изоляции движущихся в кадре объектов от фона. Эти операции используются в широком наборе алгоритмов обработки изображений и видеоданных, включая классификацию изображений для машинного обучения, для детекции движения, при распознавании жестов и в других задачах машинного зрения.

Новые пиксельные движки

В последние годы игроками всё чаще используются дисплеи ультравысокого разрешения, поддерживающие высокую частоту обновления, что требует высокопроизводительной пиксельной обработки (филлрейта). Современные мониторы имеют 4K, 5K, и даже 8K-разрешения, и некоторые из них отличаются высокой частотой обновления, вплоть до 240 Гц, что повышает требования к графическим процессорам. Да и шлемы виртуальной реальности более чем удваивают нагрузку на пиксельные движки, по сравнению с FullHD-мониторами. Поэтому неудивительно, что графический процессор Vega получил улучшенные пиксельные движки, которые были спроектированы для повышения производительности, более эффективного использования данных и соответствующего увеличения энергоэффективности.

Новый движок отличается от предыдущих тем, что использует тайловую растеризацию Draw Stream Binning Rasterizer (DSBR), аналогично тому, что было сделано инженерами Nvidia в Maxwell и следующих архитектурах. В процессе обработки пикселей используется начиповый кэш для промежуточного хранения данных и новая логика работы растеризатора, который разбивает буфер на тайлы. Далее пиксельный движок определяет, какие геометрические примитивы попадают в каждый тайл (binning), генерируется список примитивов и вызовов функций отрисовки (draw stream) для каждого тайла, и каждый тайл затем отдельно растеризуется с большей эффективностью, используя при работе только начиповый кэш, исключая необходимость обращения к более медленной локальной видеопамяти.

Мы неоднократно писали о таком гибридном методе, сочетающем преимущества привычного подхода и тайловых графических архитектур, и подробно останавливаться на деталях уже не будем. Основной плюс такого подхода состоит в сокращении необходимости чтения и записи данных из медленной видеопамяти, при тайловой растеризации это делается лишь один раз. В Vega 10 используется относительно малое количество тайлов и GPU работает с партиями примитивов ограниченного размера, по сравнению с тайловыми архитектурами прошлого. Это позволяет снизить затраты, связанные с отсечением и сортировкой, особенно высокие в случае геометрически сложных сцен, обеспечивая большую производительность и эффективность.

Затенение пикселей также может быть отложено до обработки всей геометрии, чтобы осуществлять работу только над видимыми пикселями. При этом отрисовываются только видимые камере пиксели, а значения невидимых отбрасываются, что повышает производительность и эффективность. Такое отложенное затенение можно запретить для тех тайлов, которые содержат полупрозрачные полигоны, чтобы не нарушать правильность рендеринга сцены.

Тайловые оптимизации Draw Stream Binning Rasterizer значительно снижают количество обращений к видеопамяти, увеличивая общую производительность и повышая энергоэффективность. В случае Vega 10, применение тайловой растеризации обеспечивает снижение требований к ПСП примерно на 10-15% (иногда и больше) в различном программном обеспечении при аналогичном энергопотреблении.

 

Правда, не очень понятно, насколько это повысит производительность Vega 10, не особо страдающей от нехватки ПСП. Возможно, на 10-15% меньшие требования к ПСП не дадут увеличения скорости в принципе. А вот где есть приросты производительности, так это в профессиональных приложениях, особенно если разработчики ПО отправляют геометрию на отрисовку специальным образом или если отрисовывают большое количество перекрывающих друг друга треугольников. К примеру, в тесте energy01 из пакета SPECviewperf 12 скорость рендеринга при включении DSBR вырастает более чем вдвое.

Высокая производительность — это отлично, но не менее важна и функциональность. Новые пиксельные движки Vega 10 были специально доработаны для поддержки большинства функций DirectX 12 с уровнем возможностей Feature Level 12_1, а также имеют расширенную поддержку Vulkan 1.0. В результате, новый графический процессор AMD имеет наиболее полную поддержку Feature Level 12_1 на данный момент, которая превосходит не только GPU компании прошлого поколения, но и лучшего из имеющихся конкурентов — графические процессоры семейства Nvidia Pascal.

 

В частности, в Vega появилась поддержка Raster Ordered Views, Conservative Rasterization уровня Tier 3 и Tiled Resources уровня Tier 3, что несколько лучше, чем возможности любых GPU конкурента. К примеру, дополнительный третий уровень возможностей для консервативной растеризации позволяет использовать её в алгоритмах эффективного отбрасывания невидимой геометрии (occlusion culling).

Никуда не делось и весьма эффективное использование асинхронных вычислений, которое является давним преимуществом решений AMD. Применение этой возможности в DX12-версии игры The Division даёт прирост в 13%, а все специфические оптимизации основного процесса рендеринга игры DOOM на PS4, просто перенесённые на ПК с графическим процессором AMD, сразу же дали 43% прироста в скорости.

 

Пожалуй, можно назвать графический процессор Vega 10 самым функциональным видеочипом из ныне существующих на рынке, и особенно полезен он будет для разработчиков игр, которые стараются использовать продвинутые алгоритмы и техники, а также все новые технологии. В качестве яркого примера такой игры можно назвать грядущую Wolfenstein II: The New Colossus на движке id Tech 6, в котором планируется применять такие возможности, как Rapid Packed Math, асинхронные вычисления, и интринсики вычислительных шейдеров.

Вывод на дисплей и обработка видеоданных

Графический процессор Vega 10 предлагает наиболее современную поддержку всех современных стандартов вывода изображения на дисплеи, превосходя по этим возможностям предыдущие решения семейства Polaris. Новый GPU поддерживает стандарт DisplayPort 1.4 с HBR3, MST и HDR, а также HDMI 2.0 с выводом информации в разрешении до 4K при частоте обновления в 60 Гц, в 12-битном цветовом формате и 4:2:0 кодировании. Защищённый контент при помощи HDCP поддерживается для HDMI и DisplayPort портов. Конечно же, то же самое касается технологии FreeSync, графический процессор поддерживает как динамически изменяемую частоту обновления FreeSync, так и вторую версию стандарта с поддержкой HDR-дисплеев с низкими задержками и высоким качеством изображения.

 

Нужно отметить, что экосистема Radeon FreeSync постоянно развивается, и на рынке уже доступны сотни моделей мониторов с поддержкой технологии динамической частоты обновления экрана, созданной AMD. Из последних новинок на рынке можно отметить три типа FreeSync-дисплеев: с разрешением 1440p и частотой обновления до 144 Гц, с разрешением 3440×1440 пикселей при 100 Гц и 4K-дисплеи с частотой обновления в 60 Гц.

Как и Polaris, новая Vega поддерживает до шести одновременно подключенных дисплеев, но эта поддержка расширена в сторону больших разрешений, частоты обновления и глубины цвета. HDR-дисплеи требуют большей полосы пропускания из-за увеличения объёма передаваемой информации, и поэтому многомониторные системы имеют более жёсткие ограничения по подключению. Vega 10 утраивает число подключаемых мониторов при 4K 60 Гц и 64-битном HDR-формате, и добавляет поддержку двух дополнительных режимов вывода, на которые не способен Polaris.

 

В состав графического процессора Vega 10 включены самые современные движки для кодирования и декодирования видеоданных. Как и предыдущие GPU, новая Vega поддерживает аппаратное декодирование формата HEVC/H.265 с профилем Main 10 при разрешениях до 3840×2160 и с 60 FPS, с поддержкой 10-битного цвета для HDR. Декодирование формата H.264 также поддерживается до 4K-разрешения при 60 кадрах в секунду, а декодирование формата VP9 при разрешениях до 3840×2160 использует гибридный подход, использующий и блок декодирования видео и шейдерные движки GPU, чтобы снизить нагрузку на центральный процессор системы.

Аппаратный кодировщик, встроенный в Vega, также поддерживает большинство популярных форматов, он может кодировать данные в HEVC/H.265 при FullHD-разрешении и 240 FPS, в 1440p-разрешении при 120 FPS и в 4К-разрешении при 60 FPS. Кодирование видео в формате H.264 поддерживается для 1920×1080 при 120 FPS, для 1440p и 4K — при 60 FPS (последнее также было недоступно в Polaris, который способен максимум на 30 FPS для 4K-разрешения).

Также Vega 10 имеет аппаратную поддержку технологии виртуализации SR-IOV, позволяя делить ресурсы GPU между несколькими сеансами в виртуализированной среде. Vega 10 добавляет возможность общего использования аппаратного кодирования и декодирования видео и обеспечивает ускорение аппаратного кодирования в 16 одновременных сеансах. Эта возможность будет полезна для многопользовательской виртуализации при интенсивных графических нагрузках, вроде удаленных рабочих станций и облачных игр.

Нововведения и улучшения в программной части

Не можем мы обойти и вопросы работы программных технологий. Так, использование технологии Radeon Chill, позволяющей ограничить частоту кадров, а вместе с ней и потребление энергии, обеспечивает значительно лучшую энергоэффективность, по сравнению с обычным режимом по умолчанию. В протестированных специалистами AMD играх (не только нетребовательных сетевых, вроде Dota 2, но и таких проектах, как Battlefield 1) было отмечено снижение энергопотребления на 50%-75%, что может быть весьма полезно.

 

Ещё одна интересная технология, доступная в драйверах видеокарт Radeon — Enhanced Sync. Она работает как и аналогичная возможность в драйверах конкурентов, снижая задержки вывода на дисплей в различных случаях. Технология работает и при подключении мониторов с фиксированной частотой обновления и с FreeSync-мониторами, поддерживающими компенсацию низкой частоты кадров LFC и обеспечивает снижение задержек до 68% по сравнению с режимом включенной вертикальной синхронизации в Dota 2. В других играх улучшения также заметны:

 

Технология Radeon WattMan уже известна нам по предыдущим решениям, она позволяет простым способом настроить оптимизированные по энергопотреблению и производительности режимы работы. Вместе с Vega 10 в драйверах появились предустановленные профили производительности/потребления: power save, balance, turbo и пользовательский custom, отличающиеся различными пределами потребления энергии:

 

Режим power save устанавливает самое низкое значение энергопотребления, он самый экономичный и тихий, в смысле шума от вентилятора системы охлаждения. В среднем, этот режим на 25-35% энергоэффективнее сбалансированного. Турборежим наиболее производительный, но к сбалансированному он добавляет лишь несколько процентов скорости даже в самых тяжёлых условиях работы. Этот экстремальный режим будет полезен скорее для любителей разгона. К слову, для тех, кто хочет ещё большей свободы в настройках энергопотребления, в AMD добавили второй BIOS, который можно включить (с перезагрузкой, конечно же) при помощи специального переключателя на плате: primary и secondary.

Интересно также, что в драйвере для Vega можно изменять режим работы High Bandwidth Cache Controller. При включении кэширования видеопамяти можно также задать объём доступной системной памяти, который будет использоваться для дополнения к локальной видеопамяти на GPU. К примеру, при выделении 4 ГБ из системного ОЗУ и при добавлении к ним 8 ГБ кэша HBCC, общий объём доступной приложениям видеопамяти станет равным 12 ГБ.

Особенно полезным режим может быть в случае недостатка 8 ГБ локальной памяти, имеющейся у игровых вариантов Vega, ведь при помощи этой настройки её можно расширить до требуемого значения. На практике, включение кэширования HBCC не всегда приводит к повышению производительности, зачастую она даже немного снижается, если 8 ГБ локальной видеопамяти и так достаточно. Но в некоторых приложениях специалисты компании AMD обнаружили повышение производительности. Например, в бенчмарке Unigine Heaven отмечается рост скорости рендеринга на 7%.

Предварительная оценка производительности и выводы по теоретической части

Что касается самого важного вопроса 3D-производительности, то для начала давайте рассмотрим данные самой AMD. Архитектура Vega обеспечивает значительное улучшение в производительности относительно предыдущих GPU компании, и комбинация архитектурных улучшений и более высокой частоты работы позволяет новому GPU значительно опередить графический процессор предыдущего поколения, аналогичный по позиционированию — Fiji. Давайте сравним их теоретические характеристики:

 

Хотя AMD хитро взяла для сравнения самую быструю модификацию Vega 64 с жидкостным охлаждением, всё равно видно явный прогресс почти по всем параметрам. Тактовая частота GPU выросла более чем в полтора раза, что сказалось на большинстве теоретических цифр — все основные значения выросли соответственно. Ну а скорость FP16-вычислений благодаря Rapid Packed Math возросла втрое. Объём L2-кэша и видеопамяти также вдвое выше, а вот пропускная способность памяти даже незначительно снизилась — вместо 512 ГБ/с стало 484 ГБ/с.

Хотя это и немало, но ведь такого же значения (и даже большего!) легко можно добиться с применением GDDR5X-памяти, что показал конкурент в своей GeForce GTX 1080 Ti. Стоила ли овчинка выделки, если применение GDDR5X, скорее всего, обошлось бы дешевле в производстве и абсолютно точно — в разработке. А соответственно, можно было просто увеличить объем локальной видеопамяти, если использовать не HBM2, а GDDR5X. Похоже, что в AMD просто нацелились несколько лет назад на применение HBM в своих решениях и долго не могли остановиться. Ну или все произведённые чипы GDDR5X-памяти доставались Nvidia.

Ну да ладно, перейдём к тестам. Специалисты AMD предлагают для начала не просто посмотреть на цифры FPS, а на то, входят ли они в комфортный предел для FreeSync (и G-Sync, соответственно) мониторов. К примеру, для FreeSync-мониторов с разрешением 3440×1440 этот тип синхронизации работает при частоте обновления от 48 до 100 Гц, поэтому для максимального комфорта нужна частота кадров в этих пределах. Если решения Nvidia обеспечивают такую скорость не всегда, то Radeon RX Vega 64 справляется с задачей куда лучше GeForce GTX 1080 (замеры производила AMD, напоминаем).

 

Примерно то же самое касается и 4К-разрешения — типичные модели мониторов с такими параметрами и поддержкой динамического изменения частоты обновления, умеют работать в пределах от 40 до 60 Гц. Поэтому для плавной игры нужна частота кадров на указанном уровне, и RX Vega 64 обеспечивает такую скорость чаще, чем GeForce GTX 1080 — в указанных играх и условиях:

 

Наверняка эти сравнения AMD не обошлись без лукавства, да и сравнивали они новинку с решением конкурента только в удобных для себя приложениях. Давайте посмотрим на расширенный список игровых тестов, которые тоже сделала сама AMD. Правда, тут они уже сравнивают новинку не с GTX 1080, а с GTX 980 Ti предыдущего поколения:

 

По этим тестам, Vega 64 смотрится очень неплохо, но нужно учитывать, что это снова самый быстрый и дорогой вариант с жидкостным охлаждением. Зато он явно по всем статьям оказался лучше топовых решений предыдущего поколения и самой AMD, и Nvidia. Впрочем, подобное сравнение имеет не очень много смысла, лучше мы посмотрим на наши собственные тесты в двух следующих частях нашего материала.

Видеокарта модели Radeon RX Vega 64 стала одним из первых решений семейства Vega, основанной на графическом процессоре, произведенном при помощи технологического процесса 14 нм FinFET LPP. Новый графический процессор компании AMD отличается новыми функциональными возможностями и архитектурными оптимизациями, что позволило значительно улучшить производительность и энергоэффективность нового решения, как минимум в теории.

Хотя графический процессор Vega 10 архитектурно во многом повторяет решения из предыдущих архитектур, да и в целом графические процессоры разных поколений GCN по сути не слишком сильно отличаются друг от друга, но по уверениям AMD в новом GPU было сделано множество улучшений для более эффективных вычислений и для ускорения процесса рендеринга. Vega 10 имеет новые функциональные возможности, и должна быть более эффективной, по сравнению с Polaris и Fiji. А это, в свою очередь, означает лучшие пользовательские характеристики по тепловыделению и шуму от системы охлаждения, что мы обязательно проверим далее.

На некоторое время архитектура Vega станет основой высокопроизводительных графических решений компании AMD, и некоторое количество продуктов на основе этой архитектуры мы ещё увидим в будущем. Пока что, чуть раньше игровых видеокарт вышли решения для серьёзных вычислений Radeon Instinct, также были анонсированы и видеокарты для профессиональной графики Radeon Pro на основе графического процессора Vega 10, ну а мы ждём будущих игровых видеокарт. Возможно, это будет что-то вроде RX Vega 48 на другом чипе с более удачным позиционированием? Из более реалистичных и близких вариантов отметим RX Vega 56 на основе урезанного чипа Vega 10, так как он обладает более привлекательным соотношением цены и производительности.

В следующих частях нашей статьи мы оценим производительность новой видеокарты AMD Radeon RX Vega 64 на практике, сравнив ее скорость с показателями близких по цене ускорителей компаний Nvidia и AMD. Сначала мы рассмотрим данные, полученные в нашем привычном наборе синтетических тестов, а затем перейдем и к самому интересному — игровым тестам.

Средняя цена (количество предложений) в московской рознице:
Рассматриваемые карты Конкуренты
RX Vega 64 8 ГБ — 49500 руб. (на 08.09.17) GTX 1080 Ti 11 ГБ — 53000 руб. (на 08.09.17)
RX Vega 64 8 ГБ — 49500 руб. (на 08.09.17) GTX 1080 8 ГБ — 35800 руб. (на 08.09.17)
RX Vega 64 8 ГБ — 49500 руб. (на 08.09.17) GTX 1070 8 ГБ — 30500 руб. (на 08.09.17)
RX Vega 64 8 ГБ — 49500 руб. (на 08.09.17) R9 Fury X 4 ГБ — 28 700  (на 03.08.17)
 
Благодарим компанию AMD Russia
и лично Ивана Мазнева
за предоставленную на тестирование видеокарту
 
Блок питания Seasonic Prime 1000 W Titanium для тестового стенда предоставлен компанией Seasonic
 
Модули памяти AMD Radeon R9 8 ГБ UDIMM 3200 МГц для тестового стенда предоставлены компанией AMD
 
Системная плата Asus ROG Crosshair VI Hero для тестового стенда предоставлена компанией AMD
 
CPU Cooler Antec Kuhler H2O 920 для тестового стенда предоставлен компанией AMD
 
Монитор Dell UltraSharp U3011 для тестовых стендов предоставлен компанией Юлмарт
 
Корпус Corsair Obsidian 800D Full Tower для тестового стенда предоставлен компанией Corsair
 
Жесткий диск Seagate Barracuda 7200.14 3 ТБ для тестового стенда предоставлен компанией Seagate
 
 
 

 

22 августа 2017 Г.

AMD Radeon RX Vega 64. 1:

AMD Radeon RX Vega 64

1:


AMD Radeon RX Vega 64.

: () AMD Radeon RX Vega 64 8 2048- HBM2

: ATI Technologies ( ATI) 1985 Array Technology Inc. ATI Technologies. - . (). C 1987 . 2000 ATI Radeon, GPU , . 2006 ATI Technologies AMD, AMD Graphics Products Group (AMD GPG). C 2010 AMD ATI, Radeon. - AMD (), AMD GPG AMD (). . AMD GPG ( ) 2000 .

1:

AMD , Polaris 2016, , . AMD Nvidia, Fury , . Radeon RX 500 , Vega .

, , , , HBM , (!) AMD. , , Vega. , - SIGGRAPH Capsaicin, - , — Radeon RX Vega Ryzen Threadripper.

Radeon Technologies Group , Vega , GCN — ! Vega : , .

, . , : , . 4K-, HDR-, VR-, GPU , API , . .

, : , , . . GPU , , , .

AMD , , , . , , . 2000- , 2016 . , , , . , .

— GPU , . , , AMD Vega, « », HBM, — HBM2. , , — High Bandwidth Cache, .

RX Vega, . , , . : Radeon RX Vega 64 Liquid Cooled Edition, RX Vega 64 RX Vega 56, Vega, .

, , GPU , — 210 345 . , , Nano- Vega 150 — (Unreal Engine).

Radeon RX Vega 64. Vega 10, GCN, AMD, , GCN :

Radeon RX Vega 64, Vega 10 .

Radeon RX Vega 64 ( )
Vega 10
14 FinFET LPP
12,5 .
486 ²
, : , .
DirectXDirectX 12, Feature Level 12_1
2048- High Bandwidth Memory
1274 (1546)
64 GCN, 4096 ALU ( INT8, INT16, FP16, FP32 FP64)
256 ,
(ROP)64 ROP 16 , FP16- FP32- . 64 , (Z only) — 256
, DVI, HDMI 2.0b DisplayPort 1.4




Radeon RX Vega 64

1274 (1546)
4096
256
64
1890 (2×945)
HBM2
2048-
8
484 /
(FP32) 12,7
99 /
396 /
PCI Express 3.0
HDMI DisplayPort
295
8-
, 2
$499 ( )

AMD . -, ( Fury) — Vega, -, GCN — 64 56 . 560, 570 580 . RX , . : R7 , R9, . , AMD RX, .

Vega , Polaris . Vega 64 , Liquid Cooled Edition ( , ). , :

, — $399 RX Vega 56 $699 . , , . AMD $100? , , , . , .

, $200 Samsung CF791 34″ FreeSync, $100 Ryzen 7 X370 — $300, , ( $120).

. , , , , , Radeon RX Vega, . — -, (- , ), - — , , - .

, , : , , . , , . , ( , ).

Radeon RX Vega 64 $499, , , GeForce GTX 1080, . . — .

, Radeon RX Vega 64 8 HBM2, Vega 56 . 8 GPU . 4 , Fury , 16 HBM2-. 8 « », , , , Vega ( . ).

8- , Radeon RX Vega 64 Vega 10 295 . , , — . , Radeon RX Vega 64 — .

Vega

AMD Vega, 14 FinFET LPP 12,5 . Vega 10 45 SRAM-, 1,7 ( ), Infinity Fabric. 486 2 Vega (), Fiji ( Fury):

Vega 10 Graphics Core Next, . Compute Unit (CU), AMD. CU , - , , . .

Vega 10 4 , 4 64 Compute Unit — , , AMD. 4096 , 256 64 ROP. , , GPU, : , , . . ( ):

Vega 10 Fiji, , , . , Radeon RX Vega 64 Liquid Cooled Edition 13,7 27,4 16- , Vega.

AMD Zen, 8% , 18% . , ALU , , ( ) Vega 10 1,7 , 28 1,0-1,3 .

Vega 10 , Infinity Fabric, . AMD, , . GPU Infinity Fabric , , PCI Express, , . Infinity Fabric , Vega ( APU?) .

Vega 10 HBM2- ECC, , GPU. HBM2-, 2048- , 1 , 484 /. HBM2-, — . HBM ( Vega ). , HBM1-, Fiji, Fury.

HBM2 GDDR5-, , — , Radeon R9 Nano RX Vega Nano ( , ). AMD , , Vega, - , GDDR5-.

32 , . AMD 8 HBM2-, — 16 . , , 8 . , Vega , .

Vega , HBM2- - , . , HBM2 Vega - . AMD, 512 , . 512 — 49- , ? , 48- CPU GPU, CPU GPU, .

, GPU , , . PCI Express , . , , — , , .

AMD, The Witcher Wild Hunt Fallout 4 4K- - , . , 8 , , . , 8 , 4 . , , . , -, , .

, , , - . — , , , AMD , , . , - , - , , .

, , -. — , , , -. — , , , .

, HBM2- , ( SSD-) , — GPU . Vega - — High Bandwidth Cache Controller (HBCC).

Vega ( , , ), , . , () . . , , , .

GPU , , PCI Express, ( HBM2-), , (, ) . , , . , , HBM2.

AMD . , Vega, , . , Radeon Pro SSG SSD- , (!), . 8- .

, HBM2: inclusive exclusive, , , : .

, , . , AMD , , Bethesda, , - HBCC.

Vega, GPU - (L2), GCN, . , , ( , . , L2- - (.), AMD — 4 , 2 GPU .

Vega , — GPU ( ), RBE (render back-end) - . , (deferred shading), .

Vega , . GPU , , . , 3D- overdraw — , , , .

, , , , . , Z- , , , .

Vega 10 , — AMD, GPU , . Fiji , GPU Vega 17 ( ). AMD .

, AMD . , GPU, . Primitive Shaders — , , .

(, , ), , : , , , . . Vega Fiji , -! Vega 10 , , 17 .

, . API , , . , AMD .

, ( ). - . , , Polaris. .

Vega — . GPU — intelligent workload distributor (IWD), , (draw calls), . IWD , , wavefront 64 , .

NCU 16-

Vega 10 , , Vega NCU — Next-Generation Compute Unit. Rapid Packed Math — — , INT16 FP16 ( FP32).

Vega NCU 128 32- (FP32) , — 256 16- (FP16 INT16) , packed-. 8- , — .

INT16 FP16 , , , FP32, , GPU, . , 32- , 16- , . , AMD .

, AMD Nvidia FP16- , ... , GPU, . Vega , , INT16 FP16 . , — , Nvidia .

, , . 16- «» , . AMD, FP16 INT16, 3DMark Serra 20-25% , FP32- — . 16- , 25% , 16- Bloom, 20% .

, 16- API, , - , 16- , . , , , 16- .

Vega 40 . 16- , , 32- , , , ADD/SUB , .

NCU 8- SAD (Sum of Absolute Differences), QSAD ( SAD), SAD , «» MQSAD, . , , , .

, , (). 4K, 5K, 8K-, , 240 , . , FullHD-. , Vega , , .

, Draw Stream Binning Rasterizer (DSBR), , Nvidia Maxwell . , . , (binning), (draw stream) , , , .

, , . , . Vega 10 GPU , . , , , .

, . , , . , , .

Draw Stream Binning Rasterizer , . Vega 10, 10-15% ( ) .

, , Vega 10, . , 10-15% . , , . , energy01 SPECviewperf 12 DSBR .

— , . Vega 10 DirectX 12 Feature Level 12_1, Vulkan 1.0. , AMD Feature Level 12_1 , GPU , — Nvidia Pascal.

, Vega Raster Ordered Views, Conservative Rasterization Tier 3 Tiled Resources Tier 3, , GPU . , (occlusion culling).

, AMD. DX12- The Division 13%, DOOM PS4, AMD, 43% .

, Vega 10 , , , . Wolfenstein II: The New Colossus id Tech 6, , Rapid Packed Math, , .

Vega 10 , Polaris. GPU DisplayPort 1.4 HBR3, MST HDR, HDMI 2.0 4K 60 , 12- 4:2:0 . HDCP HDMI DisplayPort . , FreeSync, FreeSync, HDR- .

, Radeon FreeSync , , AMD. FreeSync-: 1440p 144 , 3440×1440 100 4K- 60 .

Polaris, Vega , , . HDR- - , . Vega 10 4K 60 64- HDR-, , Polaris.

Vega 10 . GPU, Vega HEVC/H.265 Main 10 3840×2160 60 FPS, 10- HDR. H.264 4K- 60 , VP9 3840×2160 , GPU, .

, Vega, , HEVC/H.265 FullHD- 240 FPS, 1440p- 120 FPS 4- 60 FPS. H.264 1920×1080 120 FPS, 1440p 4K — 60 FPS ( Polaris, 30 FPS 4K-).

Vega 10 SR-IOV, GPU . Vega 10 16 . , .

. , Radeon Chill, , , , . AMD ( , Dota 2, , Battlefield 1) 50%-75%, .

, Radeon — Enhanced Sync. , . FreeSync-, LFC 68% Dota 2. :

Radeon WattMan , . Vega 10 /: power save, balance, turbo custom, :

power save , , . , 25-35% . , . . , , , AMD BIOS, ( , ) : primary secondary.

, Vega High Bandwidth Cache Controller. , GPU. , 4 8 HBCC, 12 .

8 , Vega, . , HBCC , , 8 . AMD . , Unigine Heaven 7%.

3D-, AMD. Vega GPU , GPU , — Fiji. :

AMD Vega 64 , . GPU , — . FP16- Rapid Packed Math . L2- , — 512 / 484 /.

, ( !) GDDR5X-, GeForce GTX 1080 Ti. , GDDR5X, , — . , , HBM2, GDDR5X. , AMD HBM . GDDR5X- Nvidia.

, . AMD FPS, , FreeSync ( G-Sync, ) . , FreeSync- 3440×1440 48 100 , . Nvidia , Radeon RX Vega 64 GeForce GTX 1080 ( AMD, ).

4- — , 40 60 . , RX Vega 64 , GeForce GTX 1080 — :

AMD , . , AMD. , GTX 1080, GTX 980 Ti :

, Vega 64 , , . AMD, Nvidia. , , .

Radeon RX Vega 64 Vega, , 14 FinFET LPP. AMD , , .

Vega 10 , GCN , AMD GPU . Vega 10 , , Polaris Fiji. , , , .

Vega AMD, . , Radeon Instinct, Radeon Pro Vega 10, . , - RX Vega 48 ? RX Vega 56 Vega 10, .


AMD Radeon RX Vega 64 , Nvidia AMD. , , — .

( ) :
RX Vega 64 8 — GTX 1080 Ti 11 —
RX Vega 64 8 — GTX 1080 8 —
RX Vega 64 8 — GTX 1070 8 —
RX Vega 64 8 — R9 Fury X 4 —


Seasonic Prime 1000 W Titanium Seasonic

AMD Radeon R9 8 UDIMM 3200 AMD

Asus ROG Crosshair VI Hero AMD

CPU Cooler Antec Kuhler H2O 920 AMD

Dell UltraSharp U3011

Corsair Obsidian 800D Full Tower Corsair

Seagate Barracuda 7200.14 3 Seagate