Видеоускоритель AMD Radeon R9 Fury X

Часть 2: видеообзор, особенности карты


Содержание

Данная часть знакомит читателей с особенностями видеокарты.

Видеообзор

Для начала предлагаем посмотреть наш видеообзор ускорителя AMD Radeon R9 Fury X:

Наш видеообзор ускорителя AMD Radeon R9 Fury X можно также посмотреть на filmdepo.ru

Теперь давайте взглянем на спецификации устройства.

Устройство(а)


AMD Radeon R9 Fury X 4096 МБ 4096-битной HBM PCI-E
ПараметрЗначениеНоминальное значение (референс)
GPURadeon R9 Fury X (Fiji)
ИнтерфейсPCI Express x16
Частота работы GPU (ROPs), МГц10501050
Частота работы памяти (физическая (эффективная)), МГц500 (1000)500 (1000)
Ширина шины обмена с памятью, бит4096
Число вычислительных блоков в GPU64
Число операций (ALU) в блоке64
Суммарное количество блоков ALU4096
Число блоков текстурирования (BLF/TLF/ANIS)256
Число блоков растеризации (ROP)64
Размеры, мм190×100×35 плюс внешний блок охлаждения190×100×35 плюс внешний блок охлаждения
Количество слотов в системном блоке, занимаемые видеокартой22
Цвет текстолитачерныйчерный
ЭнергопотреблениеПиковое в 3D, Вт277277
В режиме 2D, Вт8888
В режиме «сна», Вт33
Уровень шумаВ режиме 2D, дБА36.536.5
В режиме 2D (просмотр видео), дБА36.536.5
В режиме максимального 3D, дБА4040
Выходные гнезда1×HDMI 1.4a, 3×DisplayPort 1.21×HDMI 1.4a, 3×DisplayPort 1.2
Поддержка многопроцессорной работыCrossFire
Максимальное количество приемников/мониторов для одновременного вывода изображения44
Дополнительное питание: количество 8-контактных разъемов22
Дополнительное питание: количество 6-контактных разъемовНетНет
Максимальное разрешение 2DDisplay Port4096×2160
HDMI4096×2160
Максимальное разрешение 3DDisplay Port4096×2160
HDMI4096×2160

Комплектация локальной памятью
Картa имеeт 4096 МБ памяти HBM DRAM, размещенной в 4 микросхемах по 8 Гбит в единой упаковке с GPU.

Микросхемы памяти SK Hynix (HBM). Микросхемы рассчитаны на максимальную частоту работы в 500 (1000) МГц.

Сравнение с эталонным дизайном (reference)
Вид спереди
AMD Radeon R9 Fury X 4096 МБ 4096-битной HBM PCI-E Reference card AMD Radeon R9 290X
Вид сзади
AMD Radeon R9 Fury X 4096 МБ 4096-битной HBM PCI-E Reference card AMD Radeon R9 290X

Очевидно, что новая архитектура Fiji с интегрированной в одну упаковку с GPU памятью HBM привела к сильному изменению привычного для нас дизайна PCB. Мы сравниваем с Radeon R9 290X, потому что до сего момента именно этот ускоритель был однопроцессорным флагманом компании AMD. Представленные карты отличаются шинами обмена с памятью в 8 (!) раз: 512 бит у R9 290X и 4096 бит у R9 Fury X. Интеграция GPU и памяти в один чип позволила резко сократить размеры PCB, ведь там по сути остались только блок питания и гнезда вывода изображения.

Схема питания 6-фазная, управляется цифровым контроллером. На верхнем торце PCB есть микропереключатель для возможности аварийной загрузки в случае неудачного обновления BIOS. На обороте карте имеются два других микропереключателя для регулирования подсветки GPU Tach.

Стоит также обратить внимание на то, что больше нет гнезд вывода DVI, потому что данный ускоритель позиционируется для сверхвысоких разрешений типа 4К, а также отчасти потому, что все современные мониторы уже имеют входы HDMI/DP.

Система охлаждения
Ускоритель оснащен жидкостной системой охлаждения (ЖСО) производства Cooler Master. К центральному чипу прижимается медная площадка, объединенная с помпой и каналом для прокачки особой жидкости по системе шлангов, при этом жидкость проходит через решетчатый радиатор, оснащенный 120-миллиметровым вентилятором. Питание для вентилятора подается по проводу, идущему вдоль одного из шлангов к видеокарте, поэтому потребителю ничего не надо подключать, кроме питания для самого ускорителя.

Учитывая, что микросхемы памяти расположены в одной упаковке с ядром, они также охлаждаются этой ЖСО. Имеется дополнительная пластина-радиатор, припаянная к вышеупомянутой медной пластине-подошве. Эта пластина охлаждает силовые транзисторы системы питания.

Карта реализует «технологию» GPU Tach: на оборотной стороне платы есть ряд из 8+1 светодиодов, которые демонстрируют загруженность GPU (8 градаций — 8 светодиодов). Девятый светодиод зеленого цвета предназначен для демонстрации ухода карты в спящий режим. Особыми микропереключателями на оборотной стороне карты можно регулировать эту подсветку: включать/выключать или менять цвет (красный/синий). На торце СО имеется подсвеченный логотип серии Radeon.

После 6-часового прогона под нагрузкой максимальная температура GPU не превысила 48 градусов, что является отличным результатом для такого рода ускорителей.
Мониторинг температурного режима с помощью MSI Afterburner (автор А. Николайчук AKA Unwinder)

Методика измерения шума

  • Помещение шумоизолировано и заглушено, снижены реверберации.
  • Системный блок, в котором исследовался шум видеокарт, не имеет вентиляторов, не является источником механического шума.
  • Фоновый уровень 20 дБА — это уровень шума в комнате и уровень шумов собственно шумомера.
  • Измерения проводились на расстоянии 50 см от видеокарты на уровне системы охлаждения.
  • Режимы измерения:
    1. Режим простоя в 2D: загружен интернет-браузер с сайтом iXBT.com, окно Microsoft Word, ряд интернет-коммуникаторов.
    2. Режим 2D с просмотром фильмов: используется SmoothVideo Project (SVP) — аппаратное декодирование со вставкой промежуточных кадров.
    3. Режим 3D с максимальной нагрузкой на ускоритель: используется тест FurMark.

В режиме простоя в 2D вентилятор внешнего радиатора работал на частоте 950 оборотов в минуту, при этом температура графического ядра не поднималась выше 28 градусов, а шум был равен 36,5 дБА, так как работающая помпа постоянно издавала некий звенящий звук.

При просмотре фильма с аппаратным декодированием температура графического ядра медленно вырастала до 34 градусов, обороты вентилятора и шум оставались на тех же уровнях.

В режиме максимальной нагрузки в 3D температура достигала уровня 48 °C, частота вращения вентилятора — чуть более 1090 оборотов в минуту, шум вырастал до 40 дБА. Можно сказать, что карта весьма шумная, главным образом из-за гудения помпы. (Перед самым анонсом мы получили информацию от AMD, что они в курсе проблемы с шумом помпы и заверяют, что это справедливо только для первой партии, из которой журналистам были предоставлены тестовые образцы. В продажу должны поступить карты уже с тихой помпой. Также следует учитывать, что поставлять в розницу эти карты будут партнеры AMD, которые имеют право менять ЖСО.)

Комплектация. Мы изучали референс-образец AMD, поэтому…
Комплекта по сути нет (кроме винтов для крепления радиатора охлаждения).

Упаковка номинальная, в продаже будут видеокарты партнеров AMD в упаковках собственного дизайна.

Установка и драйверы

Конфигурация тестового стенда

  • Компьютеры на базе процессора Intel Core i7-3960X (Socket 2011):
    • 2 процессора Intel Core i7-3960X (o/c 4 ГГц);
    • СО Hydro SeriesT H100i Extreme Performance CPU Cooler;
    • СО Intel Thermal Solution RTS2011LC;
    • системная плата Asus Sabertooth X79 на чипсете Intel X79;
    • системная плата MSI X79A-GD45(8D) на чипсете Intel X79;
    • оперативная память 16 ГБ DDR3 Corsair Vengeance CMZ16GX3M4A1600C9 1600 МГц;
    • жесткий диск Seagate Barracuda 7200.14 3 ТБ SATA3;
    • жесткий диск WD Caviar Blue WD10EZEX 1 TБ SATA3;
    • 2 SSD Corsair Neutron SSD CSSD-N120GB3-BK;
    • блок питания Thermaltake Амур 1200 (1200 Вт);
    • блок питания Thermaltake Toughpower DPS G 1050W (1050 Вт);
    • корпус Corsair Obsidian 800D Full Tower.
  • операционная система Windows 7 64-битная; DirectX 11.1;
  • монитор Samsung U28D590D (28″);
  • монитор Asus ProArt PA249Q (24″);
  • клавиатура Cougar 700K;
  • драйверы AMD версии 15.15-180612a-18565BE (полученные от AMD 18 июня),
  • драйверы Nvidia версии 352.86 (для GTX 980 Ti — 352.90)
  • VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационную программу Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010). Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain, также известная, как Island11.

Синтетические тесты проводились на следующих видеокартах:

  • Radeon R9 Fury X со стандартными параметрами (сокращенно R9 Fury X)
  • Radeon R9 295X2 со стандартными параметрами (сокращенно R9 295X2)
  • Radeon R9 290X со стандартными параметрами (сокращенно R9 290X)
  • Geforce GTX 980 Ti со стандартными параметрами (сокращенно GTX 980 Ti)
  • Geforce GTX 980 со стандартными параметрами (сокращенно GTX 980)

Для анализа производительности новой топовой видеокарты Radeon R9 Fury X были выбраны именно эти решения по следующим причинам. Radeon R9 290X является аналогичным одночиповым решением компании AMD из верхнего ценового диапазона, но предыдущей линейки. А двухчиповая видеокарта Radeon R9 295X2 нами взята исключительно для ориентира — такое сравнение покажет, насколько новинка приблизилась к мощности пары GPU в самой мощной модели предыдущего поколения.

От конкурирующей компании Nvidia для нашего сравнения мы также выбрали пару видеокарт, выпущенных в разное время: одна вышла еще в прошлом году, а вторая — прямо перед анонсом Fury X. Платы Geforce основаны на графических процессорах архитектуры Maxwell, но модели чипов разные: GM204 и GM200, а соответственно, отличается и их мощность. Реальным конкурентом по цене для Radeon R9 Fury X от AMD является Geforce GTX 980 Ti, но и несколько менее мощная видеокарта конкурента также будет интересна, особенно в связи с выходом модели R9 Fury, которую мы скоро рассмотрим в отдельном материале.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Какое-то время назад мы отказались от устаревших DirectX 9 тестов, так как сверхмощные решения вроде Radeon R9 Fury X показывают в них не слишком то показательные результаты, будучи всегда ограничены ПСП, филлрейтом или текстурированием. Не говоря уже о том, что двухчиповые видеокарты далеко не всегда корректно работают в таких приложениях.

Во вторую версию RightMark3D вошли два уже знакомых нам теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также еще два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нем используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность видеокарт в этом тесте зависит от количества и эффективности блоков TMU, влияет также и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает еще и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low», в зависимости от модели видеокарты.

В задачах процедурной визуализации меха с большим количеством текстурных выборок, компания AMD перехватила лидерство ещё с выпуском первых видеочипов на базе архитектуры GCN. Именно платы Radeon и по сей день являются лучшими в этих сравнениях, что говорит о большей эффективности выполнения ими этих программ. Вывод подтверждается и сегодняшним сравнением — рассматриваемая видеокарта Fury X оказалась быстрее всех одночиповых решений AMD и Nvidia.

Правда, в первом Direct3D 10 тесте новая видеоплата оказалась лишь на 4-14% быстрее своей предшественницы в лице Radeon R9 290X, и много уступила двухчиповому варианту прошлого поколения. Похоже, скорость рендеринга в этом тесте упирается во что-то вроде пиковой производительности блоков ROP. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: в такой ситуации что-то должно измениться, и показатели эффективного филлрейта будут влиять меньше:

Действительно, в усложнённых условиях новая видеокарта модели Radeon R9 Fury X отрывается от R9 290X уже на 21-39%, что заметно ближе к теоретической разнице по математической и текстурной мощности. Да и двухчиповый Radeon R9 295X2 оторвался от новинки не так уж сильно. Рассматриваемая модель опережает конкурентов в виде Geforce GTX 980 и GTX 980 Ti еще сильнее, и даже мощнейший GM200 не позволил топовому решению Nvidia в столь сложных условиях быть близким к новой одночиповой плате Radeon — графические процессоры компании AMD в подобных вычислениях весьма сильны.

Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, давно используются во многих проектах, например в играх серий Crysis, Lost Planet и многих других. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип еще примерно в два раза — такой режим называется «High».

Диаграмма в целом схожа с предыдущей, также без включения суперсэмплинга, и в этот раз новая Radeon R9 Fury X оказалась быстрее R9 290X примерно на 9-18%, так что упор в производительность блоков ROP в этот раз явно меньше. А если брать сравнение с видеокартами Geforce, то новинка почти на четверть опережает старшую одночиповую модель текущего поколения от компании Nvidia. Посмотрим, что изменит включение суперсэмплинга:

При включении суперсэмплинга и самозатенения задача становится тяжелее, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьезное падение производительности. Разница между скоростными показателями протестированных видеокарт немного изменилась, хотя включение суперсэмплинга сказывается меньше, чем в предыдущем случае.

Графические решения AMD Radeon и в этом D3D10-тесте пиксельных шейдеров работают хоть и эффективнее конкурирующих плат Geforce, но разница между ними сократилась. Новая модель Radeon R9 Fury X на 30-34% быстрее устаревшей видеокарты на основе чипа Hawaii, и заметно медленнее двухчипового варианта. Зато она всё так же опережает обе Geforce во всех условиях, разница между ними достигает 28% даже если сравнивать новинку с самым мощным решением Nvidia, основанном на примерно настолько же сложном GPU.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов чаще всего соответствуют разнице по частотам и количеству вычислительных блоков, но лишь примерно, так как на результаты влияет и разная эффективность их использования в конкретных задачах, и оптимизация драйверов, и новейшие системы управления частотами и питанием, и даже упор в ПСП. Увы, но в случае теста Mineral, новая модель видеокарты Radeon R9 Fury X опережает предшествующую одночиповую модель аналогичного позиционирования всего лишь на 6%, что явно не соответствует теории. Естественно, что двухчиповый Radeon оказался впереди ещё дальше.

Сравнение Fury X с платами от компании Nvidia интересно тем, что примерно такой же сложный GPU в Geforce GTX 980 Ti показал даже чуть большую скорость, а GTX 980 уступил новинке AMD совсем немного. Похоже, что мощнейшие видеокарты обеих компаний, основанные на чипах GM200 и Fiji просто упираются во что-то, что не дает им возможности показать актуальный результат — тест банально слишком прост в точки зрения математических вычислений. Впрочем, основной вывод остается прежним: обновление архитектуры Nvidia с Kepler до Maxwell привело к тому, что новые чипы компании в таких тестах приблизились к конкурирующим решениям от AMD.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нем только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Во втором математическом тесте из нашего RigthMark мы видим несколько иные результаты видеокарт относительно друг друга. Новая модель Fury X в этот раз уже на 19% опережает Radeon R9 290X, основанную на старом чипе графической архитектуры GCN 1.1, а двухчиповый Radeon заметно быстрее их обоих. Разница между Hawaii и Fiji маловата и в этот раз, что-то мешает новинке раскрыть свои возможности.

В этот раз Radeon R9 Fury X оказался на 2% быстрее конкурирующей видеокарты Geforce GTX 980 Ti, хотя теоретическая разница между ними заметно больше. Возможно, дело в менее эффективном исполнении этой конкретной задачи. Ну и в любом случае, с выпуском графических процессоров GM204 и GM200 компания Nvidia сделала довольно большой скачок по математической производительности.

Direct3D 10: тесты геометрических шейдеров

В составе пакета RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трех уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS близкое к двукратному. Задача эта для мощных современных видеокарт очень простая, и производительность в ней ограничена скоростью обработки геометрии, а иногда и пропускной способностью памяти и/или филлрейтом.

Разница между результатами видеокарт на чипах AMD и Nvidia явно в пользу решений калифорнийской компании, и, скорее всего, она обусловлена отличиями в геометрических конвейерах чипов этих компаний. В тестах геометрии платы Geforce всегда конкурентоспособнее Radeon, и в данном случае хорошо заметно, что топовые видеочипы Nvidia имеют много блоков по обработке геометрии, поэтому и выигрывают с заметным преимуществом.

Но, надо отметить, что новая модель Radeon R9 Fury X, основанная на графическом процессоре Fiji, в первом же геометрическом тесте показала свою силу, оказавшись на 33-51% быстрее Radeon R9 290X, основанной на Hawaii. Результат очень неплохой, оптимизация геометрического конвейера в новом GPU явно удалась!

Новинка близка к Geforce GTX 980, хотя и отстаёт от старшего конкурента почти наполовину. Из всех Radeon только R9 295X2 показывает результаты, близкие к Geforce, так как эта модель основана на паре GPU и имеет вдвое больше геометрических блоков. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры изменились незначительно и для плат AMD и для решений Nvidia. И это ничего особенно не меняет. Видеокарты в этом тесте геометрических шейдеров слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и выводы остаются неизменными.

К сожалению, «Hyperlight» — второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load, в котором используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output, на всех современных видеокартах компании AMD просто не работает. В какой-то момент очередное обновление драйверов Catalyst привело к тому, что данный тест перестал запускаться на платах этой компании, и это не исправлено вот уже несколько лет.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Наши предыдущие исследования показали, что на результаты этого теста может влиять и филлрейт и пропускная способность памяти, что видно по результатам плат Nvidia в простых режимах — они показывают скорость явно ниже, чем должны бы — обе платы Geforce оказываются примерно на одном уровне, что явно не соответствует теории. Похоже, что все они во всех режимах упираются во что-то. У Radeon R9 295X2 тоже есть схожие проблемы — возможно, нагрузка на GPU в этом тесте слишком слаба.

Удивительно, но новая одночиповая плата от компании AMD в этот раз оказалась даже медленнее своей одночиповой предшественницы в виде Radeon R9 290X, уступив ей до 16%! Это явно нельзя объяснить какими-то теоретическими показателями, потому что новинка по всем параметрам сильнее предшествующей модели. Мы можем пенять разве что на недостаток оптимизации в драйверах, который не позволил новинке показать свои возможности в этом тесте.

В итоге Fury X близка к платам Nvidia в среднем режиме, проигрывает в тяжёлом и опережает пару Geforce GTX 980 Ti и GTX 980 в самом лёгком. Посмотрим на производительность представленных в сравнении видеокарт в этом же тесте, но с увеличенным количеством текстурных выборок:

Ситуация на диаграмме очень сильно изменилась, так как устаревшее одночиповое решение компании AMD предыдущего поколения потеряло значительно больше всех остальных, особенно в тяжелых режимах. Новая модель Radeon R9 Fury X показала скорость до 22% быстрее, чем Radeon R9 290X, и даже двухчиповая карта в тяжёлых условиях ушла вперёд не слишком далеко. Geforce GTX 980 и GTX 980 Ti уступили новой Fury X разве что в лёгком режиме, выиграв у новой Radeon в двух из трёх режимов, кроме самого лёгкого, в котором наблюдаем всё тот же упор во что-то непонятное.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нем используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» и похожи, и не похожи на то, что мы видели на предыдущих диаграммах. Скоростные показатели пары Geforce в этом тесте довольно слабы, и новая модель AMD Radeon R9 Fury X оказывается быстрее GTX 980 и GTX 980 Ti. А если сравнивать новинку с собратьями на чипах Hawaii, то новая плата Radeon R9 Fury X в этот раз снова не смогла показать производительность выше Radeon R9 290X в этом тесте во всех режимах, уступив старой модели до 14%. Рассмотрим второй вариант этой же задачи:

С усложнением задачи во втором тесте текстурных выборок скорость всех решений стала ниже, но видеокарты Nvidia пострадали даже ещё сильнее. Правда, в выводах мало что меняется, платы Radeon в этот раз снова впереди. Новая модель Radeon оказалась до 10% медленнее предшественницы на основе одного чипа Hawaii, что совсем далеко от теоретической максимальной разницы по любым из показателей. С точки зрения теории это нельзя объяснить чем-то другим, кроме недостаточной программной оптимизации.

3DMark Vantage: тесты Feature

Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10, до сих пор актуальны и интересны тем, что отличаются от наших. При анализе результатов новейшей видеокарты модели Radeon R9 Fury X в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.

Feature Test 1: Texture Fill

Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Эффективность видеокарт AMD и Nvidia в текстурном тесте компании Futuremark достаточно высока и итоговые цифры разных моделей близки к соответствующим теоретическим параметрам. Разница в скорости между Radeon R9 Fury X и R9 290X получилась равной 56% в пользу более свежего решения на базе чипа Fiji, что близко к теории. Да и отставание от двухчиповой модели Radeon R9 295X2 оказалось совсем небольшим — сказывается значительное увеличение количества блоков TMU в новом GPU.

Что касается сравнения скорости текстурирования новой топовой видеоплаты от компании AMD с имеющимися решениями конкурента, то новинка по понятным причинам заметно быстрее всех Geforce, ведь GTX 980 Ti по скорости текстурирования всего лишь чуть-чуть быстрее Radeon R9 290X — с текстурированием видеокарты компании AMD до сих пор справляются куда лучше плат Nvidia.

Feature Test 2: Color Fill

Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Значения производительности во втором подтесте 3DMark Vantage показывают скорость блоков ROP без учёта величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»), и тест измеряет именно производительность этой подсистемы. Рассматриваемая нами сегодня плата Radeon R9 Fury X на новом чипе Fiji просто разорвала предшественницу Radeon R9 290X, основанную на Hawaii, и даже двухчиповый Radeon остался далеко позади! Тест измеряет не только количество блоков ROP, но и эффективность их работы. И улучшения блоков ROP в Fiji действительно заметны, так как по пиковым значениям подобного преимущества у новинки нет даже близко.

Если сравнивать скорость заполнения сцены новой видеокартой Radeon R9 Fury X с видеокартами компании Nvidia, то рассматриваемая нами сегодня плата в этом тесте показывает лучшую скорость заполнения сцены даже по сравнению с мощнейшей платой Geforce GTX 980 Ti, не говоря уже о более слабой модели. Интересно, что большое количество блоков ROP в этом тесте оказалось не слишком важным, а вот оптимизации подсистемы в т.ч. в виде новых методов сжатия данных буфера кадра привносят куда больший эффект — отличная работа инженеров AMD!

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss.

Этот тест из пакета 3DMark Vantage отличается от проведенных нами ранее тем, что результаты в нем зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен верный баланс GPU, а также эффективность выполнения сложных шейдеров.

В данном случае, важны и математическая и текстурная производительность, и в этой «синтетике» из 3DMark Vantage новая плата Radeon R9 Fury X оказалась на 50% быстрее модели R9 290X, основанной на базе графического процессора предыдущего поколения — Hawaii, и это очень близко к теоретической разнице. Двухчиповая видеокарта Radeon выиграла у новинки, что также вполне объяснимо. Новая одночиповая топовая плата AMD элитной серии Fury в этом тесте также показала результат заметно лучше конкурирующих плат, которые серьёзно отстали от Radeon R9 Fury X и в этот раз.

Feature Test 4: GPU Cloth

Четвертый тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте также зависит сразу от нескольких параметров, но основными факторами влияния в этот раз должны являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. То есть, сильные стороны чипов Nvidia должны были проявиться, но увы — мы снова видим сверхстранный результат, когда более мощная видеокарта Nvidia уступает в этом подтесте всем решениям, даже младшей Geforce GTX 980. Да и разница между Radeon R9 Fury X и R9 290X оказалась равной всего лишь 2% — получается, что никакого толка все оптимизации и увеличение количества исполнительных блоков не принесли.

Ну хоть сравнение с платами Nvidia Geforce в этом тесте для новинки приятное — несмотря на теоретически меньшее количество геометрических исполнительных блоков и отставание по геометрической производительности чипов AMD, по сравнению с конкурирующими решениями, платы Radeon в этом тесте работают весьма эффективно и обгоняют все видеокарты Geforce, представленные в сравнении. Очень похоже на недостаточно эффективное выполнение кода и отсутствие оптимизации в драйверах Nvidia под эту конкретную задачу.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out.

Во втором «геометрическом» тесте из 3DMark Vantage ситуация иная, хотя она всё равно довольно далека от того, что должно быть по теории. В этот раз представленная недавно одночиповая плата Radeon R9 Fury X оказалась быстрее R9 290X на треть, что более-менее близко к теоретическим показателям. Ну и уступила двухчиповой Radeon, что понятно.

Сравнение новинки AMD с конкурирующими видеокартами от компании Nvidia в этот раз нейтральное — Fury X показала результат явно быстрее Geforce GTX 980, и почти ровно на том же уровне, что и самая мощная одночиповая видеокарта компании-соперника из игровой серии (у них есть ещё GTX Titan X). Такая разница показывает нам, насколько могут отличаться два вроде бы схожих теста.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений.

В этом случае производительность решений не полностью соответствует теории, хотя и близка к тому, что мы видели в аналогичных тестах. В математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим распределение результатов, отличающееся по сравнению со схожими тестами из нашего тестового пакета.

Видеочипы компании AMD с архитектурой GCN справляются с подобными задачами лучше решений конкурента в случаях, когда выполняется интенсивная «математика», касается это и данного подтеста. Но топовая модель компании Nvidia, основанная на большом и сложном графическом процессоре GM200, немного подтянулась к решениям предыдущего поколения от компании AMD, показав результат заметно выше Radeon R9 290X.

Долго это лидерство не продержалось, Radeon R9 Fury X оказалась на целых 71% быстрее предшественницы на чипе Hawaii, и на 44% обогнала Geforce GTX 980 Ti! Удивительная разница, не слишком объяснимая с теоретической точки зрения — такой разницы в эффективности между Fiji и Hawaii мы не ожидали. Возможно, виной тому лучшая программная оптимизация в драйверах для нового GPU, ведь архитектура GCN существует уже несколько лет и из неё выжаты все соки. В любом случае, по математической производительности новая одночиповая модель Radeon стала лучшей.

Direct3D 11: Вычислительные шейдеры

Чтобы протестировать недавно выпущенное топовое решение компании AMD в задачах, использующих такие возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.

Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.

Скорость расчетов в вычислительном и пиксельном шейдерах для всех плат AMD и Nvidia приблизительно одинаковая, хотя у видеокарт на основе GPU предыдущих архитектур наблюдались некоторые отличия. Судя по нашим предыдущим тестам, результаты в задаче часто зависят не столько от математической мощи и эффективности вычислений, сколько от других факторов, вроде пропускной способности памяти и эффективности блоков ROP.

В данном случае, новая видеокарта AMD опережает все одночиповые платы, в том числе Geforce GTX 980 Ti и Radeon R9 290X, и почти не отстаёт от двухчиповой Radeon. Разница между Radeon R9 Fury X и R9 290X оказалась равна 47-57%, в зависимости от условий, что близко к теории. Переходим ко второму тесту вычислительных шейдеров, который также взят из Microsoft DirectX SDK. В нём показана расчетная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют такие физические силы, как гравитация.

В данном тесте чаще всего отмечается упор в скорость исполнения сложных математических вычислений, обработки геометрии и эффективность выполнения кода с ветвлениями. И в этом DX11-тесте расклад сил между решениями двух разных компаний получился совершенно иной, по сравнению с любым другим тестом из предыдущих — и он явно в пользу видеоплат Geforce. Которые далеко впереди, примерно вдвое быстрее лучшего решения компании AMD. Похоже, что данная задача заметно эффективнее рассчитывается на графических процессорах архитектуры Maxwell.

Кстати, среди всех Radeon быстрейшей стала именно новинка, основанная на графическом процессоре Fiji, имеющем более чем наполовину лучшие показатели математической производительности. С учётом того, что двухчиповый рендеринг на Radeon R9 295X2 не работает, опережение новинкой пары старых Radeon на 46% оказывается довольно близко к теоретической разнице между ними по производительности ALU.

Direct3D 11: Производительность тесселяции

Ещё одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали ее в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro Last Light, Civilization V, Crysis 3, Battlefield 3 и более новых. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.

Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.

Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нем реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:

В тесте простого бампмаппинга скорость плат не так уж важна, так как эта задача является слишком легкой для топовых GPU, а производительность в ней упирается в филлрейт. Поэтому все видеокарты Radeon показали близкие результаты, хотя сегодняшний герой обзора немного уступил обеим платам на базе чипов Hawaii. Впрочем, главный конкурент в виде Geforce GTX 980 Ti оказался ещё слабее, не говоря про GTX 980.

Во втором подтесте с более сложными попиксельными расчетами новинка показала отличную скорость, опередив модель Radeon R9 290X на основе чипа Hawaii почти наполовину, что близко к теоретической разнице между их показателями. Разница между GTX 980 Ti и Fury X в этот раз в пользу топовой платы AMD, причём разница очень большая. По сравнению с конкурентом на базе чипа GM200, новинка в лице Fury X оказалась быстрее на 38%. Эффективность выполнения математических вычислений в пиксельных шейдерах у чипов архитектуры GCN всё ещё выше, даже выход самых мощных решений архитектуры Maxwell не изменил этого.

В подтесте с применением лёгкой степени тесселяции, недавно анонсированная плата AMD выступила на 13% лучше предшествующей модели Radeon R9 290X, уступив только двухчиповой R9 295X2. Если сравнивать новинку с платами Nvidia в этом подтесте, то новая видеокарта Fury X опережает их. Так как в этом тесте тесселяции разбиение треугольников весьма умеренное, и геометрическая производительность не ограничивает общую скорость рендеринга, то Fury X оказалась быстрее Geforce GTX 980 Ti примерно на столько же, насколько она быстрее платы на чипе Hawaii.

Вторым тестом производительности тесселяции является еще один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.

В этом тесте применяется уже в том числе более сложная геометрия, поэтому и сравнение геометрической мощи различных решений приносит другие выводы. Все представленные в материале решения достаточно хорошо справляются с легкой и средней геометрической нагрузкой, показывая достаточно высокую скорость. Но хотя в лёгких условиях графические процессоры Hawaii и Fiji в составе Radeon отлично работают, в двух тяжёлых режимах платы Nvidia выходят вперёд. И в самом сложном режиме новая плата модели Radeon R9 Fury X оказалась заметно хуже конкурентов, что не стало новостью для нас.

Что касается сравнения плат AMD на чипах Fiji и Hawaii между собой, то рассматриваемая сегодня модель Radeon R9 Fury X оказалась немного медленнее одночипового аналога из предыдущего поколения в виде R9 290X — почему-то все оптимизации геометрического конвейера в этом конкретном тесте не работают вовсе. И хотя R9 290X теряет с ростом геометрической нагрузки чуть больше, даже в самом тяжёлом режиме новинка оказывается лишь на одном уровне с одночиповой платой на основе Hawaii.

Рассмотрим результаты еще одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта.

Тест Island является одним из самых интересных. Он не является чисто синтетическим тестом для измерения исключительно геометрической производительности GPU, так как он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются все блоки GPU, а не только геометрические, как в предыдущих тестах геометрии. Хотя основной все равно остается именно нагрузка на блоки обработки геометрии, но на результат может влиять и та же ПСП, например.

Мы тестируем все видеоплаты при четырех разных коэффициентах тесселяции — в данном случае настройка называется Dynamic Tessellation LOD. При первом коэффициенте разбиения треугольников, скорость не ограничена производительностью геометрических блоков, и видеокарты Radeon показывают довольно высокие результаты, близкие к показателям Geforce или превышающие их. Но уже на следующих ступенях геометрической нагрузки производительность платы Radeon серьёзно снижается, и решения Nvidia выходят вперёд.

Отставание новой платы компании AMD на видеочипе Fiji от соперников в виде плат Geforce в таких тестах многократное — ничего особенно не изменилось, хотя графический процессор Fiji заметно эффективнее работает в режиме смешанной нагрузки, быстро переключаясь от исполнения графических задач к вычислительным и обратно. Но хотя Fury X и выигрывает у R9 290X до двух раз в этом тесте, это не помогает ему догнать Geforce GTX 980 Ti и GTX 980, что вполне объяснимо по теории.

А вот сравнение Fury X с R9 290X и даже R9 295X2 в этом тесте очень интересное — разница между одночиповыми видеоплатами на базе разных графических процессоров растёт с увеличением нагрузки и составляет от 44% до 100%! Улучшения в геометрическом конвейере Fiji, большая математическая и текстурная производительность нового чипа, а также его более эффективная работа в режиме смешанной нагрузки привела к преимуществу над платой на основе одного чипа Hawaii, а в самом сложном режиме новинка и вовсе почти догнала двухчиповый Radeon R9 295X2 — отличный результат для нового графического процессора AMD!

***

Исходя из результатов синтетических тестов новой видеокарты верхнего ценового дипазона модели AMD Radeon R9 Fury X, основанной на новом графическом процессоре Fiji, а также результатам других моделей видеокарт от обоих производителей дискретных видеочипов, можно сделать вывод о том, что рассматриваемая сегодня видеокарта должна стать одним из самых производительных одночиповых решений — у Geforce GTX 980 Ti появился отличный конкурент.

Новая видеокарта компании AMD показывает сильные результаты практически во всех синтетических тестах и по сравнению с платами Radeon предыдущих поколений, и по сравнению с лучшими из Geforce. Хотя у видеоплат Radeon и Geforce традиционно разные сильные стороны, в некоторых тестах Radeon R9 Fury X весьма силён, ведь GPU компании AMD отличаются очень эффективным исполнением вычислительных задач, а в других случаях уже топовый графический процессор архитектуры Maxwell от Nvidia побеждает, особенно в геометрических тестах с применением тесселяции.

В реальных же игровых приложениях всё будет несколько иначе, ведь нагрузка на исполнительные блоки в них отличается от «синтетической», и Radeon Fury X должен показать в играх скорость примерно на уровне одночиповых топовых решений вроде Geforce GTX 980 Ti. А предшествующие видеокарты типа Radeon R9 290X под новыми именами перешли в ценовой диапазон на ступеньку ниже.

Как раз для того, чтобы оценить скорость новинки в игровых приложениях по сравнению с конкурентами, в следующей части нашего материала мы определим производительность Radeon R9 Fury X в нашем наборе игровых тестов и сравним показатели. Предполагаем, что по игровой 3D-производительности новинка вполне может стать не просто одной из лучших видеоплат, но и одним из самых интересных решений топового сегмента.



Средняя текущая цена (количество предложений) в московской рознице:
Рассматриваемые карты Конкуренты
R9 Fury X — 28 700  (на 03.08.17) R9 290X — $431(33)
R9 Fury X — 28 700  (на 03.08.17) GTX 980 Ti — 32 000  (на 22.06.17)
R9 Fury X — 28 700  (на 03.08.17) GTX Titan X — 62 000  (на 01.03.17)


Благодарим компанию AMD Russia
и лично Кирилла Погорелова
за предоставленную на тестирование видеокарту

2 блока питания Thermaltake DPS G 1050W/Амур 1200 для тестового стенда предоставлены компанией Thermaltake

Корпус Corsair Obsidian 800D Full Tower для тестового стенда предоставлен компанией Corsair

Модули памяти Corsair Vengeance CMZ16GX3M4X1600C9 для тестового стенда предоставлены компанией Corsair

Corsair Hydro SeriesT H100i CPU Cooler для тестового стенда предоставлен компанией Corsair

Монитор Dell UltraSharp U3011 для тестовых стендов предоставлен компанией Юлмарт

Системная плата Asus Sabertooth X79 для тестового стенда предоставлена компанией Asustek

Системная плата MSI X79A-GD45(8D) для тестового стенда предоставлена компанией MSI

Жесткий диск Seagate Barracuda 7200.14 3 ТБ для тестового стенда предоставлен компанией Seagate

Накопитель SSD OCZ Octane 512 ГБ для тестового стенда предоставлен компанией OCZ Russia

2 накопителя SSD Corsair Neutron SeriesT 120 ГБ для тестового стенда предоставлены компанией Corsair

Монитор Asus ProArt PA249Q для рабочего компьютера предоставлен компанией Asustek

Клавиатура Cougar 700K для рабочего компьютера предоставленa компанией Cougar




Дополнительно

Обзор видеоускорителя AMD Radeon R9 Fury X. Часть 2: видеообзор, особенности карты

Видеоускоритель AMD Radeon R9 Fury X

Часть 2: видеообзор, особенности карты

Содержание

Данная часть знакомит читателей с особенностями видеокарты.

Видеообзор

Для начала предлагаем посмотреть наш видеообзор ускорителя AMD Radeon R9 Fury X:

Наш видеообзор ускорителя AMD Radeon R9 Fury X можно также посмотреть на filmdepo.ru

Теперь давайте взглянем на спецификации устройства.

Устройство(а)


AMD Radeon R9 Fury X 4096 МБ 4096-битной HBM PCI-E
ПараметрЗначениеНоминальное значение (референс)
GPURadeon R9 Fury X (Fiji)
ИнтерфейсPCI Express x16
Частота работы GPU (ROPs), МГц10501050
Частота работы памяти (физическая (эффективная)), МГц500 (1000)500 (1000)
Ширина шины обмена с памятью, бит4096
Число вычислительных блоков в GPU64
Число операций (ALU) в блоке64
Суммарное количество блоков ALU4096
Число блоков текстурирования (BLF/TLF/ANIS)256
Число блоков растеризации (ROP)64
Размеры, мм190×100×35 плюс внешний блок охлаждения190×100×35 плюс внешний блок охлаждения
Количество слотов в системном блоке, занимаемые видеокартой22
Цвет текстолитачерныйчерный
ЭнергопотреблениеПиковое в 3D, Вт277277
В режиме 2D, Вт8888
В режиме «сна», Вт33
Уровень шумаВ режиме 2D, дБА36.536.5
В режиме 2D (просмотр видео), дБА36.536.5
В режиме максимального 3D, дБА4040
Выходные гнезда1×HDMI 1.4a, 3×DisplayPort 1.21×HDMI 1.4a, 3×DisplayPort 1.2
Поддержка многопроцессорной работыCrossFire
Максимальное количество приемников/мониторов для одновременного вывода изображения44
Дополнительное питание: количество 8-контактных разъемов22
Дополнительное питание: количество 6-контактных разъемовНетНет
Максимальное разрешение 2DDisplay Port4096×2160
HDMI4096×2160
Максимальное разрешение 3DDisplay Port4096×2160
HDMI4096×2160

Комплектация локальной памятью
Картa имеeт 4096 МБ памяти HBM DRAM, размещенной в 4 микросхемах по 8 Гбит в единой упаковке с GPU.

Микросхемы памяти SK Hynix (HBM). Микросхемы рассчитаны на максимальную частоту работы в 500 (1000) МГц.

Сравнение с эталонным дизайном (reference)
Вид спереди
AMD Radeon R9 Fury X 4096 МБ 4096-битной HBM PCI-E Reference card AMD Radeon R9 290X
Вид сзади
AMD Radeon R9 Fury X 4096 МБ 4096-битной HBM PCI-E Reference card AMD Radeon R9 290X

Очевидно, что новая архитектура Fiji с интегрированной в одну упаковку с GPU памятью HBM привела к сильному изменению привычного для нас дизайна PCB. Мы сравниваем с Radeon R9 290X, потому что до сего момента именно этот ускоритель был однопроцессорным флагманом компании AMD. Представленные карты отличаются шинами обмена с памятью в 8 (!) раз: 512 бит у R9 290X и 4096 бит у R9 Fury X. Интеграция GPU и памяти в один чип позволила резко сократить размеры PCB, ведь там по сути остались только блок питания и гнезда вывода изображения.

Схема питания 6-фазная, управляется цифровым контроллером. На верхнем торце PCB есть микропереключатель для возможности аварийной загрузки в случае неудачного обновления BIOS. На обороте карте имеются два других микропереключателя для регулирования подсветки GPU Tach.

Стоит также обратить внимание на то, что больше нет гнезд вывода DVI, потому что данный ускоритель позиционируется для сверхвысоких разрешений типа 4К, а также отчасти потому, что все современные мониторы уже имеют входы HDMI/DP.

Система охлаждения
Ускоритель оснащен жидкостной системой охлаждения (ЖСО) производства Cooler Master. К центральному чипу прижимается медная площадка, объединенная с помпой и каналом для прокачки особой жидкости по системе шлангов, при этом жидкость проходит через решетчатый радиатор, оснащенный 120-миллиметровым вентилятором. Питание для вентилятора подается по проводу, идущему вдоль одного из шлангов к видеокарте, поэтому потребителю ничего не надо подключать, кроме питания для самого ускорителя.

Учитывая, что микросхемы памяти расположены в одной упаковке с ядром, они также охлаждаются этой ЖСО. Имеется дополнительная пластина-радиатор, припаянная к вышеупомянутой медной пластине-подошве. Эта пластина охлаждает силовые транзисторы системы питания.

Карта реализует «технологию» GPU Tach: на оборотной стороне платы есть ряд из 8+1 светодиодов, которые демонстрируют загруженность GPU (8 градаций — 8 светодиодов). Девятый светодиод зеленого цвета предназначен для демонстрации ухода карты в спящий режим. Особыми микропереключателями на оборотной стороне карты можно регулировать эту подсветку: включать/выключать или менять цвет (красный/синий). На торце СО имеется подсвеченный логотип серии Radeon.

После 6-часового прогона под нагрузкой максимальная температура GPU не превысила 48 градусов, что является отличным результатом для такого рода ускорителей.
Мониторинг температурного режима с помощью MSI Afterburner (автор А. Николайчук AKA Unwinder)

Методика измерения шума

  • Помещение шумоизолировано и заглушено, снижены реверберации.
  • Системный блок, в котором исследовался шум видеокарт, не имеет вентиляторов, не является источником механического шума.
  • Фоновый уровень 20 дБА — это уровень шума в комнате и уровень шумов собственно шумомера.
  • Измерения проводились на расстоянии 50 см от видеокарты на уровне системы охлаждения.
  • Режимы измерения:
    1. Режим простоя в 2D: загружен интернет-браузер с сайтом iXBT.com, окно Microsoft Word, ряд интернет-коммуникаторов.
    2. Режим 2D с просмотром фильмов: используется SmoothVideo Project (SVP) — аппаратное декодирование со вставкой промежуточных кадров.
    3. Режим 3D с максимальной нагрузкой на ускоритель: используется тест FurMark.

В режиме простоя в 2D вентилятор внешнего радиатора работал на частоте 950 оборотов в минуту, при этом температура графического ядра не поднималась выше 28 градусов, а шум был равен 36,5 дБА, так как работающая помпа постоянно издавала некий звенящий звук.

При просмотре фильма с аппаратным декодированием температура графического ядра медленно вырастала до 34 градусов, обороты вентилятора и шум оставались на тех же уровнях.

В режиме максимальной нагрузки в 3D температура достигала уровня 48 °C, частота вращения вентилятора — чуть более 1090 оборотов в минуту, шум вырастал до 40 дБА. Можно сказать, что карта весьма шумная, главным образом из-за гудения помпы. (Перед самым анонсом мы получили информацию от AMD, что они в курсе проблемы с шумом помпы и заверяют, что это справедливо только для первой партии, из которой журналистам были предоставлены тестовые образцы. В продажу должны поступить карты уже с тихой помпой. Также следует учитывать, что поставлять в розницу эти карты будут партнеры AMD, которые имеют право менять ЖСО.)

Комплектация. Мы изучали референс-образец AMD, поэтому…
Комплекта по сути нет (кроме винтов для крепления радиатора охлаждения).

Упаковка номинальная, в продаже будут видеокарты партнеров AMD в упаковках собственного дизайна.

Установка и драйверы

Конфигурация тестового стенда

  • Компьютеры на базе процессора Intel Core i7-3960X (Socket 2011):
    • 2 процессора Intel Core i7-3960X (o/c 4 ГГц);
    • СО Hydro SeriesT H100i Extreme Performance CPU Cooler;
    • СО Intel Thermal Solution RTS2011LC;
    • системная плата Asus Sabertooth X79 на чипсете Intel X79;
    • системная плата MSI X79A-GD45(8D) на чипсете Intel X79;
    • оперативная память 16 ГБ DDR3 Corsair Vengeance CMZ16GX3M4A1600C9 1600 МГц;
    • жесткий диск Seagate Barracuda 7200.14 3 ТБ SATA3;
    • жесткий диск WD Caviar Blue WD10EZEX 1 TБ SATA3;
    • 2 SSD Corsair Neutron SSD CSSD-N120GB3-BK;
    • блок питания Thermaltake Амур 1200 (1200 Вт);
    • блок питания Thermaltake Toughpower DPS G 1050W (1050 Вт);
    • корпус Corsair Obsidian 800D Full Tower.
  • операционная система Windows 7 64-битная; DirectX 11.1;
  • монитор Samsung U28D590D (28″);
  • монитор Asus ProArt PA249Q (24″);
  • клавиатура Cougar 700K;
  • драйверы AMD версии 15.15-180612a-18565BE (полученные от AMD 18 июня),
  • драйверы Nvidia версии 352.86 (для GTX 980 Ti — 352.90)
  • VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационную программу Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010). Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain, также известная, как Island11.

Синтетические тесты проводились на следующих видеокартах:

  • Radeon R9 Fury X со стандартными параметрами (сокращенно R9 Fury X)
  • Radeon R9 295X2 со стандартными параметрами (сокращенно R9 295X2)
  • Radeon R9 290X со стандартными параметрами (сокращенно R9 290X)
  • Geforce GTX 980 Ti со стандартными параметрами (сокращенно GTX 980 Ti)
  • Geforce GTX 980 со стандартными параметрами (сокращенно GTX 980)

Для анализа производительности новой топовой видеокарты Radeon R9 Fury X были выбраны именно эти решения по следующим причинам. Radeon R9 290X является аналогичным одночиповым решением компании AMD из верхнего ценового диапазона, но предыдущей линейки. А двухчиповая видеокарта Radeon R9 295X2 нами взята исключительно для ориентира — такое сравнение покажет, насколько новинка приблизилась к мощности пары GPU в самой мощной модели предыдущего поколения.

От конкурирующей компании Nvidia для нашего сравнения мы также выбрали пару видеокарт, выпущенных в разное время: одна вышла еще в прошлом году, а вторая — прямо перед анонсом Fury X. Платы Geforce основаны на графических процессорах архитектуры Maxwell, но модели чипов разные: GM204 и GM200, а соответственно, отличается и их мощность. Реальным конкурентом по цене для Radeon R9 Fury X от AMD является Geforce GTX 980 Ti, но и несколько менее мощная видеокарта конкурента также будет интересна, особенно в связи с выходом модели R9 Fury, которую мы скоро рассмотрим в отдельном материале.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Какое-то время назад мы отказались от устаревших DirectX 9 тестов, так как сверхмощные решения вроде Radeon R9 Fury X показывают в них не слишком то показательные результаты, будучи всегда ограничены ПСП, филлрейтом или текстурированием. Не говоря уже о том, что двухчиповые видеокарты далеко не всегда корректно работают в таких приложениях.

Во вторую версию RightMark3D вошли два уже знакомых нам теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также еще два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нем используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность видеокарт в этом тесте зависит от количества и эффективности блоков TMU, влияет также и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает еще и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low», в зависимости от модели видеокарты.

В задачах процедурной визуализации меха с большим количеством текстурных выборок, компания AMD перехватила лидерство ещё с выпуском первых видеочипов на базе архитектуры GCN. Именно платы Radeon и по сей день являются лучшими в этих сравнениях, что говорит о большей эффективности выполнения ими этих программ. Вывод подтверждается и сегодняшним сравнением — рассматриваемая видеокарта Fury X оказалась быстрее всех одночиповых решений AMD и Nvidia.

Правда, в первом Direct3D 10 тесте новая видеоплата оказалась лишь на 4-14% быстрее своей предшественницы в лице Radeon R9 290X, и много уступила двухчиповому варианту прошлого поколения. Похоже, скорость рендеринга в этом тесте упирается во что-то вроде пиковой производительности блоков ROP. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: в такой ситуации что-то должно измениться, и показатели эффективного филлрейта будут влиять меньше:

Действительно, в усложнённых условиях новая видеокарта модели Radeon R9 Fury X отрывается от R9 290X уже на 21-39%, что заметно ближе к теоретической разнице по математической и текстурной мощности. Да и двухчиповый Radeon R9 295X2 оторвался от новинки не так уж сильно. Рассматриваемая модель опережает конкурентов в виде Geforce GTX 980 и GTX 980 Ti еще сильнее, и даже мощнейший GM200 не позволил топовому решению Nvidia в столь сложных условиях быть близким к новой одночиповой плате Radeon — графические процессоры компании AMD в подобных вычислениях весьма сильны.

Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, давно используются во многих проектах, например в играх серий Crysis, Lost Planet и многих других. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип еще примерно в два раза — такой режим называется «High».

Диаграмма в целом схожа с предыдущей, также без включения суперсэмплинга, и в этот раз новая Radeon R9 Fury X оказалась быстрее R9 290X примерно на 9-18%, так что упор в производительность блоков ROP в этот раз явно меньше. А если брать сравнение с видеокартами Geforce, то новинка почти на четверть опережает старшую одночиповую модель текущего поколения от компании Nvidia. Посмотрим, что изменит включение суперсэмплинга:

При включении суперсэмплинга и самозатенения задача становится тяжелее, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьезное падение производительности. Разница между скоростными показателями протестированных видеокарт немного изменилась, хотя включение суперсэмплинга сказывается меньше, чем в предыдущем случае.

Графические решения AMD Radeon и в этом D3D10-тесте пиксельных шейдеров работают хоть и эффективнее конкурирующих плат Geforce, но разница между ними сократилась. Новая модель Radeon R9 Fury X на 30-34% быстрее устаревшей видеокарты на основе чипа Hawaii, и заметно медленнее двухчипового варианта. Зато она всё так же опережает обе Geforce во всех условиях, разница между ними достигает 28% даже если сравнивать новинку с самым мощным решением Nvidia, основанном на примерно настолько же сложном GPU.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов чаще всего соответствуют разнице по частотам и количеству вычислительных блоков, но лишь примерно, так как на результаты влияет и разная эффективность их использования в конкретных задачах, и оптимизация драйверов, и новейшие системы управления частотами и питанием, и даже упор в ПСП. Увы, но в случае теста Mineral, новая модель видеокарты Radeon R9 Fury X опережает предшествующую одночиповую модель аналогичного позиционирования всего лишь на 6%, что явно не соответствует теории. Естественно, что двухчиповый Radeon оказался впереди ещё дальше.

Сравнение Fury X с платами от компании Nvidia интересно тем, что примерно такой же сложный GPU в Geforce GTX 980 Ti показал даже чуть большую скорость, а GTX 980 уступил новинке AMD совсем немного. Похоже, что мощнейшие видеокарты обеих компаний, основанные на чипах GM200 и Fiji просто упираются во что-то, что не дает им возможности показать актуальный результат — тест банально слишком прост в точки зрения математических вычислений. Впрочем, основной вывод остается прежним: обновление архитектуры Nvidia с Kepler до Maxwell привело к тому, что новые чипы компании в таких тестах приблизились к конкурирующим решениям от AMD.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нем только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Во втором математическом тесте из нашего RigthMark мы видим несколько иные результаты видеокарт относительно друг друга. Новая модель Fury X в этот раз уже на 19% опережает Radeon R9 290X, основанную на старом чипе графической архитектуры GCN 1.1, а двухчиповый Radeon заметно быстрее их обоих. Разница между Hawaii и Fiji маловата и в этот раз, что-то мешает новинке раскрыть свои возможности.

В этот раз Radeon R9 Fury X оказался на 2% быстрее конкурирующей видеокарты Geforce GTX 980 Ti, хотя теоретическая разница между ними заметно больше. Возможно, дело в менее эффективном исполнении этой конкретной задачи. Ну и в любом случае, с выпуском графических процессоров GM204 и GM200 компания Nvidia сделала довольно большой скачок по математической производительности.

Direct3D 10: тесты геометрических шейдеров

В составе пакета RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трех уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS близкое к двукратному. Задача эта для мощных современных видеокарт очень простая, и производительность в ней ограничена скоростью обработки геометрии, а иногда и пропускной способностью памяти и/или филлрейтом.

Разница между результатами видеокарт на чипах AMD и Nvidia явно в пользу решений калифорнийской компании, и, скорее всего, она обусловлена отличиями в геометрических конвейерах чипов этих компаний. В тестах геометрии платы Geforce всегда конкурентоспособнее Radeon, и в данном случае хорошо заметно, что топовые видеочипы Nvidia имеют много блоков по обработке геометрии, поэтому и выигрывают с заметным преимуществом.

Но, надо отметить, что новая модель Radeon R9 Fury X, основанная на графическом процессоре Fiji, в первом же геометрическом тесте показала свою силу, оказавшись на 33-51% быстрее Radeon R9 290X, основанной на Hawaii. Результат очень неплохой, оптимизация геометрического конвейера в новом GPU явно удалась!

Новинка близка к Geforce GTX 980, хотя и отстаёт от старшего конкурента почти наполовину. Из всех Radeon только R9 295X2 показывает результаты, близкие к Geforce, так как эта модель основана на паре GPU и имеет вдвое больше геометрических блоков. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры изменились незначительно и для плат AMD и для решений Nvidia. И это ничего особенно не меняет. Видеокарты в этом тесте геометрических шейдеров слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и выводы остаются неизменными.

К сожалению, «Hyperlight» — второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load, в котором используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output, на всех современных видеокартах компании AMD просто не работает. В какой-то момент очередное обновление драйверов Catalyst привело к тому, что данный тест перестал запускаться на платах этой компании, и это не исправлено вот уже несколько лет.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Наши предыдущие исследования показали, что на результаты этого теста может влиять и филлрейт и пропускная способность памяти, что видно по результатам плат Nvidia в простых режимах — они показывают скорость явно ниже, чем должны бы — обе платы Geforce оказываются примерно на одном уровне, что явно не соответствует теории. Похоже, что все они во всех режимах упираются во что-то. У Radeon R9 295X2 тоже есть схожие проблемы — возможно, нагрузка на GPU в этом тесте слишком слаба.

Удивительно, но новая одночиповая плата от компании AMD в этот раз оказалась даже медленнее своей одночиповой предшественницы в виде Radeon R9 290X, уступив ей до 16%! Это явно нельзя объяснить какими-то теоретическими показателями, потому что новинка по всем параметрам сильнее предшествующей модели. Мы можем пенять разве что на недостаток оптимизации в драйверах, который не позволил новинке показать свои возможности в этом тесте.

В итоге Fury X близка к платам Nvidia в среднем режиме, проигрывает в тяжёлом и опережает пару Geforce GTX 980 Ti и GTX 980 в самом лёгком. Посмотрим на производительность представленных в сравнении видеокарт в этом же тесте, но с увеличенным количеством текстурных выборок:

Ситуация на диаграмме очень сильно изменилась, так как устаревшее одночиповое решение компании AMD предыдущего поколения потеряло значительно больше всех остальных, особенно в тяжелых режимах. Новая модель Radeon R9 Fury X показала скорость до 22% быстрее, чем Radeon R9 290X, и даже двухчиповая карта в тяжёлых условиях ушла вперёд не слишком далеко. Geforce GTX 980 и GTX 980 Ti уступили новой Fury X разве что в лёгком режиме, выиграв у новой Radeon в двух из трёх режимов, кроме самого лёгкого, в котором наблюдаем всё тот же упор во что-то непонятное.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нем используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» и похожи, и не похожи на то, что мы видели на предыдущих диаграммах. Скоростные показатели пары Geforce в этом тесте довольно слабы, и новая модель AMD Radeon R9 Fury X оказывается быстрее GTX 980 и GTX 980 Ti. А если сравнивать новинку с собратьями на чипах Hawaii, то новая плата Radeon R9 Fury X в этот раз снова не смогла показать производительность выше Radeon R9 290X в этом тесте во всех режимах, уступив старой модели до 14%. Рассмотрим второй вариант этой же задачи:

С усложнением задачи во втором тесте текстурных выборок скорость всех решений стала ниже, но видеокарты Nvidia пострадали даже ещё сильнее. Правда, в выводах мало что меняется, платы Radeon в этот раз снова впереди. Новая модель Radeon оказалась до 10% медленнее предшественницы на основе одного чипа Hawaii, что совсем далеко от теоретической максимальной разницы по любым из показателей. С точки зрения теории это нельзя объяснить чем-то другим, кроме недостаточной программной оптимизации.

3DMark Vantage: тесты Feature

Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10, до сих пор актуальны и интересны тем, что отличаются от наших. При анализе результатов новейшей видеокарты модели Radeon R9 Fury X в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.

Feature Test 1: Texture Fill

Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Эффективность видеокарт AMD и Nvidia в текстурном тесте компании Futuremark достаточно высока и итоговые цифры разных моделей близки к соответствующим теоретическим параметрам. Разница в скорости между Radeon R9 Fury X и R9 290X получилась равной 56% в пользу более свежего решения на базе чипа Fiji, что близко к теории. Да и отставание от двухчиповой модели Radeon R9 295X2 оказалось совсем небольшим — сказывается значительное увеличение количества блоков TMU в новом GPU.

Что касается сравнения скорости текстурирования новой топовой видеоплаты от компании AMD с имеющимися решениями конкурента, то новинка по понятным причинам заметно быстрее всех Geforce, ведь GTX 980 Ti по скорости текстурирования всего лишь чуть-чуть быстрее Radeon R9 290X — с текстурированием видеокарты компании AMD до сих пор справляются куда лучше плат Nvidia.

Feature Test 2: Color Fill

Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Значения производительности во втором подтесте 3DMark Vantage показывают скорость блоков ROP без учёта величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»), и тест измеряет именно производительность этой подсистемы. Рассматриваемая нами сегодня плата Radeon R9 Fury X на новом чипе Fiji просто разорвала предшественницу Radeon R9 290X, основанную на Hawaii, и даже двухчиповый Radeon остался далеко позади! Тест измеряет не только количество блоков ROP, но и эффективность их работы. И улучшения блоков ROP в Fiji действительно заметны, так как по пиковым значениям подобного преимущества у новинки нет даже близко.

Если сравнивать скорость заполнения сцены новой видеокартой Radeon R9 Fury X с видеокартами компании Nvidia, то рассматриваемая нами сегодня плата в этом тесте показывает лучшую скорость заполнения сцены даже по сравнению с мощнейшей платой Geforce GTX 980 Ti, не говоря уже о более слабой модели. Интересно, что большое количество блоков ROP в этом тесте оказалось не слишком важным, а вот оптимизации подсистемы в т.ч. в виде новых методов сжатия данных буфера кадра привносят куда больший эффект — отличная работа инженеров AMD!

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss.

Этот тест из пакета 3DMark Vantage отличается от проведенных нами ранее тем, что результаты в нем зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен верный баланс GPU, а также эффективность выполнения сложных шейдеров.

В данном случае, важны и математическая и текстурная производительность, и в этой «синтетике» из 3DMark Vantage новая плата Radeon R9 Fury X оказалась на 50% быстрее модели R9 290X, основанной на базе графического процессора предыдущего поколения — Hawaii, и это очень близко к теоретической разнице. Двухчиповая видеокарта Radeon выиграла у новинки, что также вполне объяснимо. Новая одночиповая топовая плата AMD элитной серии Fury в этом тесте также показала результат заметно лучше конкурирующих плат, которые серьёзно отстали от Radeon R9 Fury X и в этот раз.

Feature Test 4: GPU Cloth

Четвертый тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте также зависит сразу от нескольких параметров, но основными факторами влияния в этот раз должны являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. То есть, сильные стороны чипов Nvidia должны были проявиться, но увы — мы снова видим сверхстранный результат, когда более мощная видеокарта Nvidia уступает в этом подтесте всем решениям, даже младшей Geforce GTX 980. Да и разница между Radeon R9 Fury X и R9 290X оказалась равной всего лишь 2% — получается, что никакого толка все оптимизации и увеличение количества исполнительных блоков не принесли.

Ну хоть сравнение с платами Nvidia Geforce в этом тесте для новинки приятное — несмотря на теоретически меньшее количество геометрических исполнительных блоков и отставание по геометрической производительности чипов AMD, по сравнению с конкурирующими решениями, платы Radeon в этом тесте работают весьма эффективно и обгоняют все видеокарты Geforce, представленные в сравнении. Очень похоже на недостаточно эффективное выполнение кода и отсутствие оптимизации в драйверах Nvidia под эту конкретную задачу.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out.

Во втором «геометрическом» тесте из 3DMark Vantage ситуация иная, хотя она всё равно довольно далека от того, что должно быть по теории. В этот раз представленная недавно одночиповая плата Radeon R9 Fury X оказалась быстрее R9 290X на треть, что более-менее близко к теоретическим показателям. Ну и уступила двухчиповой Radeon, что понятно.

Сравнение новинки AMD с конкурирующими видеокартами от компании Nvidia в этот раз нейтральное — Fury X показала результат явно быстрее Geforce GTX 980, и почти ровно на том же уровне, что и самая мощная одночиповая видеокарта компании-соперника из игровой серии (у них есть ещё GTX Titan X). Такая разница показывает нам, насколько могут отличаться два вроде бы схожих теста.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений.

В этом случае производительность решений не полностью соответствует теории, хотя и близка к тому, что мы видели в аналогичных тестах. В математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим распределение результатов, отличающееся по сравнению со схожими тестами из нашего тестового пакета.

Видеочипы компании AMD с архитектурой GCN справляются с подобными задачами лучше решений конкурента в случаях, когда выполняется интенсивная «математика», касается это и данного подтеста. Но топовая модель компании Nvidia, основанная на большом и сложном графическом процессоре GM200, немного подтянулась к решениям предыдущего поколения от компании AMD, показав результат заметно выше Radeon R9 290X.

Долго это лидерство не продержалось, Radeon R9 Fury X оказалась на целых 71% быстрее предшественницы на чипе Hawaii, и на 44% обогнала Geforce GTX 980 Ti! Удивительная разница, не слишком объяснимая с теоретической точки зрения — такой разницы в эффективности между Fiji и Hawaii мы не ожидали. Возможно, виной тому лучшая программная оптимизация в драйверах для нового GPU, ведь архитектура GCN существует уже несколько лет и из неё выжаты все соки. В любом случае, по математической производительности новая одночиповая модель Radeon стала лучшей.

Direct3D 11: Вычислительные шейдеры

Чтобы протестировать недавно выпущенное топовое решение компании AMD в задачах, использующих такие возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.

Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.

Скорость расчетов в вычислительном и пиксельном шейдерах для всех плат AMD и Nvidia приблизительно одинаковая, хотя у видеокарт на основе GPU предыдущих архитектур наблюдались некоторые отличия. Судя по нашим предыдущим тестам, результаты в задаче часто зависят не столько от математической мощи и эффективности вычислений, сколько от других факторов, вроде пропускной способности памяти и эффективности блоков ROP.

В данном случае, новая видеокарта AMD опережает все одночиповые платы, в том числе Geforce GTX 980 Ti и Radeon R9 290X, и почти не отстаёт от двухчиповой Radeon. Разница между Radeon R9 Fury X и R9 290X оказалась равна 47-57%, в зависимости от условий, что близко к теории. Переходим ко второму тесту вычислительных шейдеров, который также взят из Microsoft DirectX SDK. В нём показана расчетная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют такие физические силы, как гравитация.

В данном тесте чаще всего отмечается упор в скорость исполнения сложных математических вычислений, обработки геометрии и эффективность выполнения кода с ветвлениями. И в этом DX11-тесте расклад сил между решениями двух разных компаний получился совершенно иной, по сравнению с любым другим тестом из предыдущих — и он явно в пользу видеоплат Geforce. Которые далеко впереди, примерно вдвое быстрее лучшего решения компании AMD. Похоже, что данная задача заметно эффективнее рассчитывается на графических процессорах архитектуры Maxwell.

Кстати, среди всех Radeon быстрейшей стала именно новинка, основанная на графическом процессоре Fiji, имеющем более чем наполовину лучшие показатели математической производительности. С учётом того, что двухчиповый рендеринг на Radeon R9 295X2 не работает, опережение новинкой пары старых Radeon на 46% оказывается довольно близко к теоретической разнице между ними по производительности ALU.

Direct3D 11: Производительность тесселяции

Ещё одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали ее в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro Last Light, Civilization V, Crysis 3, Battlefield 3 и более новых. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.

Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.

Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нем реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:

В тесте простого бампмаппинга скорость плат не так уж важна, так как эта задача является слишком легкой для топовых GPU, а производительность в ней упирается в филлрейт. Поэтому все видеокарты Radeon показали близкие результаты, хотя сегодняшний герой обзора немного уступил обеим платам на базе чипов Hawaii. Впрочем, главный конкурент в виде Geforce GTX 980 Ti оказался ещё слабее, не говоря про GTX 980.

Во втором подтесте с более сложными попиксельными расчетами новинка показала отличную скорость, опередив модель Radeon R9 290X на основе чипа Hawaii почти наполовину, что близко к теоретической разнице между их показателями. Разница между GTX 980 Ti и Fury X в этот раз в пользу топовой платы AMD, причём разница очень большая. По сравнению с конкурентом на базе чипа GM200, новинка в лице Fury X оказалась быстрее на 38%. Эффективность выполнения математических вычислений в пиксельных шейдерах у чипов архитектуры GCN всё ещё выше, даже выход самых мощных решений архитектуры Maxwell не изменил этого.

В подтесте с применением лёгкой степени тесселяции, недавно анонсированная плата AMD выступила на 13% лучше предшествующей модели Radeon R9 290X, уступив только двухчиповой R9 295X2. Если сравнивать новинку с платами Nvidia в этом подтесте, то новая видеокарта Fury X опережает их. Так как в этом тесте тесселяции разбиение треугольников весьма умеренное, и геометрическая производительность не ограничивает общую скорость рендеринга, то Fury X оказалась быстрее Geforce GTX 980 Ti примерно на столько же, насколько она быстрее платы на чипе Hawaii.

Вторым тестом производительности тесселяции является еще один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.

В этом тесте применяется уже в том числе более сложная геометрия, поэтому и сравнение геометрической мощи различных решений приносит другие выводы. Все представленные в материале решения достаточно хорошо справляются с легкой и средней геометрической нагрузкой, показывая достаточно высокую скорость. Но хотя в лёгких условиях графические процессоры Hawaii и Fiji в составе Radeon отлично работают, в двух тяжёлых режимах платы Nvidia выходят вперёд. И в самом сложном режиме новая плата модели Radeon R9 Fury X оказалась заметно хуже конкурентов, что не стало новостью для нас.

Что касается сравнения плат AMD на чипах Fiji и Hawaii между собой, то рассматриваемая сегодня модель Radeon R9 Fury X оказалась немного медленнее одночипового аналога из предыдущего поколения в виде R9 290X — почему-то все оптимизации геометрического конвейера в этом конкретном тесте не работают вовсе. И хотя R9 290X теряет с ростом геометрической нагрузки чуть больше, даже в самом тяжёлом режиме новинка оказывается лишь на одном уровне с одночиповой платой на основе Hawaii.

Рассмотрим результаты еще одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта.

Тест Island является одним из самых интересных. Он не является чисто синтетическим тестом для измерения исключительно геометрической производительности GPU, так как он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются все блоки GPU, а не только геометрические, как в предыдущих тестах геометрии. Хотя основной все равно остается именно нагрузка на блоки обработки геометрии, но на результат может влиять и та же ПСП, например.

Мы тестируем все видеоплаты при четырех разных коэффициентах тесселяции — в данном случае настройка называется Dynamic Tessellation LOD. При первом коэффициенте разбиения треугольников, скорость не ограничена производительностью геометрических блоков, и видеокарты Radeon показывают довольно высокие результаты, близкие к показателям Geforce или превышающие их. Но уже на следующих ступенях геометрической нагрузки производительность платы Radeon серьёзно снижается, и решения Nvidia выходят вперёд.

Отставание новой платы компании AMD на видеочипе Fiji от соперников в виде плат Geforce в таких тестах многократное — ничего особенно не изменилось, хотя графический процессор Fiji заметно эффективнее работает в режиме смешанной нагрузки, быстро переключаясь от исполнения графических задач к вычислительным и обратно. Но хотя Fury X и выигрывает у R9 290X до двух раз в этом тесте, это не помогает ему догнать Geforce GTX 980 Ti и GTX 980, что вполне объяснимо по теории.

А вот сравнение Fury X с R9 290X и даже R9 295X2 в этом тесте очень интересное — разница между одночиповыми видеоплатами на базе разных графических процессоров растёт с увеличением нагрузки и составляет от 44% до 100%! Улучшения в геометрическом конвейере Fiji, большая математическая и текстурная производительность нового чипа, а также его более эффективная работа в режиме смешанной нагрузки привела к преимуществу над платой на основе одного чипа Hawaii, а в самом сложном режиме новинка и вовсе почти догнала двухчиповый Radeon R9 295X2 — отличный результат для нового графического процессора AMD!

***

Исходя из результатов синтетических тестов новой видеокарты верхнего ценового дипазона модели AMD Radeon R9 Fury X, основанной на новом графическом процессоре Fiji, а также результатам других моделей видеокарт от обоих производителей дискретных видеочипов, можно сделать вывод о том, что рассматриваемая сегодня видеокарта должна стать одним из самых производительных одночиповых решений — у Geforce GTX 980 Ti появился отличный конкурент.

Новая видеокарта компании AMD показывает сильные результаты практически во всех синтетических тестах и по сравнению с платами Radeon предыдущих поколений, и по сравнению с лучшими из Geforce. Хотя у видеоплат Radeon и Geforce традиционно разные сильные стороны, в некоторых тестах Radeon R9 Fury X весьма силён, ведь GPU компании AMD отличаются очень эффективным исполнением вычислительных задач, а в других случаях уже топовый графический процессор архитектуры Maxwell от Nvidia побеждает, особенно в геометрических тестах с применением тесселяции.

В реальных же игровых приложениях всё будет несколько иначе, ведь нагрузка на исполнительные блоки в них отличается от «синтетической», и Radeon Fury X должен показать в играх скорость примерно на уровне одночиповых топовых решений вроде Geforce GTX 980 Ti. А предшествующие видеокарты типа Radeon R9 290X под новыми именами перешли в ценовой диапазон на ступеньку ниже.

Как раз для того, чтобы оценить скорость новинки в игровых приложениях по сравнению с конкурентами, в следующей части нашего материала мы определим производительность Radeon R9 Fury X в нашем наборе игровых тестов и сравним показатели. Предполагаем, что по игровой 3D-производительности новинка вполне может стать не просто одной из лучших видеоплат, но и одним из самых интересных решений топового сегмента.



Средняя текущая цена (количество предложений) в московской рознице:
Рассматриваемые карты Конкуренты
R9 Fury X — R9 290X —
R9 Fury X — GTX 980 Ti —
R9 Fury X — GTX Titan X —


Благодарим компанию AMD Russia
и лично Кирилла Погорелова
за предоставленную на тестирование видеокарту

2 блока питания Thermaltake DPS G 1050W/Амур 1200 для тестового стенда предоставлены компанией Thermaltake

Корпус Corsair Obsidian 800D Full Tower для тестового стенда предоставлен компанией Corsair

Модули памяти Corsair Vengeance CMZ16GX3M4X1600C9 для тестового стенда предоставлены компанией Corsair

Corsair Hydro SeriesT H100i CPU Cooler для тестового стенда предоставлен компанией Corsair

Монитор Dell UltraSharp U3011 для тестовых стендов предоставлен компанией Юлмарт

Системная плата Asus Sabertooth X79 для тестового стенда предоставлена компанией Asustek

Системная плата MSI X79A-GD45(8D) для тестового стенда предоставлена компанией MSI

Жесткий диск Seagate Barracuda 7200.14 3 ТБ для тестового стенда предоставлен компанией Seagate

Накопитель SSD OCZ Octane 512 ГБ для тестового стенда предоставлен компанией OCZ Russia

2 накопителя SSD Corsair Neutron SeriesT 120 ГБ для тестового стенда предоставлены компанией Corsair

Монитор Asus ProArt PA249Q для рабочего компьютера предоставлен компанией Asustek

Клавиатура Cougar 700K для рабочего компьютера предоставленa компанией Cougar