Та же конфета, но в новой обертке, и, кажется, вкуснее… ATI RADEON X1950 XTX (R580+)


Часть 2: Особенности видеокарты, синтетические тесты

«А в попугаях-то я гораздо длиннее!»
(С) м/ф «38 попугаев»

СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарты
  4. Конфигурации стендов, список тестовых инструментов
  5. Результаты синтетических тестов

Та же конфета, но в новой обертке, и, кажется, вкуснее… ATI RADEON X1950 XTX (R580+): Часть 1: Теоретические сведения


Та же конфета, но в новой обертке, и, кажется, вкуснее… ATI RADEON X1950 XTX (R580+): Часть 2: Особенности видеокарты и синтетические тесты

На базе обновленного процессора компания планирует выпустить две карты, которые будут полностью идентичны друг другу по частотам и объему памяти.

  • ATI RADEON X1950 XTX 512MB GDDR4, 650/2000 MHz, 48 pixel/8 vertex pipes/16 TMUs/16 ROPs — $449;
  • ATI RADEON X1950 CrossFire Edition 512MB GDDR4, 650/2000 MHz, 48 pixel/8 vertex pipes/16 TMUs/16 ROPs — $449;

В результате такого сильного снижения цен предыдущие решения также будут резко удешевлены: X1900 XTX до 399 долларов США, X1900 XT до 299 долларов, а затем будет выпущен X1900 XT 256MB по цене в 279 долларов. Да… такой войны цен давно не видели. Интересно, чем ответит NVIDIA.

Платa

ATI RADEON X1950 XTX 512MB PCI-E
GPU: RADEON X1950 (R580+)

Интерфейс: PCI-Express x16

Частоты работы ядра:: 650 MHz (номинал 650 MHz)

Частоты работы памяти (физическая/эффективная):: 1000 (2000) MHz (номинал 1000 (2000) MHz)

Ширина шины обмена с памятью: 256bit

Число вершинных конвейеров: 8

Число пиксельных конвейеров: 48

Число текстурных процессоров: 16

Число ROPs: 16

Размеры: 220x100x31mm (последняя величина — максимальная толщина видеокарты).

Цвет текстолита: красный.

Выходные гнезда: 2 х DVI (Dual-Link), TV-выход.

VIVO: есть (RAGE Theater)

TV-out: интегрирован в GPU.

ATI RADEON X1950 XTX 512MB PCI-E
Карта имеет 512 МБ памяти GDDR4 SDRAM, размещенной в 8-ми микросхемах на лицевой стороне PCB.

Микросхемы памяти Samsung (GDDR4). Время выборки у микросхем памяти 0.9ns, что соответствует частоте работы 1100 (2200) МГц. К сожалению, маркировка очень нечеткая, поэтому я приведу ее: K4U52324QE-BC09

Сравнение с эталонным дизайном, вид спереди
ATI RADEON X1950 XTX 512MB PCI-E Reference card ATI RADEON X1900 XTX 512MB PCI-E
Сравнение с эталонным дизайном, вид сзади
ATI RADEON X1950 XTX 512MB PCI-E Reference card ATI RADEON X1900 XTX 512MB PCI-E

Прекрасно видно, что дизайн в принципе не претерпел каких-либо изменений по сравнению с X1900 XTX, только лишь чуть-чуть модернизировался блок питания (ну это логично, так как микросхемы памяти уже другие, вольтажи иные). В остальном — полная копия, поэтому нет смысла особо заострять на этом внимание, тем более, что мы уже не один раз изучали X1900 XTX.

Надо отметить то, что карта оснащена чрезмерно быстрой памятью 0.9нс. При этом частота ее работы чуть снижена относительно номинала (не 1100, а 1000 МГц физической частоты).

Стоит упомянуть, что карта снабжена парой гнезд DVI. Причем, Dual link DVI, что позволяет по цифровому каналу получать разрешения выше 1600х1200.

Теперь рассмотрим систему охлаждения.









Еще в начале статьи мы замечали, что одним из новшеств сего продукта является новый кулер. Обратите внимание на снимке выше. Опытным читателям станет ясно, что дизайн позаимствован у Arctic Cooling — знаменитого производителя бесшумных и очень эффективных устройств охлаждения. Да, мы не знаем, кто именно делал для канадцев этот кулер, наклеек и этикеток нет. Но очень похоже на то, что Arctic Cooling. Разумеется, где-то этот дизайн принципиально новый, и мы видим его впервые. Прежде всего, лопасти турбины. У привычных турбин от этой компании лопасти совсем иные, их меньше. но они большего размера и загнуты.

Как и у ранее виденного нами кулера от Arctic у X1900 XT/XTX от HIS, все радиаторы медные. При этом память охлаждает свой собственный радиатор (который не обдувается ничем), а не основной. Крепеж несколько отличается от привычного для X1900/X1800 серий, поэтому новое устройство не установить на ускорители предыдущего поколения.

Я когда-то отмечал минусы у системы охлаждения, предложенной ATI для таких карты: размеры (из-за кулера карта вынуждена занимать два слота в системной плате) и стартовый шум. А также при нагрузке по мере нагрева появляется малоприятный вой турбины. Плюс же был один, но большой: горячий воздух выносится за пределы системного блока, что очень важно при работе таких горячих элементов внутри него. А карта греется очень сильно!

Сегодня мы видим, что минус из-за размеров кулера уже малоактуален, стартовый шум ушел в прошлое. И воя нет! Вот ЧТО САМОЕ ГЛАВНОЕ!

Согласно данных мониторинга, самая сильная нагрузка не вызывает нагрева ядра выше 84 градусов, что на 10-15 градусов ниже, чем мы могли видеть на X1900 XTX с референс-кулером. При этом обороты турбины хоть и растут, но шума все равно не слышно.

А плюс по выносу горячего воздуха за пределы системника — остался. Правда, память тоже греется, и тепло от ее радиатора остается внутри системного блока. Это не очень хорошо.

Теперь посмотрим на сам процессор.

X1950 XTX — R580+ изготовлен на 21-й неделе 2006 года, это где-то в июне, конце мая, то есть, чипу нет и трех месяцев



Сравнение с X1900 XTX

Понятное дело, что чипы внешне совершенно идентичны. Да и маркировка почти не отличается.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Athlon 64 (939Socket)
    • процессор AMD Athlon 4000+ (2400MHz) (L2=1024K);
    • системная плата MSI K8N Diamond Plus на чипсете NVIDIA nForce4 SLI X16;
    • оперативная память 2 GB DDR SDRAM 400MHz (CAS (tCL)=2.5; RAS to CAS delay (tRCD)=3; Row Precharge (tRP)=3; tRAS=6);
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
  • операционная система Windows XP SP2; DirectX 9.0c;
  • мониторы ViewSonic VP231wb (23") и Mitsubishi Diamond Pro 2070sb (22").
  • драйверы (PCI-E-видеокарт) ATI версии CATALYST 6.8; NVIDIA версии 91.33/91.45.
  • BFG GeForce 7950 GX2, 2x512MB, 2 GPU, 500/1200 MHz
  • ASUS GeForce 7900 GTX, 512MB, 1 GPU, 650/1600 MHz
  • HIS RADEON X1900 XTX, 512MB, 1 GPU, 700/1700 MHz
  • Reference card ATI RADEON X1900 XTX, 512MB, 1 GPU, 650/1550 MHz
  • Reference card ATI RADEON X1950 XTX, 512MB, 1 GPU, частоты снижены до 650/1550 MHz

VSync отключен. Качество в драйверах выставлено на уровень Quality. Оптимизации не отключались.

Что касается разгона, что ситуация следующая:

Экземпляр смог разогнаться до 704/2200 МГц.

Еще по приведенному ранее мониторингу видно, что версия RivaTuner (автор А.Николайчук) уже обновилась :) и теперь поддерживает и этот продукт ATI.



Синтетические тесты

Используемая нами версия пакета синтетических тестов D3D RightMark Beta 4 (1050) и ее описание доступны на сайте http://3d.rightmark.org

Также мы использовали более сложные тесты пиксельных шейдеров версий 2.0 и 3.0 — D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3, соответственно. Некоторые из задач, появившихся в этих тестах, уже применяются в реальных приложениях, а остальные обязательно появятся там в скором времени. Данные тестовые наборы находятся в стадии тестирования и доступны для скачивания здесь.

Синтетические тесты проводились на видеокартах:

  • NVIDIA GeForce 7900 GTX (далее «G71»)
  • NVIDIA GeForce 7950 GX2 — двухчиповая видеокарта (далее «G71 * 2»)
  • ATI RADEON X1900 XTX (далее «R580»)
  • ATI RADEON X1950 XTX (далее «R580+»)
  • ATI RADEON X1950 XTX — работающая на частоте X1900 XTX (далее «R580+(580)»)

Тест Pixel Filling

В этом тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:

Никаких изменений в R580+ по сравнению с R580 не наблюдается. То, что R580+ немного вырвался вперед в тесте с единственной накладываемой текстурой, можно объяснить влиянием в этом случае повышенной пропускной способности, так как при сниженной частоте памяти наблюдается паритет с R580.

В сравнении ATI и NVIDIA мы наблюдаем примерное равенство, если говорить об одночиповых решениях, единственное исключение тут — оптимизированный случай с двумя текстурами на пиксель, в котором решение NVIDIA заметно опережает чипы ATI. В остальных ситуациях карты очень близки, но небольшое преимущество за счет большего числа текстурных модулей у G71 все-таки есть. Зато он немного отстает в случае одной текстуры, это еще более интересно, так как в прошлом получалась обратная ситуация, с одной текстурой G70 был быстрее, но отставал на большем числе текстур.

Результаты одноплатного SLI решения на базе двух чипов G71 интересны, тесты с одной и двумя текстурами карта проваливает, проигрывая единственному чипу G71, зато в остальных вырывается вперед, и чем больше количество текстурных выборок — тем заметней разница.

В нашем втором тесте скорости заполнения наблюдается похожая картина, с учетом количества записанных в буфер кадра пикселей. В случаях 0 и 1 текстур R580+ явно получает небольшое преимущество за счет повышенной ПСП, в тесте с двумя текстурами чип NVIDIA заметно сильнее, а в остальных мы видим примерное равенство с небольшим превосходством G71. Двухчиповая GeForce 7950 GX2 опережает одночиповые варианты только начиная с трех накладываемых на пиксель текстур.

Проверяем ту же самую задачу в исполнении пиксельного шейдера версии 2.0:

Никаких значительных изменений не произошло, FFP и шейдеры работают одинаково (вероятно, FFP эмулируется эффективным шейдером) и показывают схожие результаты. Четкого превосходства одного решения над другим нет, исключая двухчиповую видеокарту NVIDIA, которая, впрочем, показывает странные провалы в случаях с четным количеством текстур на пиксель. Сравните значения этой диаграммы с предыдущей, если в случаях с 3, 5 и 7 текстурами значения практически одинаковы, то режимы 4, 6 и 8 текстур показывают отставание скорости заполнения PS 2.0 от FFT примерно на 10%. Налицо недоработки реализации режима SLI.

Тест Geometry Processing Speed

Сначала рассмотрим самый простой вершинный шейдер, показывающий предельную пропускную способность по треугольникам:

Несмотря на то, что частота вершинных блоков у решений NVIDIA как минимум не ниже, а количество вершинных блоков у чипов разных компаний равно, GPU производства ATI заметно опережают своих конкурентов по максимальным значениям количества обрабатываемых треугольников в секунду. У чипов R580 и R580+ это значение превышает 400 миллионов, что очень и очень много и в реальных условиях практически не достижимо.

Эффективность выполнения задачи в разных режимах у всех чипов примерно равна, пиковая производительность в FFP, VS 1.1 и VS 2.0 мало отличается, разница кое-где есть, но она невелика. Двухчиповое SLI решение в данном тесте работает неэффективно, такое впечатление, что работает только один чип.

Посмотрим, что получится в более тяжелых условиях. Вторая диаграмма с GPS предлагает более сложный шейдер с одним источником освещения:

Подтверждается предположение о неизменности вершинных блоков чипа R580+ по сравнению с R580 — никакой разницы в скорости между ними не обнаружено. В остальном, в этот раз мы видим абсолютно другую ситуацию, отставание одночипового решения NVIDIA в режиме эмуляции FFP осталось, зато в режимах VS 1.1 и VS 2.0 оно вырвалось вперед, а эти два режима явно важнее первого.

Двухчиповая карта теперь опережает как решения конкурента, так и своего одночипового соратника. Впрочем, для практического применения эти разрывы несущественны, учитывая столь большой запас «чистой» геометрической производительности.

Рассмотрим еще более сложную геометрическую задачу, включающая статические и динамические переходы:

На смешанных источниках света проявляется наличие аппаратной оптимизации эмуляции FFP, таковая есть как у NVIDIA, так и у ATI. Еще раз убеждаемся, что по сравнению с R580, архитектура вершинных блоков в R580+ не претерпела существенных изменений.

В очередной раз мы видим противоположные слабые места вершинных блоков ATI и NVIDIA — динамические переходы вызывают серьезное падение производительности у чипов первой компании, а статические — у чипов второй. Даже смешно получилось — шейдер с динамическими переходами на G71 выполняется примерно также быстро, как и шейдер со статическими на R580/R580+, равно как и обратное: шейдер со статическими переходами на G71 выполняется с той же производительностью, что и шейдер с динамическими переходами на R580/R580+. Получается, что для ATI лучше использовать статические переходы, а для NVIDIA предпочтительнее динамические. Вот уж «сказка» для игровых разработчиков, хоть плачь… Пока что это не сказывается на реальных приложениях, подавляющее большинство из них использует вершинные шейдеры без динамических переходов, а производительность геометрических блоков у всех решений огромна и «узким» местом не является.

В целом, можно отметить, что G71 слегка опережает R580+ по геометрической производительности в самом сложном тесте, наконец-то сказалась высокая тактовая частота для вершинных блоков. А двухчиповая карта NVIDIA хоть и опережает одночиповые, но не намного, геометрическая производительность явно не в числе ее сильных сторон.

Подведем выводы по геометрическим тестам: разницы между R580+ и R580 никакой нет, лишь в небольшом количестве случаев мы увидели преимущество от повышенной пропускной способности памяти новинки. Никаких архитектурных изменений не отмечено, отсутствие доступа к текстурам из вершинных шейдеров и провалы в производительности шейдеров с динамическими ветвлениями остались и в этот раз. По сравнению с продукцией конкурента наблюдается примерное равенство с его одночиповым решением (с несколькими несущественными отставаниями), а вот двухчиповая карта NVIDIA обычно вне конкуренции, только в случае самого простого шейдера она проиграла всем.

Тест Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассмотрим, достаточно проста для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.

В некоторых из этих тестов небольшая разница между R580+ и R580 прослеживается, и, судя по значению «R580+ (R520)», то есть чипа R580+, работающего с GDDR4 памятью на частотах R580, преимущество получается только из-за увеличенной ПСП. Не видно результатов, которые говорили бы о проведенных архитектурных изменениях в R580+.

Что касается конкурентной ситуации, то на самых простых программах версии 1.x решения NVIDIA впереди, как и раньше. Причем, далеко впереди. А вот на более сложных шейдерах 2.0 вперед выходят R580 и R580+, хотя их преимущество небольшое, но оно есть. Шейдеры с пониженной точностью вычислений выполняются быстрее на G71 и ожидаемо бессмысленны на R580. Ведь архитектура NVIDIA получает преимущество при снижении числа временных регистров и их точности, а архитектура ATI не относится к объему временных данных настолько болезненно. Этот подход кажется потенциально лучше приспособленным для будущих сложных шейдеров и в целом, если смотреть на более важные тесты с пиксельными шейдерами 2.x и забыть о шейдерах 1.x — решение ATI кажется лучшим.

Даже в выгодных для себя условиях R580+ проигрывает двухчиповому варианту NVIDIA, но это и понятно — два чипа, пусть работающие и не на полной частоте, значительно сильнее одного. Карта GeForce 7950 GX2 в тестах пиксельных шейдеров показала себя неплохо — выигрыш есть всегда и немаленький. Одна найденная странность связана с вычислениями пониженной точности. Если тесты освещения Lighting (Phong) и Lighting (Blinn) получают преимущество от форсирования 16-битных расчетов, пусть и небольшое, то в Procedural: Marble получается обратная ситуация, и шейдер с расчетами пониженной точности считается медленней, чем полной. Странности шейдерного рекомпилятора или что-то другое?

Посмотрим на результаты более сложных пиксельных программ:

В очередной раз убеждаемся в том, что никакой разницы между R580+ и R580 нет, что это архитектурно тот же самый чип, но обладающий поддержкой более скоростной памяти, которая может потенциально дать преимущество в тяжелых условиях с большой нагрузкой на видеопамять.

В тесте Cook-Torrance чипы NVIDIA опять получают преимущество от пониженной 16-битной точности, но это помогает одолеть решения ATI только двухчиповому варианту. Одночиповый G71 отстает от R580+ даже при использовании точности FP16. Если посмотреть на результаты теста Procedural: Water, то мы снова видим разный подход двух основных компаний, разрабатывающих и производящих видеочипы. Шейдерная программа с процедурной визуализацией воды активно использует доступ к текстурам, причем доступ зависимый и больших уровней вложенности. Этот шейдер быстрее выполняется на чипах NVIDIA, где больше текстурных модулей. Причем, обратная разница в производительности не меньше, чем в предыдущем случае с шейдером освещения Cook-Torrance. Разработчику приходится делать выбор пути реализации своих алгоритмов, ведь на одном чипе преимущество получает реализация с большим количеством математических вычислений, а на другом — с приоритетом выборки из текстур. Опять получается, что из-за разности архитектур для каждой в идеале нужно писать свой код шейдера.

Тесты сложных пиксельных шейдеров New Pixel Shaders

Эти новые тесты, которые мы ввели не так давно и на которые мы постараемся сделать упор в будущих обзорах, доступны для скачивания в составе бета-версии D3D RightMark. Мы планируем постепенный отказ от ранних синтетических тестов с некоторыми из устаревших версий шейдеров, и постараемся сосредоточиться, прежде всего, на 2.x и 3.0 шейдерах, написанных на HLSL. Ведь производительность старых версий шейдеров можно проверить в реальных приложениях, где они давно используются, а синтетические тесты, призванные смотреть в будущее, нуждаются в постоянной модификации в соответствии с требованиями времени.

Наши новые тесты делятся на две категории, и начнем мы с более простых шейдеров версии 2.0. Доступны два новых теста, реализующие уже использующиеся в современных 3D приложениях эффекты:

  • Parallax Mapping — знакомый нам по нескольким современным играм (Splinter Cell: Chaos Theory, F.E.A.R., TES4: Oblivion, Prey и др.) метод наложения текстур, подробно описанный в статье Современная терминология 3D графики
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами

Оба шейдера мы протестируем в двух видах: первый максимально ориентирован на математические вычисления, а второй — на выборку значений из текстур. Также мы проверим результаты для пониженной (FP16) и нормальной (FP24 или FP32) точности вычислений. Сначала рассмотрим математически интенсивные варианты программ:

Во-первых, сразу подтверждаем вывод об отсутствии изменений в R580+ по сравнению с R580, это наша главная задача сегодня. Во-вторых, видим, что решения ATI стабильно выигрывают у одночипового NVIDIA G71, особенно в тесте параллакс маппинга. Хотя производительность G71 и двухчипового G71 сильно зависит от используемой точности вычислений и в случае FP16 решение NVIDIA почти не отстает от R580+, который потенциально лучше подготовлен к подобного рода задачам. С другой стороны, R580 и R580+ настолько быстры, что в тесте parallax mapping выигрывают у двухчипового G71, если не обращать внимания на результаты последнего с пониженной точностью вычислений! Кстати, двухчиповое SLI решение от NVIDIA всегда быстрее одночипового в данных тестах.

Рассмотрим далее те же самые тесты, но в варианте с предпочтением выборки текстур математическим вычислениям:

Здесь уже картина полностью меняется, так как производительность больше упирается в текстурные блоки, которых у ATI всего 16, а у NVIDIA — 24. В этом случае NVIDIA выглядит победителем. Но посмотрите на цифры — даже у G71 один шейдер быстрее работает в виде с большим количеством математических вычислений, да и второй алгоритм выполняется почти с той же производительностью. Какой смысл делать упор в текстурирование, если разницы в производительности почти нет?

Видим, что опять все зависит от решения программистов — если они сделают упор в математику, то безусловная победа достанется ATI, если в текстурирование — NVIDIA. Мы пока ничего не можем достоверно сказать о будущем, но существующие тесты должны показать ситуацию на сегодняшний день в следующей части статьи. В остальном — можно отметить, что R580+ подтверждает свою равноценность R580, а сдвоенный G71 работает стабильно быстрее одного чипа, пусть даже и не в 1.5-2 раза.

А нас ждут результаты еще двух новых тестов — с применением пиксельных шейдеров версии 3.0, самых сложных из наших синтетических тестов. В рамках проекта D3D RightMark нами разработаны две шейдерных программы, в этот раз очень длинные, очень сложные и с большим количеством ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, пока не применяющаяся в играх, также описанная в статье Современная терминология 3D графики
  • Fur — процедурный шейдер, визуализирующий мех

Вот это уже достойная нагрузка, посмотрите на производительность по сравнению даже с не самыми простыми предыдущими тестами! И это на наиболее производительных видеокартах. Очевидно, что архитектура R580 и R580+ значительно лучше подготовлена к подобным тяжелейшим условиям, они обеспечивают наиболее эффективное исполнение пиксельных шейдеров 3.0 с большим количеством ветвлений. В шейдере Fur получилась более чем полуторакратная разница, причем, даже двухчиповый G71 не догнал одиночный R580+. Во втором случае, с техникой steep parallax mapping, разница еще сильнее, более чем двукратная для одночипового решения NVIDIA и более чем полуторакратная по сравнению с двухчиповой картой.

Выводы по тестам с применением «тяжелых» пиксельных шейдеров: большое количество пиксельных процессоров в R580 и R580+ показывает свою силу во всех тестах, включая и сложные 2.0 программы. Налицо задел на будущее, для реализации архитектуры с еще большей эффективностью для DirectX 10. Остается один важнейший вопрос: успеет ли этот взгляд в будущее сработать в видеокартах на основе R580? Сомнения возникают потому, что на данный момент в играх даже близко нет подобных сложнейших шейдеров с ветвлениями, которые бы ставили на колени даже мощнейшие чипы. И неизвестно еще, появятся ли такие приложения в течение срока жизни нынешних архитектур.

Против R580 может сыграть еще и то, что число текстурных блоков в чипе не так велико, а даже многие современные приложения сильно зависят от скорости текстурирования. Мы рассмотрим ситуацию в реальных приложениях далее и увидим, как современные игры ведут себя на разных архитектурах. Наши же сложные синтетические тесты показали, что при определенном подходе к программированию пиксельных шейдеров преимущество R580+ неоспоримо.

Тест Hidden Surface Removal

Пиковая эффективность отбрасывания невидимых поверхностей (без наложения текстур и с текстурированием), в зависимости от сложности геометрии:



Как видно, никаких значительных изменений в практических тестах R580+ по отношению к R580 не наблюдается. Хотя эффективность HSR для R580+ получилась чуть меньше, скорее всего, это погрешности измерения, так как на частотах R580 он отработал одинаково с предыдущим чипом. Возможно, буферы HyperZ и были увеличены, но ничего похожего на прирост производительности мы не увидели. Но даже при этом иерархический HSR в исполнении ATI работает значительно эффективнее, чем одноуровневый в решениях NVIDIA. Особенно это касается сцен большой и средней сложности, в сравнительно простых все чипы близки. Интересно, что в тестах с наложением текстур видеочипы NVIDIA сокращают разрыв, и в случае низкой сложности сцены даже догоняют ATI — сказывается большее количество текстурных процессоров.

Посмотрим на достигнутые абсолютные значения в тестах HSR:



Пожалуй, мы в первый раз видим, как R580+ явно опережает R580 в синтетических тестах, влияние повышенной частоты видеопамяти и ее пропускной способности оказывается достаточно большим. На частотах, равных R580, производительность нового чипа соответствует скорости предыдущего решения, влияния увеличившихся задержек памяти не обнаружено.

Если сравнивать решения ATI и NVIDIA, мы видим, что несмотря на меньшую эффективность, 24 текстурных процессора G71 обеспечивают выигрыш в двух тестах из трех для случая с текстурированием. В сцене с большим количеством геометрии G71 уже проигрывает, сказывается низкая эффективность работы блока HSR. Двухчиповую видеокарту можно признать победителем, хотя прирост производительности по сравнению с одночиповой G71 далек от желаемого.

Тест Point Sprites



Point sprites используются в небольшом количестве реальных приложений, рассмотрим их работу на разных видеочипах и мы. Подтверждаются результаты предыдущих исследований — чип NVIDIA опережает решения ATI на спрайтах небольшого размера благодаря более эффективной работе с буфером кадра, но по мере роста размера частиц и сложности освещения G71 начинает немного отставать. Интересно поведение двухчиповой карты в этом тесте — на маленьких спрайтах она проигрывает варианту с одним GPU, а в более сложных условиях со спрайтами большого размера выходит вперед, опережая остальных конкурентов. R580+ и в этот раз получает преимущество от более производительной видеопамяти GDDR4, выигрывая несколько процентов у своего предшественника в легких условиях.

Выводы по синтетическим тестам

  1. Никаких значительных изменений в видеочипе R580+ (по сравнению с R580) нами не обнаружено, производительность нового чипа на частотах старого полностью соответствует скорости R580.
  2. В отдельных синтетических тестах отмечен небольшой прирост производительности от повышенной рабочей частоты локальной видеопамяти и ее пропускной способности. Негативного влияния повышенных таймингов памяти в синтетике не найдено.
  3. Большее количество пиксельных процессоров и эффективная архитектура R580+ позволяет ему с запасом выигрывать у G71 (иногда даже у двухчипового варианта!) в самых тяжелых тестах с применением пиксельных шейдеров версии 3.0 с ветвлениями. Преимущество в таких тестах у решений ATI довольно большое и растет по мере роста сложности задач.
  4. Слабые места у чипа остались прежними: низкая скорость выполнения простых пиксельных шейдеров, невысокая производительность текстурирования, падение производительности при динамических переходах в вершинных шейдерах и отсутствие доступа к текстурам из них. Некоторые из этих слабостей могут сказаться в игровых тестах, так как среди них есть такие, где скорость текстурирования и исполнения простых шейдеров очень важна.

Та же конфета, но в новой обертке, и, кажется, вкуснее… ATI RADEON X1950 XTX (R580+) - Часть 3: Игровые тесты (производительность)





Дополнительно

Та же конфета, но в новой обертке, и, кажется, вкуснее… ATI RADEON X1950 XTX (R580+)

Та же конфета, но в новой обертке, и, кажется, вкуснее… ATI RADEON X1950 XTX (R580+)

Часть 2: Особенности видеокарты, синтетические тесты

«А в попугаях-то я гораздо длиннее!»
(С) м/ф «38 попугаев»

СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарты
  4. Конфигурации стендов, список тестовых инструментов
  5. Результаты синтетических тестов

Та же конфета, но в новой обертке, и, кажется, вкуснее… ATI RADEON X1950 XTX (R580+): Часть 1: Теоретические сведения


Та же конфета, но в новой обертке, и, кажется, вкуснее… ATI RADEON X1950 XTX (R580+): Часть 2: Особенности видеокарты и синтетические тесты

На базе обновленного процессора компания планирует выпустить две карты, которые будут полностью идентичны друг другу по частотам и объему памяти.

  • ATI RADEON X1950 XTX 512MB GDDR4, 650/2000 MHz, 48 pixel/8 vertex pipes/16 TMUs/16 ROPs — $449;
  • ATI RADEON X1950 CrossFire Edition 512MB GDDR4, 650/2000 MHz, 48 pixel/8 vertex pipes/16 TMUs/16 ROPs — $449;

В результате такого сильного снижения цен предыдущие решения также будут резко удешевлены: X1900 XTX до 399 долларов США, X1900 XT до 299 долларов, а затем будет выпущен X1900 XT 256MB по цене в 279 долларов. Да… такой войны цен давно не видели. Интересно, чем ответит NVIDIA.

Платa

ATI RADEON X1950 XTX 512MB PCI-E
GPU: RADEON X1950 (R580+)

Интерфейс: PCI-Express x16

Частоты работы ядра:: 650 MHz (номинал 650 MHz)

Частоты работы памяти (физическая/эффективная):: 1000 (2000) MHz (номинал 1000 (2000) MHz)

Ширина шины обмена с памятью: 256bit

Число вершинных конвейеров: 8

Число пиксельных конвейеров: 48

Число текстурных процессоров: 16

Число ROPs: 16

Размеры: 220x100x31mm (последняя величина — максимальная толщина видеокарты).

Цвет текстолита: красный.

Выходные гнезда: 2 х DVI (Dual-Link), TV-выход.

VIVO: есть (RAGE Theater)

TV-out: интегрирован в GPU.

ATI RADEON X1950 XTX 512MB PCI-E
Карта имеет 512 МБ памяти GDDR4 SDRAM, размещенной в 8-ми микросхемах на лицевой стороне PCB.

Микросхемы памяти Samsung (GDDR4). Время выборки у микросхем памяти 0.9ns, что соответствует частоте работы 1100 (2200) МГц. К сожалению, маркировка очень нечеткая, поэтому я приведу ее: K4U52324QE-BC09

Сравнение с эталонным дизайном, вид спереди
ATI RADEON X1950 XTX 512MB PCI-E Reference card ATI RADEON X1900 XTX 512MB PCI-E
Сравнение с эталонным дизайном, вид сзади
ATI RADEON X1950 XTX 512MB PCI-E Reference card ATI RADEON X1900 XTX 512MB PCI-E

Прекрасно видно, что дизайн в принципе не претерпел каких-либо изменений по сравнению с X1900 XTX, только лишь чуть-чуть модернизировался блок питания (ну это логично, так как микросхемы памяти уже другие, вольтажи иные). В остальном — полная копия, поэтому нет смысла особо заострять на этом внимание, тем более, что мы уже не один раз изучали X1900 XTX.

Надо отметить то, что карта оснащена чрезмерно быстрой памятью 0.9нс. При этом частота ее работы чуть снижена относительно номинала (не 1100, а 1000 МГц физической частоты).

Стоит упомянуть, что карта снабжена парой гнезд DVI. Причем, Dual link DVI, что позволяет по цифровому каналу получать разрешения выше 1600х1200.

Теперь рассмотрим систему охлаждения.









Еще в начале статьи мы замечали, что одним из новшеств сего продукта является новый кулер. Обратите внимание на снимке выше. Опытным читателям станет ясно, что дизайн позаимствован у Arctic Cooling — знаменитого производителя бесшумных и очень эффективных устройств охлаждения. Да, мы не знаем, кто именно делал для канадцев этот кулер, наклеек и этикеток нет. Но очень похоже на то, что Arctic Cooling. Разумеется, где-то этот дизайн принципиально новый, и мы видим его впервые. Прежде всего, лопасти турбины. У привычных турбин от этой компании лопасти совсем иные, их меньше. но они большего размера и загнуты.

Как и у ранее виденного нами кулера от Arctic у X1900 XT/XTX от HIS, все радиаторы медные. При этом память охлаждает свой собственный радиатор (который не обдувается ничем), а не основной. Крепеж несколько отличается от привычного для X1900/X1800 серий, поэтому новое устройство не установить на ускорители предыдущего поколения.

Я когда-то отмечал минусы у системы охлаждения, предложенной ATI для таких карты: размеры (из-за кулера карта вынуждена занимать два слота в системной плате) и стартовый шум. А также при нагрузке по мере нагрева появляется малоприятный вой турбины. Плюс же был один, но большой: горячий воздух выносится за пределы системного блока, что очень важно при работе таких горячих элементов внутри него. А карта греется очень сильно!

Сегодня мы видим, что минус из-за размеров кулера уже малоактуален, стартовый шум ушел в прошлое. И воя нет! Вот ЧТО САМОЕ ГЛАВНОЕ!

Согласно данных мониторинга, самая сильная нагрузка не вызывает нагрева ядра выше 84 градусов, что на 10-15 градусов ниже, чем мы могли видеть на X1900 XTX с референс-кулером. При этом обороты турбины хоть и растут, но шума все равно не слышно.

А плюс по выносу горячего воздуха за пределы системника — остался. Правда, память тоже греется, и тепло от ее радиатора остается внутри системного блока. Это не очень хорошо.

Теперь посмотрим на сам процессор.

X1950 XTX — R580+ изготовлен на 21-й неделе 2006 года, это где-то в июне, конце мая, то есть, чипу нет и трех месяцев



Сравнение с X1900 XTX

Понятное дело, что чипы внешне совершенно идентичны. Да и маркировка почти не отличается.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Athlon 64 (939Socket)
    • процессор AMD Athlon 4000+ (2400MHz) (L2=1024K);
    • системная плата MSI K8N Diamond Plus на чипсете NVIDIA nForce4 SLI X16;
    • оперативная память 2 GB DDR SDRAM 400MHz (CAS (tCL)=2.5; RAS to CAS delay (tRCD)=3; Row Precharge (tRP)=3; tRAS=6);
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
  • операционная система Windows XP SP2; DirectX 9.0c;
  • мониторы ViewSonic VP231wb (23") и Mitsubishi Diamond Pro 2070sb (22").
  • драйверы (PCI-E-видеокарт) ATI версии CATALYST 6.8; NVIDIA версии 91.33/91.45.
  • BFG GeForce 7950 GX2, 2x512MB, 2 GPU, 500/1200 MHz
  • ASUS GeForce 7900 GTX, 512MB, 1 GPU, 650/1600 MHz
  • HIS RADEON X1900 XTX, 512MB, 1 GPU, 700/1700 MHz
  • Reference card ATI RADEON X1900 XTX, 512MB, 1 GPU, 650/1550 MHz
  • Reference card ATI RADEON X1950 XTX, 512MB, 1 GPU, частоты снижены до 650/1550 MHz

VSync отключен. Качество в драйверах выставлено на уровень Quality. Оптимизации не отключались.

Что касается разгона, что ситуация следующая:

Экземпляр смог разогнаться до 704/2200 МГц.

Еще по приведенному ранее мониторингу видно, что версия RivaTuner (автор А.Николайчук) уже обновилась :) и теперь поддерживает и этот продукт ATI.



Синтетические тесты

Используемая нами версия пакета синтетических тестов D3D RightMark Beta 4 (1050) и ее описание доступны на сайте http://3d.rightmark.org

Также мы использовали более сложные тесты пиксельных шейдеров версий 2.0 и 3.0 — D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3, соответственно. Некоторые из задач, появившихся в этих тестах, уже применяются в реальных приложениях, а остальные обязательно появятся там в скором времени. Данные тестовые наборы находятся в стадии тестирования и доступны для скачивания здесь.

Синтетические тесты проводились на видеокартах:

  • NVIDIA GeForce 7900 GTX (далее «G71»)
  • NVIDIA GeForce 7950 GX2 — двухчиповая видеокарта (далее «G71 * 2»)
  • ATI RADEON X1900 XTX (далее «R580»)
  • ATI RADEON X1950 XTX (далее «R580+»)
  • ATI RADEON X1950 XTX — работающая на частоте X1900 XTX (далее «R580+(580)»)

Тест Pixel Filling

В этом тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:

Никаких изменений в R580+ по сравнению с R580 не наблюдается. То, что R580+ немного вырвался вперед в тесте с единственной накладываемой текстурой, можно объяснить влиянием в этом случае повышенной пропускной способности, так как при сниженной частоте памяти наблюдается паритет с R580.

В сравнении ATI и NVIDIA мы наблюдаем примерное равенство, если говорить об одночиповых решениях, единственное исключение тут — оптимизированный случай с двумя текстурами на пиксель, в котором решение NVIDIA заметно опережает чипы ATI. В остальных ситуациях карты очень близки, но небольшое преимущество за счет большего числа текстурных модулей у G71 все-таки есть. Зато он немного отстает в случае одной текстуры, это еще более интересно, так как в прошлом получалась обратная ситуация, с одной текстурой G70 был быстрее, но отставал на большем числе текстур.

Результаты одноплатного SLI решения на базе двух чипов G71 интересны, тесты с одной и двумя текстурами карта проваливает, проигрывая единственному чипу G71, зато в остальных вырывается вперед, и чем больше количество текстурных выборок — тем заметней разница.

В нашем втором тесте скорости заполнения наблюдается похожая картина, с учетом количества записанных в буфер кадра пикселей. В случаях 0 и 1 текстур R580+ явно получает небольшое преимущество за счет повышенной ПСП, в тесте с двумя текстурами чип NVIDIA заметно сильнее, а в остальных мы видим примерное равенство с небольшим превосходством G71. Двухчиповая GeForce 7950 GX2 опережает одночиповые варианты только начиная с трех накладываемых на пиксель текстур.

Проверяем ту же самую задачу в исполнении пиксельного шейдера версии 2.0:

Никаких значительных изменений не произошло, FFP и шейдеры работают одинаково (вероятно, FFP эмулируется эффективным шейдером) и показывают схожие результаты. Четкого превосходства одного решения над другим нет, исключая двухчиповую видеокарту NVIDIA, которая, впрочем, показывает странные провалы в случаях с четным количеством текстур на пиксель. Сравните значения этой диаграммы с предыдущей, если в случаях с 3, 5 и 7 текстурами значения практически одинаковы, то режимы 4, 6 и 8 текстур показывают отставание скорости заполнения PS 2.0 от FFT примерно на 10%. Налицо недоработки реализации режима SLI.

Тест Geometry Processing Speed

Сначала рассмотрим самый простой вершинный шейдер, показывающий предельную пропускную способность по треугольникам:

Несмотря на то, что частота вершинных блоков у решений NVIDIA как минимум не ниже, а количество вершинных блоков у чипов разных компаний равно, GPU производства ATI заметно опережают своих конкурентов по максимальным значениям количества обрабатываемых треугольников в секунду. У чипов R580 и R580+ это значение превышает 400 миллионов, что очень и очень много и в реальных условиях практически не достижимо.

Эффективность выполнения задачи в разных режимах у всех чипов примерно равна, пиковая производительность в FFP, VS 1.1 и VS 2.0 мало отличается, разница кое-где есть, но она невелика. Двухчиповое SLI решение в данном тесте работает неэффективно, такое впечатление, что работает только один чип.

Посмотрим, что получится в более тяжелых условиях. Вторая диаграмма с GPS предлагает более сложный шейдер с одним источником освещения:

Подтверждается предположение о неизменности вершинных блоков чипа R580+ по сравнению с R580 — никакой разницы в скорости между ними не обнаружено. В остальном, в этот раз мы видим абсолютно другую ситуацию, отставание одночипового решения NVIDIA в режиме эмуляции FFP осталось, зато в режимах VS 1.1 и VS 2.0 оно вырвалось вперед, а эти два режима явно важнее первого.

Двухчиповая карта теперь опережает как решения конкурента, так и своего одночипового соратника. Впрочем, для практического применения эти разрывы несущественны, учитывая столь большой запас «чистой» геометрической производительности.

Рассмотрим еще более сложную геометрическую задачу, включающая статические и динамические переходы:

На смешанных источниках света проявляется наличие аппаратной оптимизации эмуляции FFP, таковая есть как у NVIDIA, так и у ATI. Еще раз убеждаемся, что по сравнению с R580, архитектура вершинных блоков в R580+ не претерпела существенных изменений.

В очередной раз мы видим противоположные слабые места вершинных блоков ATI и NVIDIA — динамические переходы вызывают серьезное падение производительности у чипов первой компании, а статические — у чипов второй. Даже смешно получилось — шейдер с динамическими переходами на G71 выполняется примерно также быстро, как и шейдер со статическими на R580/R580+, равно как и обратное: шейдер со статическими переходами на G71 выполняется с той же производительностью, что и шейдер с динамическими переходами на R580/R580+. Получается, что для ATI лучше использовать статические переходы, а для NVIDIA предпочтительнее динамические. Вот уж «сказка» для игровых разработчиков, хоть плачь… Пока что это не сказывается на реальных приложениях, подавляющее большинство из них использует вершинные шейдеры без динамических переходов, а производительность геометрических блоков у всех решений огромна и «узким» местом не является.

В целом, можно отметить, что G71 слегка опережает R580+ по геометрической производительности в самом сложном тесте, наконец-то сказалась высокая тактовая частота для вершинных блоков. А двухчиповая карта NVIDIA хоть и опережает одночиповые, но не намного, геометрическая производительность явно не в числе ее сильных сторон.

Подведем выводы по геометрическим тестам: разницы между R580+ и R580 никакой нет, лишь в небольшом количестве случаев мы увидели преимущество от повышенной пропускной способности памяти новинки. Никаких архитектурных изменений не отмечено, отсутствие доступа к текстурам из вершинных шейдеров и провалы в производительности шейдеров с динамическими ветвлениями остались и в этот раз. По сравнению с продукцией конкурента наблюдается примерное равенство с его одночиповым решением (с несколькими несущественными отставаниями), а вот двухчиповая карта NVIDIA обычно вне конкуренции, только в случае самого простого шейдера она проиграла всем.

Тест Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассмотрим, достаточно проста для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.

В некоторых из этих тестов небольшая разница между R580+ и R580 прослеживается, и, судя по значению «R580+ (R520)», то есть чипа R580+, работающего с GDDR4 памятью на частотах R580, преимущество получается только из-за увеличенной ПСП. Не видно результатов, которые говорили бы о проведенных архитектурных изменениях в R580+.

Что касается конкурентной ситуации, то на самых простых программах версии 1.x решения NVIDIA впереди, как и раньше. Причем, далеко впереди. А вот на более сложных шейдерах 2.0 вперед выходят R580 и R580+, хотя их преимущество небольшое, но оно есть. Шейдеры с пониженной точностью вычислений выполняются быстрее на G71 и ожидаемо бессмысленны на R580. Ведь архитектура NVIDIA получает преимущество при снижении числа временных регистров и их точности, а архитектура ATI не относится к объему временных данных настолько болезненно. Этот подход кажется потенциально лучше приспособленным для будущих сложных шейдеров и в целом, если смотреть на более важные тесты с пиксельными шейдерами 2.x и забыть о шейдерах 1.x — решение ATI кажется лучшим.

Даже в выгодных для себя условиях R580+ проигрывает двухчиповому варианту NVIDIA, но это и понятно — два чипа, пусть работающие и не на полной частоте, значительно сильнее одного. Карта GeForce 7950 GX2 в тестах пиксельных шейдеров показала себя неплохо — выигрыш есть всегда и немаленький. Одна найденная странность связана с вычислениями пониженной точности. Если тесты освещения Lighting (Phong) и Lighting (Blinn) получают преимущество от форсирования 16-битных расчетов, пусть и небольшое, то в Procedural: Marble получается обратная ситуация, и шейдер с расчетами пониженной точности считается медленней, чем полной. Странности шейдерного рекомпилятора или что-то другое?

Посмотрим на результаты более сложных пиксельных программ:

В очередной раз убеждаемся в том, что никакой разницы между R580+ и R580 нет, что это архитектурно тот же самый чип, но обладающий поддержкой более скоростной памяти, которая может потенциально дать преимущество в тяжелых условиях с большой нагрузкой на видеопамять.

В тесте Cook-Torrance чипы NVIDIA опять получают преимущество от пониженной 16-битной точности, но это помогает одолеть решения ATI только двухчиповому варианту. Одночиповый G71 отстает от R580+ даже при использовании точности FP16. Если посмотреть на результаты теста Procedural: Water, то мы снова видим разный подход двух основных компаний, разрабатывающих и производящих видеочипы. Шейдерная программа с процедурной визуализацией воды активно использует доступ к текстурам, причем доступ зависимый и больших уровней вложенности. Этот шейдер быстрее выполняется на чипах NVIDIA, где больше текстурных модулей. Причем, обратная разница в производительности не меньше, чем в предыдущем случае с шейдером освещения Cook-Torrance. Разработчику приходится делать выбор пути реализации своих алгоритмов, ведь на одном чипе преимущество получает реализация с большим количеством математических вычислений, а на другом — с приоритетом выборки из текстур. Опять получается, что из-за разности архитектур для каждой в идеале нужно писать свой код шейдера.

Тесты сложных пиксельных шейдеров New Pixel Shaders

Эти новые тесты, которые мы ввели не так давно и на которые мы постараемся сделать упор в будущих обзорах, доступны для скачивания в составе бета-версии D3D RightMark. Мы планируем постепенный отказ от ранних синтетических тестов с некоторыми из устаревших версий шейдеров, и постараемся сосредоточиться, прежде всего, на 2.x и 3.0 шейдерах, написанных на HLSL. Ведь производительность старых версий шейдеров можно проверить в реальных приложениях, где они давно используются, а синтетические тесты, призванные смотреть в будущее, нуждаются в постоянной модификации в соответствии с требованиями времени.

Наши новые тесты делятся на две категории, и начнем мы с более простых шейдеров версии 2.0. Доступны два новых теста, реализующие уже использующиеся в современных 3D приложениях эффекты:

  • Parallax Mapping — знакомый нам по нескольким современным играм (Splinter Cell: Chaos Theory, F.E.A.R., TES4: Oblivion, Prey и др.) метод наложения текстур, подробно описанный в статье Современная терминология 3D графики
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами

Оба шейдера мы протестируем в двух видах: первый максимально ориентирован на математические вычисления, а второй — на выборку значений из текстур. Также мы проверим результаты для пониженной (FP16) и нормальной (FP24 или FP32) точности вычислений. Сначала рассмотрим математически интенсивные варианты программ:

Во-первых, сразу подтверждаем вывод об отсутствии изменений в R580+ по сравнению с R580, это наша главная задача сегодня. Во-вторых, видим, что решения ATI стабильно выигрывают у одночипового NVIDIA G71, особенно в тесте параллакс маппинга. Хотя производительность G71 и двухчипового G71 сильно зависит от используемой точности вычислений и в случае FP16 решение NVIDIA почти не отстает от R580+, который потенциально лучше подготовлен к подобного рода задачам. С другой стороны, R580 и R580+ настолько быстры, что в тесте parallax mapping выигрывают у двухчипового G71, если не обращать внимания на результаты последнего с пониженной точностью вычислений! Кстати, двухчиповое SLI решение от NVIDIA всегда быстрее одночипового в данных тестах.

Рассмотрим далее те же самые тесты, но в варианте с предпочтением выборки текстур математическим вычислениям:

Здесь уже картина полностью меняется, так как производительность больше упирается в текстурные блоки, которых у ATI всего 16, а у NVIDIA — 24. В этом случае NVIDIA выглядит победителем. Но посмотрите на цифры — даже у G71 один шейдер быстрее работает в виде с большим количеством математических вычислений, да и второй алгоритм выполняется почти с той же производительностью. Какой смысл делать упор в текстурирование, если разницы в производительности почти нет?

Видим, что опять все зависит от решения программистов — если они сделают упор в математику, то безусловная победа достанется ATI, если в текстурирование — NVIDIA. Мы пока ничего не можем достоверно сказать о будущем, но существующие тесты должны показать ситуацию на сегодняшний день в следующей части статьи. В остальном — можно отметить, что R580+ подтверждает свою равноценность R580, а сдвоенный G71 работает стабильно быстрее одного чипа, пусть даже и не в 1.5-2 раза.

А нас ждут результаты еще двух новых тестов — с применением пиксельных шейдеров версии 3.0, самых сложных из наших синтетических тестов. В рамках проекта D3D RightMark нами разработаны две шейдерных программы, в этот раз очень длинные, очень сложные и с большим количеством ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, пока не применяющаяся в играх, также описанная в статье Современная терминология 3D графики
  • Fur — процедурный шейдер, визуализирующий мех

Вот это уже достойная нагрузка, посмотрите на производительность по сравнению даже с не самыми простыми предыдущими тестами! И это на наиболее производительных видеокартах. Очевидно, что архитектура R580 и R580+ значительно лучше подготовлена к подобным тяжелейшим условиям, они обеспечивают наиболее эффективное исполнение пиксельных шейдеров 3.0 с большим количеством ветвлений. В шейдере Fur получилась более чем полуторакратная разница, причем, даже двухчиповый G71 не догнал одиночный R580+. Во втором случае, с техникой steep parallax mapping, разница еще сильнее, более чем двукратная для одночипового решения NVIDIA и более чем полуторакратная по сравнению с двухчиповой картой.

Выводы по тестам с применением «тяжелых» пиксельных шейдеров: большое количество пиксельных процессоров в R580 и R580+ показывает свою силу во всех тестах, включая и сложные 2.0 программы. Налицо задел на будущее, для реализации архитектуры с еще большей эффективностью для DirectX 10. Остается один важнейший вопрос: успеет ли этот взгляд в будущее сработать в видеокартах на основе R580? Сомнения возникают потому, что на данный момент в играх даже близко нет подобных сложнейших шейдеров с ветвлениями, которые бы ставили на колени даже мощнейшие чипы. И неизвестно еще, появятся ли такие приложения в течение срока жизни нынешних архитектур.

Против R580 может сыграть еще и то, что число текстурных блоков в чипе не так велико, а даже многие современные приложения сильно зависят от скорости текстурирования. Мы рассмотрим ситуацию в реальных приложениях далее и увидим, как современные игры ведут себя на разных архитектурах. Наши же сложные синтетические тесты показали, что при определенном подходе к программированию пиксельных шейдеров преимущество R580+ неоспоримо.

Тест Hidden Surface Removal

Пиковая эффективность отбрасывания невидимых поверхностей (без наложения текстур и с текстурированием), в зависимости от сложности геометрии:



Как видно, никаких значительных изменений в практических тестах R580+ по отношению к R580 не наблюдается. Хотя эффективность HSR для R580+ получилась чуть меньше, скорее всего, это погрешности измерения, так как на частотах R580 он отработал одинаково с предыдущим чипом. Возможно, буферы HyperZ и были увеличены, но ничего похожего на прирост производительности мы не увидели. Но даже при этом иерархический HSR в исполнении ATI работает значительно эффективнее, чем одноуровневый в решениях NVIDIA. Особенно это касается сцен большой и средней сложности, в сравнительно простых все чипы близки. Интересно, что в тестах с наложением текстур видеочипы NVIDIA сокращают разрыв, и в случае низкой сложности сцены даже догоняют ATI — сказывается большее количество текстурных процессоров.

Посмотрим на достигнутые абсолютные значения в тестах HSR:



Пожалуй, мы в первый раз видим, как R580+ явно опережает R580 в синтетических тестах, влияние повышенной частоты видеопамяти и ее пропускной способности оказывается достаточно большим. На частотах, равных R580, производительность нового чипа соответствует скорости предыдущего решения, влияния увеличившихся задержек памяти не обнаружено.

Если сравнивать решения ATI и NVIDIA, мы видим, что несмотря на меньшую эффективность, 24 текстурных процессора G71 обеспечивают выигрыш в двух тестах из трех для случая с текстурированием. В сцене с большим количеством геометрии G71 уже проигрывает, сказывается низкая эффективность работы блока HSR. Двухчиповую видеокарту можно признать победителем, хотя прирост производительности по сравнению с одночиповой G71 далек от желаемого.

Тест Point Sprites



Point sprites используются в небольшом количестве реальных приложений, рассмотрим их работу на разных видеочипах и мы. Подтверждаются результаты предыдущих исследований — чип NVIDIA опережает решения ATI на спрайтах небольшого размера благодаря более эффективной работе с буфером кадра, но по мере роста размера частиц и сложности освещения G71 начинает немного отставать. Интересно поведение двухчиповой карты в этом тесте — на маленьких спрайтах она проигрывает варианту с одним GPU, а в более сложных условиях со спрайтами большого размера выходит вперед, опережая остальных конкурентов. R580+ и в этот раз получает преимущество от более производительной видеопамяти GDDR4, выигрывая несколько процентов у своего предшественника в легких условиях.

Выводы по синтетическим тестам

  1. Никаких значительных изменений в видеочипе R580+ (по сравнению с R580) нами не обнаружено, производительность нового чипа на частотах старого полностью соответствует скорости R580.
  2. В отдельных синтетических тестах отмечен небольшой прирост производительности от повышенной рабочей частоты локальной видеопамяти и ее пропускной способности. Негативного влияния повышенных таймингов памяти в синтетике не найдено.
  3. Большее количество пиксельных процессоров и эффективная архитектура R580+ позволяет ему с запасом выигрывать у G71 (иногда даже у двухчипового варианта!) в самых тяжелых тестах с применением пиксельных шейдеров версии 3.0 с ветвлениями. Преимущество в таких тестах у решений ATI довольно большое и растет по мере роста сложности задач.
  4. Слабые места у чипа остались прежними: низкая скорость выполнения простых пиксельных шейдеров, невысокая производительность текстурирования, падение производительности при динамических переходах в вершинных шейдерах и отсутствие доступа к текстурам из них. Некоторые из этих слабостей могут сказаться в игровых тестах, так как среди них есть такие, где скорость текстурирования и исполнения простых шейдеров очень важна.

Та же конфета, но в новой обертке, и, кажется, вкуснее… ATI RADEON X1950 XTX (R580+) - Часть 3: Игровые тесты (производительность)