Nvidia Geforce GTX 670:

описание видеокарты и результаты синтетических тестов


Содержание

В этой части, как обычно, мы изучим саму видеокарту, а также познакомимся с результатами синтетических тестов.

Плата

Nvidia Geforce GTX 670 2048 МБ 256-битной GDDR5 PCI-E
  • GPU: Geforce GTX 670 (GK104)
  • Интерфейс: PCI Express x16
  • Частота работы GPU (ROPs): 915—1040 МГц (номинал — 915—980 МГц)
  • Частота работы памяти (физическая (эффективная)): 1500 (6000) МГц (номинал — 1500 (6000) МГц)
  • Ширина шины обмена с памятью: 256 бит
  • Число вычислительных блоков в GPU/частота работы блоков: 7/915—1030 МГц (номинал — 7/915—1030 МГц)
  • Число операций (ALU) в блоке: 192
  • Суммарное число операций (ALU): 1344
  • Число блоков текстурирования: 112 (BLF/TLF/ANIS)
  • Число блоков растеризации (ROP): 32
  • Размеры: 245×100×33 мм (последняя величина — максимальная толщина видеокарты)
  • Цвет текстолита: черный
  • Энергопотребление (пиковое в 3D/в режиме 2D/в режиме «сна»): 172/64/52 Вт
  • Выходные гнезда: 2×DVI (Dual-Link/VGA), 1×HDMI 1.4a, 1×DisplayPort 1.2
  • Поддержка многопроцессорной работы: SLI (Hardware)

Nvidia Geforce GTX 670 2048 МБ 256-битной GDDR5 PCI-E
Карта имеет 2048 МБ памяти GDDR5 SDRAM, размещенной в 8 микросхемах (по 4 на каждой сторонe PCB).

Микросхемы памяти Hynix (GDDR5). Микросхемы рассчитаны на максимальную частоту работы в 1500 (6000) МГц.

Сравнение с эталонным дизайном, вид спереди
Nvidia Geforce GTX 670 2048 МБ 256-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 680

Сравнение с эталонным дизайном, вид сзади
Nvidia Geforce GTX 670 2048 МБ 256-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 680

Как говорится, удивительное рядом. Вы только посмотрите, как кардинально отличаются карты, которые основаны на одном и том же ядре и по сути своей на 90% идентичны (сколько там у нас 7/8? 87,5%, так что правильнее говорить, что идентичны на 87,5% :-)). У 670-й карты полностью переработан дизайн! Во-первых, силовой блок, несколько видоизменившись, перекочевал на левую часть платы около гнезд вывода. Во-вторых, посадочных гнезд под микросхемы памяти стало не восемь, а шестнадцать, при этом распаянные восемь микросхем распределились по 4 на каждой стороне PCB (а не только на лицевой, как у GTX 680). Явно обеспечен задел на возможность комплектации карты не двумя, а четырьмя гигабайтами памяти. В-третьх, несмотря на такое невероятное количество микросхем, длина PCB резко уменьшилась и стала составлять всего 190 мм против 255 у GTX 680. Да, суммарная длина карты с кулером составляет 245 мм, однако значительная часть этой длины обеспечивается кожухом с вентилятором.

Нам редко доводилось видеть распаянные 256-битные шины на столь компактной PCB, разве что Radeon 9700 Pro когда-то вышел весьма компактным (по сути, первая серийная игровая карта с такой шиной). Мы реально поражены, и более того, если какому из производителей удастся на подобной PCB выпустить Geforce GTX 680, то это будет достойно аплодисментов. Топовый продукт — и столь компактен!

Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub (стоит отметить, что способностью передавать сигнал на VGA обладает только одно DVI-гнездо, поэтому подключить два монитора с такими входами уже не получится). Карта имеет гнездо HDMI, и напомним, что ускорители Nvidia достаточно давно обладают собственными звуковыми кодеками, поэтому передача на HDMI-монитор будет полноценной.

Отметим особо, что карта также имеет видеовыход DisplayPort версии 1.2, поэтому есть возможность с помощью специальных хабов выводить картинку с такого DP на три монитора.

Напомним также, что карта уровня GTX 680/670 способна выводить картинку одновременно на 4 монитора! При этом возможна работа и в стереорежиме — это весьма важное новшество.

Максимальные разрешения и частоты:

  • 240 Гц — максимальная частота обновления
  • 2048×1536@85 Гц — по аналоговому интерфейсу
  • 2560×1600@60 Гц — по цифровому интерфейсу (для DVI-гнезд с Dual-Link/HDMI)

Что касается возможностей по ускорению декодирования видео — в 2007 году мы проводили такое исследование, с ним можно ознакомиться здесь.

Карта требует дополнительного питания, причем двумя 6-контактными разъемами.

О системе охлаждения.

Nvidia Geforce GTX 670 2048 МБ 256-битной GDDR5 PCI-E
Система охлаждения в целом — традиционна. Длинный кожух, который увеличивает размер карты со 190 до 245 мм, имеет на конце цилиндрический стандартный вентилятор.

На ядре установлен радиатор на основе испарительной камеры, а также свой радиатор имеют силовые транзисторы; оба охлаждаются единым потоком воздуха.

А вот микросхемы памяти оставлены без охлаждения, при этом, напомню, они размещены на обеих сторонах карты. При максимальном нагреве ядра вентилятор поднимает обороты до примерно 60-66% (2300 об/мин) от своего максимума, что делает шум от него немного заметным.

Мы провели исследование температурного режима с помощью новой версии утилиты EVGA PrecisionX (автор А. Николайчук AKA Unwinder) и получили следующие результаты. Хочу напомнить, что GTX 670 по ядру работает на плавающих частотах от 915 до 980 МГц (cогласно декларации Nvidia). При этом реальная частота работы ядра достигает 1030 и даже 1040 МГц. Пока мы не знаем, является ли это особенностью, справедливой вообще для всех GTX 670, или же сэмпл референс-карты имеет чуть более высокие частоты, чем будут у серийно выпускаемых карт.

Вернемся к мониторингу.

Nvidia Geforce GTX 670 2048 МБ 256-битной GDDR5 PCI-E

Как мы видите, после 6 часов прогона карты под максимальной игровой нагрузкой максимальная температура ядра составила 82 градуса, что, в принципе, нормально для модели топовой серии.

Видеокарта прибыла к нам без упаковки и комплекта, потому вопрос комплектации мы опускаем.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core i7-975 (Socket 1366)
    • процессор Intel Core i7-975 (3340 МГц);
    • системная плата Asus P6T Deluxe на чипсете Intel X58;
    • оперативная память 6 ГБ DDR3 SDRAM Corsair 1600 МГц;
    • жесткий диск WD Caviar SE WD1600JD 160 ГБ SATA;
    • блок питания Enermax Platimax 1200 Вт.
  • операционная система Windows 7 64-битная; DirectX 11;
  • монитор Dell UltraSharp U3011 (30″);
  • драйверы AMD версии Catalyst 12.4; Nvidia версии 301.24

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационной программой Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010).

Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain, также известная как Island11.

Синтетические тесты проводились на следующих видеокартах:

  • Geforce GTX 670 со стандартными параметрами (далее GTX 670)
  • Geforce GTX 680 со стандартными параметрами (далее GTX 680)
  • Geforce GTX 580 со стандартными параметрами (далее GTX 580)
  • Radeon HD 7970 со стандартными параметрами (далее HD 7970)
  • Radeon HD 7950 со стандартными параметрами (далее HD 7950)
  • Radeon HD 7870 со стандартными параметрами (далее HD 7870)

Для сравнения результатов выпущенной сегодня видеокарты модели Geforce GTX 670 именно эти решения были выбраны по следующим причинам. Geforce GTX 580 является старшей одночиповой моделью предыдущего поколения и близка к GTX 570, которую новинка заменяет на рынке, а GTX 680 является топовой одночиповой моделью современной архитектуры Kepler компании Nvidia.

Выбранные решения конкурирующей компании AMD были взяты нами для тестов потому, что Radeon HD 7950 имеет близкую к анонсированной видеокарте Geforce цену и является её прямым конкурентом на данный момент. Radeon HD 7970 взята как топовая модель AMD, сравнение с которой также может быть интересным, ну а модель HD 7870 используется в нескольких тестах как вспомогательная, ведь она также очень близка к Radeon HD 7950 по скорости.

Direct3D 9: тесты Pixel Shaders

Тесты текстурирования и заполнения (филлрейта) из пакета 3DMark Vantage мы рассмотрим ниже, а первая группа пиксельных шейдеров, которую мы используем, включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0, встречающихся в старых играх, и она очень проста для современных видеочипов.

Эти тесты просты для современных GPU, и скорость в них зачастую упирается в производительность текстурирования или филлрейт. Поэтому эти тесты способны показать далеко не все возможности современных видеочипов, но они интересны нам с точки зрения аналогов устаревших игровых приложений, которых до сих пор довольно много.

Судя по предыдущим нашим сравнениям, производительность новых видеокарт в этих тестах ограничена чаще всего филлрейтом, хотя и влияние скорости текстурных модулей тоже прослеживается. Но оно точно неявное, так как Geforce GTX 680 не стал победителем, как должен, исходя из текстурной производительности. Общие результаты не позволяют выделить какую-то исключительную характеристику, влияющую на общую скорость рендеринга.

В этих тестах топовая видеоплата компании AMD явно лидирует, но представленную модель Geforce GTX 670 нужно сравнивать не с Radeon HD 7970, а с HD 7950. Которая заметно уступает именно в этих тестах. И вот тут положение уже не в пользу платы AMD. Возможно, её подвели программные оптимизации в драйверах (использовались разные версии), потому что такой разницы быть не должно. Это видно и по её сравнению с HD 7870.

В этих тестах Geforce GTX 670 выступает на очень хорошем уровне, уступая старшей GTX 680 всего лишь около 10%, что явно меньше теоретической разницы в скорости текстурирования и математических вычислений. Да и по сравнению с конкурирующей моделью Radeon HD 7950 всё очень даже хорошо. Посмотрим на результаты более сложных пиксельных программ промежуточных версий:

Тест Cook-Torrance более интенсивен вычислительно, разница в нём примерно соответствует разнице в количестве ALU и их частоте, но и от скорости TMU она также зависит. Поэтому данный тест исторически лучше подходит графическим решениям компании AMD, но теперь и Geforce на базе архитектуры Kepler в нём весьма сильны.

И большая разница по скорости между Radeon HD 7970 и HD 7950 снова сыграла в пользу Nvidia — в сравнении прямых конкурентов, Geforce GTX 670 снова выходит явным победителем. Что касается абсолютного лидерства, то в одном из тестов (где важнее быстрая математика) чуть быстрее Radeon, а в другом (где важнее текстурная производительность) — Geforce впереди.

Direct3D 9: тесты пиксельных шейдеров Pixel Shaders 2.0

Эти тесты пиксельных шейдеров DirectX 9 сложнее предыдущих, они близки к тому, что мы сейчас видим в мультиплатформенных играх, и делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D-графики.
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами.

Существует два варианта этих шейдеров: с ориентацией на математические вычисления и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:

Это — универсальные тесты, производительность в которых зависит и от скорости блоков ALU, и от скорости текстурирования, также в них важен общий баланс чипа и эффективность исполнения вычислительных программ. Результаты теста показывают, что в этих конкретных задачах архитектура AMD значительно опережает GPU производства Nvidia.

Производительность свежих видеокарт AMD в тесте «Frozen Glass» значительно выше, чем у новинки, но это больше относится к Radeon HD 7970, а вот младшая модель HD 7950 хотя и осталась впереди, но не настолько. Скорее всего, чипы Nvidia просто неэффективно выполняют эту задачу, или драйверы недостаточно хорошо под неё оптимизированы. А ещё может быть, что скорость ограничивает пропускная способность. Ведь в сравнении с предшествующей моделью GTX 580, новинка показала крайне небольшой прирост скорости.

Во втором тесте «Parallax Mapping» новая видеокарта Nvidia показала производительность, сравнимую с той, что мы получили от Radeon HD 7950, хотя последней снова явно что-то мешает в программной части, так как старшая модель AMD остаётся в единоличных лидерах. Решения Nvidia в этом тесте не могут догнать топовую плату AMD по каким-то причинам, вроде недостаточной ПСП. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям:

Для плат с GPU производства Nvidia положение стало лучше, и Geforce GTX 670 теперь всегда быстрее Radeon HD 7950 и немногим медленнее HD 7870 только в первом тесте. Но всё же скорость Geforce упирается во что-то, и современные чипы AMD в этих задачах работают эффективнее. Новая видеокарта серии Geforce GTX 600 в тесте Parallax Mapping довольно сильна, и отстаёт лишь от двух старших моделей обеих компаний, а в тесте Frozen Glass отставание от них больше. Разница между GTX 680 и GTX 670 составляет 9-12%, что меньше теоретической.

Это были устаревшие задачи, с упором в текстурирование и филлрейт. Далее мы рассмотрим результаты ещё двух тестов пиксельных шейдеров — но уже версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Они наиболее показательны с точки зрения современных игр на ПК, среди которых много мультиплатформенных. Тесты отличаются тем, что сильно нагружают и ALU, и текстурные модули, обе шейдерные программы сложны и длинны, и включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D-графики.
  • Fur — процедурный шейдер, визуализирующий мех.

Данные тесты уже не ограничены производительностью лишь текстурных выборок, а больше всего зависят от эффективности исполнения шейдерного кода. В самых сложных DX9-тестах из первой версии пакета RightMark видеокарты производства Nvidia ранее были сильнее, но в последней архитектуре компании AMD изменили положение и теперь именно топовое решение на чипе архитектуры GCN в PS 3.0 сравнении показывает лучший результат.

Но и наш сегодняшний герой показал неплохие результаты, уступив своему прямому конкуренту Radeon HD 7950 только в одном из тестов, выиграв во втором. В «Fur» так вообще показан отличный результат лучше чем у HD 7950 и HD 7870. При этом от старшей модели Geforce GTX 680 новинка отстаёт уже на 14-17%, что гораздо ближе к теоретическому превосходству топовой видеокарты над представленной сегодня. И говорит о том, что упора в пропускную способность в данном тесте почти нет.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Во вторую версию RightMark3D вошли два знакомых теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

В этом тесте производительность зависит в большей степени от количества и эффективности блоков TMU, но сильно влияет и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает ещё и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low».

Как и в аналогичных DX9 тестах, в задачах процедурной визуализации меха с большим количеством текстурных выборок, за пару поколений графических архитектур компания AMD не только сократила разницу с платами Nvidia, а с выпуском GCN и вовсе вырвалась вперёд. И теперь мы очень часто видим Radeon HD 7970 в лидерах таких сравнений, что говорит о высокой эффективности выполнения им сложных пиксельных программ.

Рассматриваемая сегодня модель Geforce GTX 670 показала результат на уровне GTX 580, то есть почти хуже всех, что может указывать или на снизившуюся эффективность исполнения сложных шейдеров в Kepler или на недостаток в пропускной способности памяти или эффективном филлрейте. С конкурентом в лице Radeon HD 7950 тут не побороться, ведь он значительно сильнее.

Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: возможно, в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Да, обе видеокарты новой линейки Geforce GTX 600 явно улучшили результаты относительно старой Geforce GTX 580, но при включении суперсэмплинга, увеличивающего теоретическую нагрузку вчетверо, результаты решений Nvidia в целом всё равно значительно ухудшились, по сравнению с показателями видеокарт AMD. Разница по скорости рендеринга в данной задаче и так была высока, а теперь стала просто огромной.

Протестированная новинка компании Nvidia опередила только GTX 580, и проигрывает до 50% своему конкуренту компании AMD — видеокарте модели Radeon HD 7950. А уж топовая плата из этой серии HD 7000 в тесте показывает и вовсе наибольшую производительность, что говорит о «любви» GCN к сложным вычислениям. Преимущество в этих тестах явно за чипами компании AMD, предпочитающими попиксельные вычисления.

Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, используются во многих проектах, например в играх серий Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип ещё примерно в два раза — такой режим называется «High».

Диаграмма очень похожа на предыдущую без дополнительного включения SSAA, и решения Nvidia в этом тесте не улучшили своё положение ни на грамм. Новая плата Geforce GTX 670 в обновленном D3D10-варианте теста без суперсэмплинга всё так же отстаёт от своего прямого соперника Radeon HD 7950 и обходит лишь GTX 580. Посмотрим, что изменит включение суперсэмплинга, ведь он обычно вызывает сильное падение скорости на платах Nvidia.

И тут всё примерно так же, что и в «Fur». При включении суперсэмплинга и самозатенения, задача получается ещё более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьёзное падение производительности. Разница между скоростными показателями протестированных видеокарт изменилась, включение суперсэмплинга сказывается, как и в предыдущем случае — видеокарты производства AMD явно улучшили относительные показатели, по сравнению с платами на чипах Nvidia.

Хотя в этот раз разница между Geforce GTX 670 и Radeon HD 7950 несколько уменьшилась, да и опережение GTX 580 уже не такое большое. Понятно, что Radeon HD 7970 снова далеко впереди, но даже и младшая модель AMD весьма хороша и обгоняет даже Geforce GTX 680, не говоря о младшей модификации. Явно не хватает эффективности Kepler в этих задачах...

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов чаще всего более-менее соответствуют разнице в частотах и количестве вычислительных блоков, но с влиянием разной эффективности их использования. Архитектуры AMD нескольких последних лет в таких случаях имели подавляющее преимущество перед конкурирующими видеокартами Nvidia, но именно в Kepler число потоковых процессоров и пиковая математическая производительность значительно возросли.

Так и есть — результаты видеокарт расположились на диаграмме примерно соответственно теории. А Geforce GTX 670 в этом тесте так и вообще опередила своего прямого конкурента в лице Radeon HD 7950! Впервые за много-много лет GPU калифорнийской компании опередил схожую по цене видеокарту конкурента, предлагаемую по аналогичной цене. Впрочем, в этом тесте у Radeon скорость должна была быть выше, но обе Geforce GTX 600 сработали в этот раз явно лучше.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нём только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

А во втором математическом тесте относительный результат новинки Nvidia оказался ниже, и она уступила Radeon HD 7950 примерно столько, сколько и должна по теории. Поэтому младшая из двух Radeon вырвалась вперёд, хотя и ненамного. Остальные позиции не изменились, GTX 580 из предыдущего поколения плат Nvidia далеко позади — вот что значит новая архитектура, подходящая для приложений такого рода.

Скорость рендеринга в данном тесте ограничена исключительно производительностью шейдерных блоков и их эффективностью, поэтому обе платы Radeon показывают сильные результаты, а топовая стала лидером сравнения. Но Geforce GTX 680 и GTX 670 уступают не так сильно, как это было в предыдущих поколениях, когда разница была чуть ли не в разы. Поэтому мы подтверждаем вывод из обзора Kepler — в предельных вычислительных задачах с выходом новой архитектуры разница между AMD и Nvidia стала совсем не такой большой, как это было ранее. Более того — в сравнении Geforce GTX 670 и Radeon HD 7950 и вовсе нет явного лидера.

Direct3D 10: тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS почти двукратное. Задача эта для современных видеокарт не слишком сложная, и производительность в ней ограничена или скоростью обработки геометрии или пропускной способностью памяти.

Лучше всего заметна разница между новым поколением плат Nvidia и решениями AMD. Если в предыдущих тестах с пиксельными шейдерами платы AMD явно были в целом эффективнее и быстрее, то первый тест геометрии показывает, что в таких задачах платы Nvidia до сих пор впереди. Наша новинка Geforce GTX 670 отстаёт от GTX 680 не слишком сильно и с запасом обходит топовую одночиповую плату из предыдущего поколения.

Что касается сравнения новинки с главным конкурентом, то итог сравнения логичен — разница между Geforce GTX 670 и Radeon HD 7970 почти полуторакратная. В этом поколении платы Radeon смогли догнать разве что лучшую из Fermi, и то хорошо. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры не изменились для устаревшей платы Nvidia и немного улучшились для новых плат AMD и Nvidia. Все видеокарты в данном тесте слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и все выводы остаются прежними. Представленная сегодня модель Geforce GTX 670 более чем в полтора раза быстрее Radeon HD 7950. Смотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры.

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленным в «Heavy» — ещё и для их отрисовки. То есть в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер.

Относительные результаты в разных режимах также примерно соответствуют изменению нагрузки: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть чуть менее чем в два раза медленней. Пока что изменений немного, разве что платы AMD подтянулись повыше.

В этом тесте скорость рендеринга ограничена в основном геометрической производительностью, но с некоторым влиянием пропускной способности видеопамяти. В этот раз Geforce GTX 670 оторвалась от соперничающей с ней Radeon HD 7950 лишь на 30-40%. Цифры должны сильно измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в режимах «Balanced» и «Heavy».

В этот раз диаграмма с переносом вычислений в геометрический шейдер поменялась весьма серьёзно и все видеокарты Nvidia оказались явно быстрее плат AMD, даже если брать Geforce GTX 580 предыдущего поколения. Ну а новые платы на базе Kepler так и ещё лучше справляются с задачей, так как этот тест упирается именно в производительность геометрических блоков, с мощностью которых у решений Nvidia всё более чем хорошо.

Поэтому Geforce имеют преимущество перед чипами AMD с традиционным графическим конвейером. Новинка Geforce GTX 670 даже в тяжёлом режиме показывает результат, как Radeon HD 7950 в среднем. То есть, между ними где-то 70-80% разницы в скорости, а это очень много. Так что хотя результаты плат конкурента на базе Tahiti заметно улучшились, всё-таки новейшие решения на базе чипа GK104 значительно опережают их в этой категории тестов.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Наши предыдущие исследования показали, что на результаты этого теста может влиять и скорость текстурирования и пропускная способность памяти, особенно в лёгком режиме. А результаты видеокарт Nvidia и вовсе ограничены ещё чем-то непонятным — посмотрите, у всех Geforce во всех условиях цифры просто идентичные. И вообще, между схожими по классу платами разница в этом тесте порой получается очень маленькой.

В этом тесте Radeon HD 7970 вырвалась далеко вперёд, а та же HD 7950, являющаяся для GTX 670 главным соперником, показала результаты несколько лучше, чем у рассматриваемой новинки. Но разница не такая уж большая, особенно в лёгком и среднем режимах. Новая плата семейства GTX 600 смогла соперничать с HD 7950 только в лёгком и среднем режимах, а в тяжёлом отстала чуть ли не на треть. Из-за небольшой разницы с GTX 680 можно предположить, что так получилось из-за низкого филлрейта и/или ПСП. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:

Взаимное расположение карт на диаграмме изменилось в основном за счёт того, что платы Nvidia обеспечили ту же скорость рендеринга во всех режимах, в отличие от решений AMD, которые немного сдали позиции. То есть, подтверждается наша версия об упоре скорости калифорнийских видеоплат в некую преграду. И теперь результаты Geforce GTX 670 не просто близки к скорости Radeon HD 7950, но она оказалась быстрее соперника уже во всех режимах, а не только в лёгком.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» совсем не похожи на то, что мы видели на предыдущих диаграммах. Но и в них отмечаем ту же странность — все представленные видеокарты Nvidia выстроились практически по одной линии. А вот у плат Radeon всё иначе, можно отдельно выделить отличную скорость топовой Radeon HD 7970, которая стала лучшей в сравнении.

Да и Radeon HD 7950 выступила явно сильнее представленной сегодня платы Geforce GTX 670. Все протестированные решения Nvidia снова упёрлись непонятно во что, показав чуть ли не идентичные результаты. Рассмотрим второй вариант этого же теста:

В этот раз также произошли изменения, аналогичные тем, что мы видели ранее — видеокарты производства AMD немного ухудшили свои результаты, а в лёгких режимах пострадали и платы Nvidia. Это позволило платам калифорнийской компании немного приблизиться к результатам Radeon HD 7970 и HD 7950, но всё же, представленная сегодня новинка архитектуры Kepler проиграла своему прямому конкуренту в лице Radeon HD 7950 в двух из трёх режимов. Тесты вершинного текстурирования в очередной раз измерили непонятно что.

3DMark Vantage: тесты Feature

Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10 и интересны тем, что отличаются от наших и до сих пор актуальны. При анализе результатов новой видеокарты Nvidia в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.

Feature Test 1: Texture Fill

Первый тест — тест скорости текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Хотя тест компании Futuremark не показывает теоретически возможного уровня производительности текстурных выборок, но эффективность видеокарт AMD и Nvidia в нём достаточно высока и сравнительные цифры моделей всегда довольно близки к соответствующим теоретическим параметрам. Но не всегда — ведь по теории лучшей видеокартой в сравнении должна быть модель Geforce GTX 680, но она показала в тесте меньшую эффективность, по сравнению с Radeon HD 7970 и уступила ей лидерство.

А вот в случае сравнения пары Geforce GTX 670 и Radeon HD 7950 всё сложилось по-другому. Новинка обогнала своего прямого конкурента, а уж Geforce GTX 580 из предыдущего поколения так и вовсе осталась далеко позади. Даже в условиях нехватки ПСП результат у GTX 670 оказался весьма неплохим, что в очередной раз показывает то, что некоторые недостатки архитектуры Fermi в новом поколении GPU успешно решены.

Feature Test 2: Color Fill

Это тест скорости заполнения. Используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Ситуация в тесте производительности блоков ROP сильно отличается. Мы определили раньше, что цифры этого подтеста из 3DMark Vantage хоть и показывают производительность блоков ROP, но с огромным влиянием величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»). Этот тест часто измеряет скорее пропускную способность памяти, чем производительность ROP.

Вот и в этот раз так получилось, потому что новая модель Geforce GTX 670 ровно такие же показатели по пропускной способности памяти, что и GTX 680. Поэтому и результаты у них практически идентичные. Причём, Geforce GTX 670 показала скорее результат уровня Radeon HD 7970, чем своего прямого конкурента HD 7950. Хотя разница между всеми GPU нового поколения невелика, а вот от Geforce GTX 580 они все далеко оторвались, что указывает на улучшения в эффективности работы блоков TMU.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нём рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоёмкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжёлого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчёты освещения по Strauss.

Этот тест отличается от проведённых нами выше тем, что результаты в нём зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от всего сразу. А для достижения высокой скорости тут важен верный баланс GPU, а также эффективность выполнения сложных шейдеров.

В синтетике из 3DMark Vantage платы Geforce и Radeon показывают примерно такие же относительные результаты, что и в аналогичных тестах из нашего тестового пакета. Новая плата Geforce GTX 670 хотя и опережает предшествующую GTX 580, но отстаёт от топовой GTX 680 на 16%. В этом тесте также сказываются упрощения в вычислительных блоках Kepler, эффективность новой архитектуры в таких задачах ниже, чем у Fermi и GCN.

Поэтому и в сравнении с конкурирующей платой AMD из семейства Radeon HD 7900 на базе новейшей архитектуры GCN, новинке Nvidia в тесте ничего не светило. Новая Geforce GTX 670 проиграла HD 7950 более чем 25%. Так что в подобных вычислительных задачах видеокарты компании AMD всё так же эффективнее справляются с работой.

Feature Test 4: GPU Cloth

Тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте зависит сразу от нескольких параметров, но основными факторами влияния являются производительность обработки геометрии, эффективность выполнения уже геометрических шейдеров и производительность блоков ROP. Из-за влияния геометрических блоков вполне логично, что видеокарты производства Nvidia чувствуют себя в этом приложении неплохо, обгоняя соответствующие Radeon.

Представленная сегодня модель Geforce GTX 670 легко обгоняет своего конкурента в виде модели Radeon HD 7950. Так как это один из тестов, в которых видно преимущество решений Nvidia, имеющих по несколько геометрических блоков, то даже топовое решение AMD осталось позади. Интересно также и то, что представленная сегодня новинка на базе чипа GK104 совсем немного опередила устаревшую модель на базе чипа GF110 — разница между ними лишь чуть более 1%. Вероятнее всего, виновато в этом ограничение ПСП или невысокая скорость заполнения.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчётами, также тестируется stream out.

Результаты данного теста из пакета 3DMark Vantage были бы похожи на те, что мы видели на предыдущей диаграмме, если бы не разница в скорости у Geforce GTX 580 на базе архитектуры Fermi. Это один из крайне немногочисленных тестов, в которых новые платы на базе чипа с архитектурой Kepler значительно уступают лучшему из представителей архитектуры Fermi. И в случае этого теста сравнительные результаты, скорее всего, объясняются показателем филлрейта, ведь пикового значение его у GTX 580 выше.

Зато если сравнивать скорость Geforce GTX 670 с производительностью его главного соперника, то новинка Nvidia ожидаемо впереди — причём, сразу на 30%. В двух синтетических тестах имитации тканей и частиц из тестового пакета 3DMark Vantage, в которых активно используются геометрические шейдеры, мало что изменилось — хотя новые платы Nvidia и ограничивает низкие показатели ПСП и филлрейта, GTX 670 в них всё равно быстрее, чем Radeon HD 7950.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических расчётов.

В чисто математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим иное распределение результатов, по сравнению с аналогичными тестами из нашего тестового пакета. В этом случае производительность решений не полностью соответствует теории и расходится с тем, что мы видели ранее в математических тестах из пакета RightMark 2.0.

Понятно, что видеокарты на базе чипов архитектуры GCN компании AMD справляются с такими задачами на отлично, платы Radeon всегда показывают лучшие результаты в случаях, когда выполняется сравнительно простая, но весьма интенсивная математика. Поэтому немудрено, что топовое решение компании AMD стало лидером, а рассматриваемая сегодня модель Geforce GTX 670 уступила своему прямому сопернику Radeon HD 7950 более чем 20%.

У обеих моделей на основе чипов GK104 эффективность в этой задаче явно слишком низкая. По теории, GTX 680 должна быть вдвое быстрее GTX 580, но такой разницы в реальности не отмечено. Даже в сравнительно простом тесте чип архитектуры Kepler показывает сниженную эффективность при выполнении шейдерных программ, так как других объяснений нет — та же меньшая ПСП тут не должна сказываться.

Direct3D 11: Вычислительные шейдеры

Чтобы протестировать новое решение компании Nvidia в задачах, использующих такие новые возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.

Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.

Хотя это не самый удачный пример для вычислительных шейдеров, но разницу в производительности в одной из конкретных задач он показывает. Разницы в скорости расчётов в вычислительном и пиксельном шейдерах для плат Nvidia с видеочипами архитектуры Kepler практически нет, как и для плат AMD. Судя по предыдущим тестам, результаты в задаче явно зависят не только от математической мощи и даже не только от эффективности вычислений, ни и от чего-то ещё, вроде ПСП.

Переходя к конкретным решениям, отметим, что новинка Nvidia в этом тесте отстаёт от старшей GTX 680 совсем немного, а вот Radeon HD 7970 уступает. К сожалению, результатов конкурирующего Radeon HD 7950 в DX11 тестах у нас нет. Зато есть Radeon HD 7870, который дешевле и явно медленнее в этих задачах. Второй тест вычислительных шейдеров также взят из Microsoft DirectX SDK, в нём показана расчётная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация.

В этом тесте результаты совсем другие, и разница между Geforce GTX 680 и новой GTX 670 составила более 18%, что очень близко к теоретическим отличиям между этими моделями. Но в целом, Kepler отлично справляется с работой, так как Geforce GTX 670 быстрее не только HD 7870, которая не является её конкурентом, но обгоняет и топовую плату AMD. Так что вряд ли этот тест измеряет скорость простых математических вычислений.

Скорее всего, скорость в нём сильно зависит от эффективности сложных вычислений, в которых Nvidia и ранее была сильна. В целом, результат новинки очень неплох, особенно если учесть значительный отрыв даже от лучшей платы конкурента. Тесты производительности в задачах тесселяции, скорее всего, покажут ещё одну сильную сторону новой Geforce.

Direct3D 11: Производительность тесселяции

Вычислительные шейдеры очень важны, но ещё одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали её в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro 2033, Civilization V, Crysis 2, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.

Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.

Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нём реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:

Как мы уже видели, parallax occlusion mapping на видеокартах обоих производителей выполняется гораздо менее эффективно, чем тесселяция, а тесселяция не даёт падения производительности в разы — сравните верхние и нижние столбцы на диаграмме. То есть, качественная имитация геометрии при помощи пиксельных расчётов обеспечивает худшую производительность, чем реальная геометрия с тесселяцией и displacement mapping.

В тесте простого бампмаппинга видно, что платы упираются в ПСП, скорее всего. Именно поэтому Radeon HD 7970 так сильна и обгоняет даже Geforce GTX 680, не говоря о сегодняшней новинке. Второй подтест с более сложными пиксельными расчётами показал, что эффективность выполнения сложных математических вычислений в пиксельных шейдерах у чипов архитектуры GCN всё же выше, чем у GPU производства Nvidia. Топовая видеоплата семейства Radeon HD 7000 показала лучший результат в тесте parallax mapping, и даже относительно дешёвая HD 7870 обогнала представленную сегодня GTX 670 в этом подтесте.

А в самом интересном подтесте тесселяции мы можем отметить результаты видеокарт Radeon — они очень сильны. В данном тесте тесселяции разбиение треугольников умеренное (по нашим предыдущим материалам мы знаем, что подтест не полностью упирается в скорость обработки геометрии), и поэтому платы компании AMD теряют не слишком много производительности, а их запаса скорости хватает, чтобы показать лучшие результаты. Особенно удивляет Radeon HD 7870, которая из-за высокой тактовой частоты GPU и оптимизаций в драйверах обогнала даже топовую видеоплату.

Вторым тестом производительности тесселяции будет ещё один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.

В этом примере мы видим уже более правдоподобное сравнение геометрической мощи различных решений. Все современные чипы вполне неплохо справляются с лёгкой и средней геометрической нагрузкой, но графические процессоры Nvidia остаются непревзойдёнными по этому показателю в самых тяжёлых условиях. К сожалению, результата с максимальным уровнем тесселяции (tessellation factor = 19) для Radeon HD 7870 у нас нет, о причинах мы писали в соответствующем обзоре.

Все чипы архитектур Fermi и Kepler хороши в таких задачах, но верхние решения линейки Geforce GTX 600 по этим показателям лучше всех. Представленное сегодня решение GTX 670 лишь совсем немного уступает топовой модели GTX 680, и выигрывает у Radeon HD 7970 в средних условиях почти до двух раз, в а самых тяжёлых и вовсе более чем в 3 раза. Хотя чипы архитектуры GCN в тесселяции заметно ускорились, это не позволило им догнать GK104.

Давайте рассмотрим результаты ещё одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта.

Напомним, что Island не является чисто синтетическим тестом для измерения только геометрической производительности, он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются сразу все блоки GPU, а не только геометрические, как в предыдущем бенчмарке.

Мы протестировали демо при четырёх разных коэффициентах тесселяции, в данном случае настройка называется Dynamic Tessellation LOD. И если при самом первом коэффициенте разбиения треугольников, когда скорость не ограничена производительностью геометрических блоков, видеокарты компании AMD весьма сильны, то при усложнении геометрической работы платы компании Nvidia начинает серьёзно выигрывать. При увеличении коэффициента разбиения и сложности сцены производительность обеих Radeon падает довольно сильно, даже несмотря на явные программные оптимизации в случае Radeon HD 7870.

Представленная новинка Nvidia в тяжёлых режимах уступает GTX 680 до 9-11%, но выигрывает у топовой конкурирующей Radeon HD 7970 слишком много. Хотя количество геометрических блоков в GK104 не увеличилось, но увеличенная тактовая частота видеочипа и большая математическая мощь позволили платам нового семейства показать ещё более сильные результаты. Последние решения компании AMD серьёзно подтянули геометрическую производительность и в реальных применениях, где нет сверхвысоких степеней разбиения треугольников, они практически не уступают решениям Nvidia, то в синтетических тестах геометрии победитель всегда известен заранее.

Выводы по синтетическим тестам

По результатам проведённых синтетических тестов новой модели видеокарты Geforce GTX 670, основанной на «урезанном» графическом процессоре GK104 архитектуры Kepler, а также результатам других моделей видеокарт производства обоих производителей дискретных видеочипов, можно сделать вывод, что новое околотоповое решение компании Nvidia станет одной из выгоднейших видеокарт в верхнем ценовом сегменте. Даже по техническим характеристикам и синтетическим тестам отставание новой модели от Geforce GTX 680 оказалось не так уж велико, а значит, и в играх будут показаны отличные результаты.

Графический процессор GK104 мы уже рассматривали ранее, он является первенцем новой архитектуры Kepler и выполнен с применением самого совершенного на сегодня техпроцесса. Чип новой архитектуры имеет несколько улучшений, основные из которых направлены на увеличение энергоэффективности. Наш набор синтетических тестов показал, что производительность Geforce GTX 670 почти во всех задачах близка к Geforce GTX 680 и Radeon HD 7970, и зачастую выше, чем у конкурирующей по цене модели Radeon HD 7950. Не говоря уже о геометрических тестах, где преимущество решений Nvidia просто огромно.

Из недостатков же снова отметим сниженную эффективность нового GPU в некоторых тестах сложных пиксельных шейдеров, вроде Parallax Occlusion Mapping и Fur, в которых новая плата уступает сопернику в виде Radeon HD 7950, а также ограниченную пропускную способность видеопамяти и её объём. В некоторых играх эти ограничения могут не позволить новинке показать все свои возможности. С другой стороны, эти недостатки тянутся ещё с GTX 680, а в GTX 670 просто невозможно было поставить более быструю память большего объёма — оставили всё так же, и на том спасибо.

Благодаря архитектурным изменениям в Kepler, Nvidia улучшила характеристики энергоэффективности своих топовых решений, в том числе и Geforce GTX 670. Новый чип GK104 отличается очень высокой производительностью, потребляя при этом не так много энергии — по официальным данным, меньше, чем Radeon HD 7950. Это улучшило потребительские характеристики, и видеокарта Geforce GTX 670 должна стать весьма неплохим предложением для тех энтузиастов, кто не хочет покупать самые дорогие топовые решения.

Мы уверены, что хорошие результаты новой модели Geforce GTX 670 в большинстве синтетических тестов будут подкреплены отличными показателями и в игровых приложениях из нашего тестового набора. Новинка должна показать высокую скорость в играх по сравнению с соперниками и стать одной из наиболее привлекательных видеокарт в своём ценовом сегменте.

Nvidia Geforce GTX 670 — Часть 3: производительность в игровых тестах →

Блок питания для тестового стенда предоставлен компанией Tagan

Корпус ThermalTake 8430 для тестового стенда предоставлен компанией 3Logic

Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia




Дополнительно

Обзор нового видеоускорителя Nvidia Geforce GTX 670. Часть 2 — Особенности видеокарты, результаты синтетических тестов

Nvidia Geforce GTX 670:

описание видеокарты и результаты синтетических тестов

Содержание

В этой части, как обычно, мы изучим саму видеокарту, а также познакомимся с результатами синтетических тестов.

Плата

Nvidia Geforce GTX 670 2048 МБ 256-битной GDDR5 PCI-E
  • GPU: Geforce GTX 670 (GK104)
  • Интерфейс: PCI Express x16
  • Частота работы GPU (ROPs): 915—1040 МГц (номинал — 915—980 МГц)
  • Частота работы памяти (физическая (эффективная)): 1500 (6000) МГц (номинал — 1500 (6000) МГц)
  • Ширина шины обмена с памятью: 256 бит
  • Число вычислительных блоков в GPU/частота работы блоков: 7/915—1030 МГц (номинал — 7/915—1030 МГц)
  • Число операций (ALU) в блоке: 192
  • Суммарное число операций (ALU): 1344
  • Число блоков текстурирования: 112 (BLF/TLF/ANIS)
  • Число блоков растеризации (ROP): 32
  • Размеры: 245×100×33 мм (последняя величина — максимальная толщина видеокарты)
  • Цвет текстолита: черный
  • Энергопотребление (пиковое в 3D/в режиме 2D/в режиме «сна»): 172/64/52 Вт
  • Выходные гнезда: 2×DVI (Dual-Link/VGA), 1×HDMI 1.4a, 1×DisplayPort 1.2
  • Поддержка многопроцессорной работы: SLI (Hardware)

Nvidia Geforce GTX 670 2048 МБ 256-битной GDDR5 PCI-E
Карта имеет 2048 МБ памяти GDDR5 SDRAM, размещенной в 8 микросхемах (по 4 на каждой сторонe PCB).

Микросхемы памяти Hynix (GDDR5). Микросхемы рассчитаны на максимальную частоту работы в 1500 (6000) МГц.

Сравнение с эталонным дизайном, вид спереди
Nvidia Geforce GTX 670 2048 МБ 256-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 680

Сравнение с эталонным дизайном, вид сзади
Nvidia Geforce GTX 670 2048 МБ 256-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 680

Как говорится, удивительное рядом. Вы только посмотрите, как кардинально отличаются карты, которые основаны на одном и том же ядре и по сути своей на 90% идентичны (сколько там у нас 7/8? 87,5%, так что правильнее говорить, что идентичны на 87,5% :-)). У 670-й карты полностью переработан дизайн! Во-первых, силовой блок, несколько видоизменившись, перекочевал на левую часть платы около гнезд вывода. Во-вторых, посадочных гнезд под микросхемы памяти стало не восемь, а шестнадцать, при этом распаянные восемь микросхем распределились по 4 на каждой стороне PCB (а не только на лицевой, как у GTX 680). Явно обеспечен задел на возможность комплектации карты не двумя, а четырьмя гигабайтами памяти. В-третьх, несмотря на такое невероятное количество микросхем, длина PCB резко уменьшилась и стала составлять всего 190 мм против 255 у GTX 680. Да, суммарная длина карты с кулером составляет 245 мм, однако значительная часть этой длины обеспечивается кожухом с вентилятором.

Нам редко доводилось видеть распаянные 256-битные шины на столь компактной PCB, разве что Radeon 9700 Pro когда-то вышел весьма компактным (по сути, первая серийная игровая карта с такой шиной). Мы реально поражены, и более того, если какому из производителей удастся на подобной PCB выпустить Geforce GTX 680, то это будет достойно аплодисментов. Топовый продукт — и столь компактен!

Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub (стоит отметить, что способностью передавать сигнал на VGA обладает только одно DVI-гнездо, поэтому подключить два монитора с такими входами уже не получится). Карта имеет гнездо HDMI, и напомним, что ускорители Nvidia достаточно давно обладают собственными звуковыми кодеками, поэтому передача на HDMI-монитор будет полноценной.

Отметим особо, что карта также имеет видеовыход DisplayPort версии 1.2, поэтому есть возможность с помощью специальных хабов выводить картинку с такого DP на три монитора.

Напомним также, что карта уровня GTX 680/670 способна выводить картинку одновременно на 4 монитора! При этом возможна работа и в стереорежиме — это весьма важное новшество.

Максимальные разрешения и частоты:

  • 240 Гц — максимальная частота обновления
  • 2048×1536@85 Гц — по аналоговому интерфейсу
  • 2560×1600@60 Гц — по цифровому интерфейсу (для DVI-гнезд с Dual-Link/HDMI)

Что касается возможностей по ускорению декодирования видео — в 2007 году мы проводили такое исследование, с ним можно ознакомиться здесь.

Карта требует дополнительного питания, причем двумя 6-контактными разъемами.

О системе охлаждения.

Nvidia Geforce GTX 670 2048 МБ 256-битной GDDR5 PCI-E
Система охлаждения в целом — традиционна. Длинный кожух, который увеличивает размер карты со 190 до 245 мм, имеет на конце цилиндрический стандартный вентилятор.

На ядре установлен радиатор на основе испарительной камеры, а также свой радиатор имеют силовые транзисторы; оба охлаждаются единым потоком воздуха.

А вот микросхемы памяти оставлены без охлаждения, при этом, напомню, они размещены на обеих сторонах карты. При максимальном нагреве ядра вентилятор поднимает обороты до примерно 60-66% (2300 об/мин) от своего максимума, что делает шум от него немного заметным.

Мы провели исследование температурного режима с помощью новой версии утилиты EVGA PrecisionX (автор А. Николайчук AKA Unwinder) и получили следующие результаты. Хочу напомнить, что GTX 670 по ядру работает на плавающих частотах от 915 до 980 МГц (cогласно декларации Nvidia). При этом реальная частота работы ядра достигает 1030 и даже 1040 МГц. Пока мы не знаем, является ли это особенностью, справедливой вообще для всех GTX 670, или же сэмпл референс-карты имеет чуть более высокие частоты, чем будут у серийно выпускаемых карт.

Вернемся к мониторингу.

Nvidia Geforce GTX 670 2048 МБ 256-битной GDDR5 PCI-E

Как мы видите, после 6 часов прогона карты под максимальной игровой нагрузкой максимальная температура ядра составила 82 градуса, что, в принципе, нормально для модели топовой серии.

Видеокарта прибыла к нам без упаковки и комплекта, потому вопрос комплектации мы опускаем.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core i7-975 (Socket 1366)
    • процессор Intel Core i7-975 (3340 МГц);
    • системная плата Asus P6T Deluxe на чипсете Intel X58;
    • оперативная память 6 ГБ DDR3 SDRAM Corsair 1600 МГц;
    • жесткий диск WD Caviar SE WD1600JD 160 ГБ SATA;
    • блок питания Enermax Platimax 1200 Вт.
  • операционная система Windows 7 64-битная; DirectX 11;
  • монитор Dell UltraSharp U3011 (30″);
  • драйверы AMD версии Catalyst 12.4; Nvidia версии 301.24

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационной программой Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010).

Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain, также известная как Island11.

Синтетические тесты проводились на следующих видеокартах:

  • Geforce GTX 670 со стандартными параметрами (далее GTX 670)
  • Geforce GTX 680 со стандартными параметрами (далее GTX 680)
  • Geforce GTX 580 со стандартными параметрами (далее GTX 580)
  • Radeon HD 7970 со стандартными параметрами (далее HD 7970)
  • Radeon HD 7950 со стандартными параметрами (далее HD 7950)
  • Radeon HD 7870 со стандартными параметрами (далее HD 7870)

Для сравнения результатов выпущенной сегодня видеокарты модели Geforce GTX 670 именно эти решения были выбраны по следующим причинам. Geforce GTX 580 является старшей одночиповой моделью предыдущего поколения и близка к GTX 570, которую новинка заменяет на рынке, а GTX 680 является топовой одночиповой моделью современной архитектуры Kepler компании Nvidia.

Выбранные решения конкурирующей компании AMD были взяты нами для тестов потому, что Radeon HD 7950 имеет близкую к анонсированной видеокарте Geforce цену и является её прямым конкурентом на данный момент. Radeon HD 7970 взята как топовая модель AMD, сравнение с которой также может быть интересным, ну а модель HD 7870 используется в нескольких тестах как вспомогательная, ведь она также очень близка к Radeon HD 7950 по скорости.

Direct3D 9: тесты Pixel Shaders

Тесты текстурирования и заполнения (филлрейта) из пакета 3DMark Vantage мы рассмотрим ниже, а первая группа пиксельных шейдеров, которую мы используем, включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0, встречающихся в старых играх, и она очень проста для современных видеочипов.

Эти тесты просты для современных GPU, и скорость в них зачастую упирается в производительность текстурирования или филлрейт. Поэтому эти тесты способны показать далеко не все возможности современных видеочипов, но они интересны нам с точки зрения аналогов устаревших игровых приложений, которых до сих пор довольно много.

Судя по предыдущим нашим сравнениям, производительность новых видеокарт в этих тестах ограничена чаще всего филлрейтом, хотя и влияние скорости текстурных модулей тоже прослеживается. Но оно точно неявное, так как Geforce GTX 680 не стал победителем, как должен, исходя из текстурной производительности. Общие результаты не позволяют выделить какую-то исключительную характеристику, влияющую на общую скорость рендеринга.

В этих тестах топовая видеоплата компании AMD явно лидирует, но представленную модель Geforce GTX 670 нужно сравнивать не с Radeon HD 7970, а с HD 7950. Которая заметно уступает именно в этих тестах. И вот тут положение уже не в пользу платы AMD. Возможно, её подвели программные оптимизации в драйверах (использовались разные версии), потому что такой разницы быть не должно. Это видно и по её сравнению с HD 7870.

В этих тестах Geforce GTX 670 выступает на очень хорошем уровне, уступая старшей GTX 680 всего лишь около 10%, что явно меньше теоретической разницы в скорости текстурирования и математических вычислений. Да и по сравнению с конкурирующей моделью Radeon HD 7950 всё очень даже хорошо. Посмотрим на результаты более сложных пиксельных программ промежуточных версий:

Тест Cook-Torrance более интенсивен вычислительно, разница в нём примерно соответствует разнице в количестве ALU и их частоте, но и от скорости TMU она также зависит. Поэтому данный тест исторически лучше подходит графическим решениям компании AMD, но теперь и Geforce на базе архитектуры Kepler в нём весьма сильны.

И большая разница по скорости между Radeon HD 7970 и HD 7950 снова сыграла в пользу Nvidia — в сравнении прямых конкурентов, Geforce GTX 670 снова выходит явным победителем. Что касается абсолютного лидерства, то в одном из тестов (где важнее быстрая математика) чуть быстрее Radeon, а в другом (где важнее текстурная производительность) — Geforce впереди.

Direct3D 9: тесты пиксельных шейдеров Pixel Shaders 2.0

Эти тесты пиксельных шейдеров DirectX 9 сложнее предыдущих, они близки к тому, что мы сейчас видим в мультиплатформенных играх, и делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D-графики.
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами.

Существует два варианта этих шейдеров: с ориентацией на математические вычисления и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:

Это — универсальные тесты, производительность в которых зависит и от скорости блоков ALU, и от скорости текстурирования, также в них важен общий баланс чипа и эффективность исполнения вычислительных программ. Результаты теста показывают, что в этих конкретных задачах архитектура AMD значительно опережает GPU производства Nvidia.

Производительность свежих видеокарт AMD в тесте «Frozen Glass» значительно выше, чем у новинки, но это больше относится к Radeon HD 7970, а вот младшая модель HD 7950 хотя и осталась впереди, но не настолько. Скорее всего, чипы Nvidia просто неэффективно выполняют эту задачу, или драйверы недостаточно хорошо под неё оптимизированы. А ещё может быть, что скорость ограничивает пропускная способность. Ведь в сравнении с предшествующей моделью GTX 580, новинка показала крайне небольшой прирост скорости.

Во втором тесте «Parallax Mapping» новая видеокарта Nvidia показала производительность, сравнимую с той, что мы получили от Radeon HD 7950, хотя последней снова явно что-то мешает в программной части, так как старшая модель AMD остаётся в единоличных лидерах. Решения Nvidia в этом тесте не могут догнать топовую плату AMD по каким-то причинам, вроде недостаточной ПСП. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям:

Для плат с GPU производства Nvidia положение стало лучше, и Geforce GTX 670 теперь всегда быстрее Radeon HD 7950 и немногим медленнее HD 7870 только в первом тесте. Но всё же скорость Geforce упирается во что-то, и современные чипы AMD в этих задачах работают эффективнее. Новая видеокарта серии Geforce GTX 600 в тесте Parallax Mapping довольно сильна, и отстаёт лишь от двух старших моделей обеих компаний, а в тесте Frozen Glass отставание от них больше. Разница между GTX 680 и GTX 670 составляет 9-12%, что меньше теоретической.

Это были устаревшие задачи, с упором в текстурирование и филлрейт. Далее мы рассмотрим результаты ещё двух тестов пиксельных шейдеров — но уже версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Они наиболее показательны с точки зрения современных игр на ПК, среди которых много мультиплатформенных. Тесты отличаются тем, что сильно нагружают и ALU, и текстурные модули, обе шейдерные программы сложны и длинны, и включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D-графики.
  • Fur — процедурный шейдер, визуализирующий мех.

Данные тесты уже не ограничены производительностью лишь текстурных выборок, а больше всего зависят от эффективности исполнения шейдерного кода. В самых сложных DX9-тестах из первой версии пакета RightMark видеокарты производства Nvidia ранее были сильнее, но в последней архитектуре компании AMD изменили положение и теперь именно топовое решение на чипе архитектуры GCN в PS 3.0 сравнении показывает лучший результат.

Но и наш сегодняшний герой показал неплохие результаты, уступив своему прямому конкуренту Radeon HD 7950 только в одном из тестов, выиграв во втором. В «Fur» так вообще показан отличный результат лучше чем у HD 7950 и HD 7870. При этом от старшей модели Geforce GTX 680 новинка отстаёт уже на 14-17%, что гораздо ближе к теоретическому превосходству топовой видеокарты над представленной сегодня. И говорит о том, что упора в пропускную способность в данном тесте почти нет.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Во вторую версию RightMark3D вошли два знакомых теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

В этом тесте производительность зависит в большей степени от количества и эффективности блоков TMU, но сильно влияет и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает ещё и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low».

Как и в аналогичных DX9 тестах, в задачах процедурной визуализации меха с большим количеством текстурных выборок, за пару поколений графических архитектур компания AMD не только сократила разницу с платами Nvidia, а с выпуском GCN и вовсе вырвалась вперёд. И теперь мы очень часто видим Radeon HD 7970 в лидерах таких сравнений, что говорит о высокой эффективности выполнения им сложных пиксельных программ.

Рассматриваемая сегодня модель Geforce GTX 670 показала результат на уровне GTX 580, то есть почти хуже всех, что может указывать или на снизившуюся эффективность исполнения сложных шейдеров в Kepler или на недостаток в пропускной способности памяти или эффективном филлрейте. С конкурентом в лице Radeon HD 7950 тут не побороться, ведь он значительно сильнее.

Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: возможно, в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Да, обе видеокарты новой линейки Geforce GTX 600 явно улучшили результаты относительно старой Geforce GTX 580, но при включении суперсэмплинга, увеличивающего теоретическую нагрузку вчетверо, результаты решений Nvidia в целом всё равно значительно ухудшились, по сравнению с показателями видеокарт AMD. Разница по скорости рендеринга в данной задаче и так была высока, а теперь стала просто огромной.

Протестированная новинка компании Nvidia опередила только GTX 580, и проигрывает до 50% своему конкуренту компании AMD — видеокарте модели Radeon HD 7950. А уж топовая плата из этой серии HD 7000 в тесте показывает и вовсе наибольшую производительность, что говорит о «любви» GCN к сложным вычислениям. Преимущество в этих тестах явно за чипами компании AMD, предпочитающими попиксельные вычисления.

Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, используются во многих проектах, например в играх серий Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип ещё примерно в два раза — такой режим называется «High».

Диаграмма очень похожа на предыдущую без дополнительного включения SSAA, и решения Nvidia в этом тесте не улучшили своё положение ни на грамм. Новая плата Geforce GTX 670 в обновленном D3D10-варианте теста без суперсэмплинга всё так же отстаёт от своего прямого соперника Radeon HD 7950 и обходит лишь GTX 580. Посмотрим, что изменит включение суперсэмплинга, ведь он обычно вызывает сильное падение скорости на платах Nvidia.

И тут всё примерно так же, что и в «Fur». При включении суперсэмплинга и самозатенения, задача получается ещё более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьёзное падение производительности. Разница между скоростными показателями протестированных видеокарт изменилась, включение суперсэмплинга сказывается, как и в предыдущем случае — видеокарты производства AMD явно улучшили относительные показатели, по сравнению с платами на чипах Nvidia.

Хотя в этот раз разница между Geforce GTX 670 и Radeon HD 7950 несколько уменьшилась, да и опережение GTX 580 уже не такое большое. Понятно, что Radeon HD 7970 снова далеко впереди, но даже и младшая модель AMD весьма хороша и обгоняет даже Geforce GTX 680, не говоря о младшей модификации. Явно не хватает эффективности Kepler в этих задачах...

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов чаще всего более-менее соответствуют разнице в частотах и количестве вычислительных блоков, но с влиянием разной эффективности их использования. Архитектуры AMD нескольких последних лет в таких случаях имели подавляющее преимущество перед конкурирующими видеокартами Nvidia, но именно в Kepler число потоковых процессоров и пиковая математическая производительность значительно возросли.

Так и есть — результаты видеокарт расположились на диаграмме примерно соответственно теории. А Geforce GTX 670 в этом тесте так и вообще опередила своего прямого конкурента в лице Radeon HD 7950! Впервые за много-много лет GPU калифорнийской компании опередил схожую по цене видеокарту конкурента, предлагаемую по аналогичной цене. Впрочем, в этом тесте у Radeon скорость должна была быть выше, но обе Geforce GTX 600 сработали в этот раз явно лучше.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нём только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

А во втором математическом тесте относительный результат новинки Nvidia оказался ниже, и она уступила Radeon HD 7950 примерно столько, сколько и должна по теории. Поэтому младшая из двух Radeon вырвалась вперёд, хотя и ненамного. Остальные позиции не изменились, GTX 580 из предыдущего поколения плат Nvidia далеко позади — вот что значит новая архитектура, подходящая для приложений такого рода.

Скорость рендеринга в данном тесте ограничена исключительно производительностью шейдерных блоков и их эффективностью, поэтому обе платы Radeon показывают сильные результаты, а топовая стала лидером сравнения. Но Geforce GTX 680 и GTX 670 уступают не так сильно, как это было в предыдущих поколениях, когда разница была чуть ли не в разы. Поэтому мы подтверждаем вывод из обзора Kepler — в предельных вычислительных задачах с выходом новой архитектуры разница между AMD и Nvidia стала совсем не такой большой, как это было ранее. Более того — в сравнении Geforce GTX 670 и Radeon HD 7950 и вовсе нет явного лидера.

Direct3D 10: тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS почти двукратное. Задача эта для современных видеокарт не слишком сложная, и производительность в ней ограничена или скоростью обработки геометрии или пропускной способностью памяти.

Лучше всего заметна разница между новым поколением плат Nvidia и решениями AMD. Если в предыдущих тестах с пиксельными шейдерами платы AMD явно были в целом эффективнее и быстрее, то первый тест геометрии показывает, что в таких задачах платы Nvidia до сих пор впереди. Наша новинка Geforce GTX 670 отстаёт от GTX 680 не слишком сильно и с запасом обходит топовую одночиповую плату из предыдущего поколения.

Что касается сравнения новинки с главным конкурентом, то итог сравнения логичен — разница между Geforce GTX 670 и Radeon HD 7970 почти полуторакратная. В этом поколении платы Radeon смогли догнать разве что лучшую из Fermi, и то хорошо. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры не изменились для устаревшей платы Nvidia и немного улучшились для новых плат AMD и Nvidia. Все видеокарты в данном тесте слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и все выводы остаются прежними. Представленная сегодня модель Geforce GTX 670 более чем в полтора раза быстрее Radeon HD 7950. Смотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры.

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленным в «Heavy» — ещё и для их отрисовки. То есть в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер.

Относительные результаты в разных режимах также примерно соответствуют изменению нагрузки: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть чуть менее чем в два раза медленней. Пока что изменений немного, разве что платы AMD подтянулись повыше.

В этом тесте скорость рендеринга ограничена в основном геометрической производительностью, но с некоторым влиянием пропускной способности видеопамяти. В этот раз Geforce GTX 670 оторвалась от соперничающей с ней Radeon HD 7950 лишь на 30-40%. Цифры должны сильно измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в режимах «Balanced» и «Heavy».

В этот раз диаграмма с переносом вычислений в геометрический шейдер поменялась весьма серьёзно и все видеокарты Nvidia оказались явно быстрее плат AMD, даже если брать Geforce GTX 580 предыдущего поколения. Ну а новые платы на базе Kepler так и ещё лучше справляются с задачей, так как этот тест упирается именно в производительность геометрических блоков, с мощностью которых у решений Nvidia всё более чем хорошо.

Поэтому Geforce имеют преимущество перед чипами AMD с традиционным графическим конвейером. Новинка Geforce GTX 670 даже в тяжёлом режиме показывает результат, как Radeon HD 7950 в среднем. То есть, между ними где-то 70-80% разницы в скорости, а это очень много. Так что хотя результаты плат конкурента на базе Tahiti заметно улучшились, всё-таки новейшие решения на базе чипа GK104 значительно опережают их в этой категории тестов.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Наши предыдущие исследования показали, что на результаты этого теста может влиять и скорость текстурирования и пропускная способность памяти, особенно в лёгком режиме. А результаты видеокарт Nvidia и вовсе ограничены ещё чем-то непонятным — посмотрите, у всех Geforce во всех условиях цифры просто идентичные. И вообще, между схожими по классу платами разница в этом тесте порой получается очень маленькой.

В этом тесте Radeon HD 7970 вырвалась далеко вперёд, а та же HD 7950, являющаяся для GTX 670 главным соперником, показала результаты несколько лучше, чем у рассматриваемой новинки. Но разница не такая уж большая, особенно в лёгком и среднем режимах. Новая плата семейства GTX 600 смогла соперничать с HD 7950 только в лёгком и среднем режимах, а в тяжёлом отстала чуть ли не на треть. Из-за небольшой разницы с GTX 680 можно предположить, что так получилось из-за низкого филлрейта и/или ПСП. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:

Взаимное расположение карт на диаграмме изменилось в основном за счёт того, что платы Nvidia обеспечили ту же скорость рендеринга во всех режимах, в отличие от решений AMD, которые немного сдали позиции. То есть, подтверждается наша версия об упоре скорости калифорнийских видеоплат в некую преграду. И теперь результаты Geforce GTX 670 не просто близки к скорости Radeon HD 7950, но она оказалась быстрее соперника уже во всех режимах, а не только в лёгком.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» совсем не похожи на то, что мы видели на предыдущих диаграммах. Но и в них отмечаем ту же странность — все представленные видеокарты Nvidia выстроились практически по одной линии. А вот у плат Radeon всё иначе, можно отдельно выделить отличную скорость топовой Radeon HD 7970, которая стала лучшей в сравнении.

Да и Radeon HD 7950 выступила явно сильнее представленной сегодня платы Geforce GTX 670. Все протестированные решения Nvidia снова упёрлись непонятно во что, показав чуть ли не идентичные результаты. Рассмотрим второй вариант этого же теста:

В этот раз также произошли изменения, аналогичные тем, что мы видели ранее — видеокарты производства AMD немного ухудшили свои результаты, а в лёгких режимах пострадали и платы Nvidia. Это позволило платам калифорнийской компании немного приблизиться к результатам Radeon HD 7970 и HD 7950, но всё же, представленная сегодня новинка архитектуры Kepler проиграла своему прямому конкуренту в лице Radeon HD 7950 в двух из трёх режимов. Тесты вершинного текстурирования в очередной раз измерили непонятно что.

3DMark Vantage: тесты Feature

Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10 и интересны тем, что отличаются от наших и до сих пор актуальны. При анализе результатов новой видеокарты Nvidia в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.

Feature Test 1: Texture Fill

Первый тест — тест скорости текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Хотя тест компании Futuremark не показывает теоретически возможного уровня производительности текстурных выборок, но эффективность видеокарт AMD и Nvidia в нём достаточно высока и сравнительные цифры моделей всегда довольно близки к соответствующим теоретическим параметрам. Но не всегда — ведь по теории лучшей видеокартой в сравнении должна быть модель Geforce GTX 680, но она показала в тесте меньшую эффективность, по сравнению с Radeon HD 7970 и уступила ей лидерство.

А вот в случае сравнения пары Geforce GTX 670 и Radeon HD 7950 всё сложилось по-другому. Новинка обогнала своего прямого конкурента, а уж Geforce GTX 580 из предыдущего поколения так и вовсе осталась далеко позади. Даже в условиях нехватки ПСП результат у GTX 670 оказался весьма неплохим, что в очередной раз показывает то, что некоторые недостатки архитектуры Fermi в новом поколении GPU успешно решены.

Feature Test 2: Color Fill

Это тест скорости заполнения. Используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Ситуация в тесте производительности блоков ROP сильно отличается. Мы определили раньше, что цифры этого подтеста из 3DMark Vantage хоть и показывают производительность блоков ROP, но с огромным влиянием величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»). Этот тест часто измеряет скорее пропускную способность памяти, чем производительность ROP.

Вот и в этот раз так получилось, потому что новая модель Geforce GTX 670 ровно такие же показатели по пропускной способности памяти, что и GTX 680. Поэтому и результаты у них практически идентичные. Причём, Geforce GTX 670 показала скорее результат уровня Radeon HD 7970, чем своего прямого конкурента HD 7950. Хотя разница между всеми GPU нового поколения невелика, а вот от Geforce GTX 580 они все далеко оторвались, что указывает на улучшения в эффективности работы блоков TMU.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нём рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоёмкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжёлого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчёты освещения по Strauss.

Этот тест отличается от проведённых нами выше тем, что результаты в нём зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от всего сразу. А для достижения высокой скорости тут важен верный баланс GPU, а также эффективность выполнения сложных шейдеров.

В синтетике из 3DMark Vantage платы Geforce и Radeon показывают примерно такие же относительные результаты, что и в аналогичных тестах из нашего тестового пакета. Новая плата Geforce GTX 670 хотя и опережает предшествующую GTX 580, но отстаёт от топовой GTX 680 на 16%. В этом тесте также сказываются упрощения в вычислительных блоках Kepler, эффективность новой архитектуры в таких задачах ниже, чем у Fermi и GCN.

Поэтому и в сравнении с конкурирующей платой AMD из семейства Radeon HD 7900 на базе новейшей архитектуры GCN, новинке Nvidia в тесте ничего не светило. Новая Geforce GTX 670 проиграла HD 7950 более чем 25%. Так что в подобных вычислительных задачах видеокарты компании AMD всё так же эффективнее справляются с работой.

Feature Test 4: GPU Cloth

Тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте зависит сразу от нескольких параметров, но основными факторами влияния являются производительность обработки геометрии, эффективность выполнения уже геометрических шейдеров и производительность блоков ROP. Из-за влияния геометрических блоков вполне логично, что видеокарты производства Nvidia чувствуют себя в этом приложении неплохо, обгоняя соответствующие Radeon.

Представленная сегодня модель Geforce GTX 670 легко обгоняет своего конкурента в виде модели Radeon HD 7950. Так как это один из тестов, в которых видно преимущество решений Nvidia, имеющих по несколько геометрических блоков, то даже топовое решение AMD осталось позади. Интересно также и то, что представленная сегодня новинка на базе чипа GK104 совсем немного опередила устаревшую модель на базе чипа GF110 — разница между ними лишь чуть более 1%. Вероятнее всего, виновато в этом ограничение ПСП или невысокая скорость заполнения.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчётами, также тестируется stream out.

Результаты данного теста из пакета 3DMark Vantage были бы похожи на те, что мы видели на предыдущей диаграмме, если бы не разница в скорости у Geforce GTX 580 на базе архитектуры Fermi. Это один из крайне немногочисленных тестов, в которых новые платы на базе чипа с архитектурой Kepler значительно уступают лучшему из представителей архитектуры Fermi. И в случае этого теста сравнительные результаты, скорее всего, объясняются показателем филлрейта, ведь пикового значение его у GTX 580 выше.

Зато если сравнивать скорость Geforce GTX 670 с производительностью его главного соперника, то новинка Nvidia ожидаемо впереди — причём, сразу на 30%. В двух синтетических тестах имитации тканей и частиц из тестового пакета 3DMark Vantage, в которых активно используются геометрические шейдеры, мало что изменилось — хотя новые платы Nvidia и ограничивает низкие показатели ПСП и филлрейта, GTX 670 в них всё равно быстрее, чем Radeon HD 7950.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических расчётов.

В чисто математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим иное распределение результатов, по сравнению с аналогичными тестами из нашего тестового пакета. В этом случае производительность решений не полностью соответствует теории и расходится с тем, что мы видели ранее в математических тестах из пакета RightMark 2.0.

Понятно, что видеокарты на базе чипов архитектуры GCN компании AMD справляются с такими задачами на отлично, платы Radeon всегда показывают лучшие результаты в случаях, когда выполняется сравнительно простая, но весьма интенсивная математика. Поэтому немудрено, что топовое решение компании AMD стало лидером, а рассматриваемая сегодня модель Geforce GTX 670 уступила своему прямому сопернику Radeon HD 7950 более чем 20%.

У обеих моделей на основе чипов GK104 эффективность в этой задаче явно слишком низкая. По теории, GTX 680 должна быть вдвое быстрее GTX 580, но такой разницы в реальности не отмечено. Даже в сравнительно простом тесте чип архитектуры Kepler показывает сниженную эффективность при выполнении шейдерных программ, так как других объяснений нет — та же меньшая ПСП тут не должна сказываться.

Direct3D 11: Вычислительные шейдеры

Чтобы протестировать новое решение компании Nvidia в задачах, использующих такие новые возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.

Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.

Хотя это не самый удачный пример для вычислительных шейдеров, но разницу в производительности в одной из конкретных задач он показывает. Разницы в скорости расчётов в вычислительном и пиксельном шейдерах для плат Nvidia с видеочипами архитектуры Kepler практически нет, как и для плат AMD. Судя по предыдущим тестам, результаты в задаче явно зависят не только от математической мощи и даже не только от эффективности вычислений, ни и от чего-то ещё, вроде ПСП.

Переходя к конкретным решениям, отметим, что новинка Nvidia в этом тесте отстаёт от старшей GTX 680 совсем немного, а вот Radeon HD 7970 уступает. К сожалению, результатов конкурирующего Radeon HD 7950 в DX11 тестах у нас нет. Зато есть Radeon HD 7870, который дешевле и явно медленнее в этих задачах. Второй тест вычислительных шейдеров также взят из Microsoft DirectX SDK, в нём показана расчётная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация.

В этом тесте результаты совсем другие, и разница между Geforce GTX 680 и новой GTX 670 составила более 18%, что очень близко к теоретическим отличиям между этими моделями. Но в целом, Kepler отлично справляется с работой, так как Geforce GTX 670 быстрее не только HD 7870, которая не является её конкурентом, но обгоняет и топовую плату AMD. Так что вряд ли этот тест измеряет скорость простых математических вычислений.

Скорее всего, скорость в нём сильно зависит от эффективности сложных вычислений, в которых Nvidia и ранее была сильна. В целом, результат новинки очень неплох, особенно если учесть значительный отрыв даже от лучшей платы конкурента. Тесты производительности в задачах тесселяции, скорее всего, покажут ещё одну сильную сторону новой Geforce.

Direct3D 11: Производительность тесселяции

Вычислительные шейдеры очень важны, но ещё одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали её в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro 2033, Civilization V, Crysis 2, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.

Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.

Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нём реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:

Как мы уже видели, parallax occlusion mapping на видеокартах обоих производителей выполняется гораздо менее эффективно, чем тесселяция, а тесселяция не даёт падения производительности в разы — сравните верхние и нижние столбцы на диаграмме. То есть, качественная имитация геометрии при помощи пиксельных расчётов обеспечивает худшую производительность, чем реальная геометрия с тесселяцией и displacement mapping.

В тесте простого бампмаппинга видно, что платы упираются в ПСП, скорее всего. Именно поэтому Radeon HD 7970 так сильна и обгоняет даже Geforce GTX 680, не говоря о сегодняшней новинке. Второй подтест с более сложными пиксельными расчётами показал, что эффективность выполнения сложных математических вычислений в пиксельных шейдерах у чипов архитектуры GCN всё же выше, чем у GPU производства Nvidia. Топовая видеоплата семейства Radeon HD 7000 показала лучший результат в тесте parallax mapping, и даже относительно дешёвая HD 7870 обогнала представленную сегодня GTX 670 в этом подтесте.

А в самом интересном подтесте тесселяции мы можем отметить результаты видеокарт Radeon — они очень сильны. В данном тесте тесселяции разбиение треугольников умеренное (по нашим предыдущим материалам мы знаем, что подтест не полностью упирается в скорость обработки геометрии), и поэтому платы компании AMD теряют не слишком много производительности, а их запаса скорости хватает, чтобы показать лучшие результаты. Особенно удивляет Radeon HD 7870, которая из-за высокой тактовой частоты GPU и оптимизаций в драйверах обогнала даже топовую видеоплату.

Вторым тестом производительности тесселяции будет ещё один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.

В этом примере мы видим уже более правдоподобное сравнение геометрической мощи различных решений. Все современные чипы вполне неплохо справляются с лёгкой и средней геометрической нагрузкой, но графические процессоры Nvidia остаются непревзойдёнными по этому показателю в самых тяжёлых условиях. К сожалению, результата с максимальным уровнем тесселяции (tessellation factor = 19) для Radeon HD 7870 у нас нет, о причинах мы писали в соответствующем обзоре.

Все чипы архитектур Fermi и Kepler хороши в таких задачах, но верхние решения линейки Geforce GTX 600 по этим показателям лучше всех. Представленное сегодня решение GTX 670 лишь совсем немного уступает топовой модели GTX 680, и выигрывает у Radeon HD 7970 в средних условиях почти до двух раз, в а самых тяжёлых и вовсе более чем в 3 раза. Хотя чипы архитектуры GCN в тесселяции заметно ускорились, это не позволило им догнать GK104.

Давайте рассмотрим результаты ещё одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта.

Напомним, что Island не является чисто синтетическим тестом для измерения только геометрической производительности, он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются сразу все блоки GPU, а не только геометрические, как в предыдущем бенчмарке.

Мы протестировали демо при четырёх разных коэффициентах тесселяции, в данном случае настройка называется Dynamic Tessellation LOD. И если при самом первом коэффициенте разбиения треугольников, когда скорость не ограничена производительностью геометрических блоков, видеокарты компании AMD весьма сильны, то при усложнении геометрической работы платы компании Nvidia начинает серьёзно выигрывать. При увеличении коэффициента разбиения и сложности сцены производительность обеих Radeon падает довольно сильно, даже несмотря на явные программные оптимизации в случае Radeon HD 7870.

Представленная новинка Nvidia в тяжёлых режимах уступает GTX 680 до 9-11%, но выигрывает у топовой конкурирующей Radeon HD 7970 слишком много. Хотя количество геометрических блоков в GK104 не увеличилось, но увеличенная тактовая частота видеочипа и большая математическая мощь позволили платам нового семейства показать ещё более сильные результаты. Последние решения компании AMD серьёзно подтянули геометрическую производительность и в реальных применениях, где нет сверхвысоких степеней разбиения треугольников, они практически не уступают решениям Nvidia, то в синтетических тестах геометрии победитель всегда известен заранее.

Выводы по синтетическим тестам

По результатам проведённых синтетических тестов новой модели видеокарты Geforce GTX 670, основанной на «урезанном» графическом процессоре GK104 архитектуры Kepler, а также результатам других моделей видеокарт производства обоих производителей дискретных видеочипов, можно сделать вывод, что новое околотоповое решение компании Nvidia станет одной из выгоднейших видеокарт в верхнем ценовом сегменте. Даже по техническим характеристикам и синтетическим тестам отставание новой модели от Geforce GTX 680 оказалось не так уж велико, а значит, и в играх будут показаны отличные результаты.

Графический процессор GK104 мы уже рассматривали ранее, он является первенцем новой архитектуры Kepler и выполнен с применением самого совершенного на сегодня техпроцесса. Чип новой архитектуры имеет несколько улучшений, основные из которых направлены на увеличение энергоэффективности. Наш набор синтетических тестов показал, что производительность Geforce GTX 670 почти во всех задачах близка к Geforce GTX 680 и Radeon HD 7970, и зачастую выше, чем у конкурирующей по цене модели Radeon HD 7950. Не говоря уже о геометрических тестах, где преимущество решений Nvidia просто огромно.

Из недостатков же снова отметим сниженную эффективность нового GPU в некоторых тестах сложных пиксельных шейдеров, вроде Parallax Occlusion Mapping и Fur, в которых новая плата уступает сопернику в виде Radeon HD 7950, а также ограниченную пропускную способность видеопамяти и её объём. В некоторых играх эти ограничения могут не позволить новинке показать все свои возможности. С другой стороны, эти недостатки тянутся ещё с GTX 680, а в GTX 670 просто невозможно было поставить более быструю память большего объёма — оставили всё так же, и на том спасибо.

Благодаря архитектурным изменениям в Kepler, Nvidia улучшила характеристики энергоэффективности своих топовых решений, в том числе и Geforce GTX 670. Новый чип GK104 отличается очень высокой производительностью, потребляя при этом не так много энергии — по официальным данным, меньше, чем Radeon HD 7950. Это улучшило потребительские характеристики, и видеокарта Geforce GTX 670 должна стать весьма неплохим предложением для тех энтузиастов, кто не хочет покупать самые дорогие топовые решения.

Мы уверены, что хорошие результаты новой модели Geforce GTX 670 в большинстве синтетических тестов будут подкреплены отличными показателями и в игровых приложениях из нашего тестового набора. Новинка должна показать высокую скорость в играх по сравнению с соперниками и стать одной из наиболее привлекательных видеокарт в своём ценовом сегменте.

Nvidia Geforce GTX 670 — Часть 3: производительность в игровых тестах →

Блок питания для тестового стенда предоставлен компанией Tagan

Корпус ThermalTake 8430 для тестового стенда предоставлен компанией 3Logic

Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia