Nvidia Geforce GTX 660:

описание видеокарт и результаты синтетических тестов


Содержание

В этой части мы изучим видеокарты, а также познакомимся с результатами синтетических тестов. В нашей лаборатории побывали 2 карты разных производителей.

Платы

KFA2 Geforce GTX 660 Overclocked 2048 МБ 192-битной GDDR5 PCI-E
  • GPU: Geforce GTX 660 (GK106)
  • Интерфейс: PCI Express x16
  • Частота работы GPU (ROPs): 1008—1090 МГц (номинал — 980—1033 МГц)
  • Частота работы памяти (физическая (эффективная)): 1500 (6000) МГц (номинал — 1500 (6000) МГц)
  • Ширина шины обмена с памятью: 192 бит
  • Число вычислительных блоков в GPU/частота работы блоков: 5/1008—1090 МГц (номинал — 7/980—1033 МГц)
  • Число операций (ALU) в блоке: 192
  • Суммарное число операций (ALU): 960
  • Число блоков текстурирования: 80 (BLF/TLF/ANIS)
  • Число блоков растеризации (ROP): 24
  • Размеры: 250×100×36 мм (последняя величина — максимальная толщина видеокарты)
  • Цвет текстолита: синий
  • Энергопотребление (пиковое в 3D/в режиме 2D/в режиме «сна»): 142/48/27 Вт
  • Выходные гнезда: 1×DVI (Dual-Link/HDMI), 1×DVI (Single-Link/VGA), 1×HDMI 1.4a, 1×DisplayPort 1.2
  • Поддержка многопроцессорной работы: SLI (Hardware)
Zotac Geforce GTX 660 2048 МБ 192-битной GDDR5 PCI-E
  • GPU: Geforce GTX 660 (GK106)
  • Интерфейс: PCI Express x16
  • Частота работы GPU (ROPs): 993—1075 МГц (номинал — 980—1033 МГц)
  • Частота работы памяти (физическая (эффективная)): 1500 (6000) МГц (номинал — 1500 (6000) МГц)
  • Ширина шины обмена с памятью: 192 бит
  • Число вычислительных блоков в GPU/частота работы блоков: 5/993—1075 МГц (номинал — 7/980—1033 МГц)
  • Число операций (ALU) в блоке: 192
  • Суммарное число операций (ALU): 960
  • Число блоков текстурирования: 80 (BLF/TLF/ANIS)
  • Число блоков растеризации (ROP): 24
  • Размеры: 180×100×36 мм (последняя величина — максимальная толщина видеокарты)
  • Цвет текстолита: черный
  • Энергопотребление (пиковое в 3D/в режиме 2D/в режиме «сна»): 141/48/25 Вт
  • Выходные гнезда: 1×DVI (Dual-Link/HDMI), 1×DVI (Single-Link/VGA), 1×HDMI 1.4a, 1×DisplayPort 1.2
  • Поддержка многопроцессорной работы: SLI (Hardware)

KFA2 Geforce GTX 660 Overclocked 2048 МБ 192-битной GDDR5 PCI-E
Карта имеет 2048 МБ памяти GDDR5 SDRAM, размещенной в 8 микросхемах (по 4 на каждой стороне PCB).

Микросхемы памяти Hynix (GDDR5). Микросхемы рассчитаны на максимальную частоту работы в 1500 (6000) МГц.
Zotac Geforce GTX 660 2048 МБ 192-битной GDDR5 PCI-E
Карта имеет 2048 МБ памяти GDDR5 SDRAM, размещенной в 8 микросхемах (по 4 на каждой стороне PCB).

Микросхемы памяти Samsung (GDDR5). Микросхемы рассчитаны на максимальную частоту работы в 1500 (6000) МГц.

Сравнение с эталонным дизайном, вид спереди
KFA2 Geforce GTX 660 Overclocked 2048 МБ 192-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 670
Zotac Geforce GTX 660 2048 МБ 192-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 670

Сравнение с эталонным дизайном, вид сзади
KFA2 Geforce GTX 660 Overclocked 2048 МБ 192-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 670
Zotac Geforce GTX 660 2048 МБ 192-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 670

В предыдущем материале по GTX 660 Ti мы уже обсуждали, как получить ускоритель со 192-битной шиной, но при этом оснащенный объемом памяти в 2 ГБ. Ведь такой объем обычно набирается 8 микросхемами по 2 Гбит каждая, и они суммарно образуют 256-битную шину (8×32 бит). Чтобы получить 192-битную, надо комплектовать карту не 8, а 6 микросхемами, однако тогда объем памяти получится 1,5 ГБ. Можно было бы пойти по тому же пути, что с GTX 550 Ti: поставить 4 микросхемы по 1 Гбит и 2 микросхемы по 2 Гбит каждая — тогда суммарно получили 1 ГБ и 192-битную шину. Благо контроллер памяти у чипов Nvidia умеет работать с микросхемами разной емкости. Но тогда речь шла о суммарном объеме в 1 ГБ. А 2 ГБ с помощью 6 микросхем уже не набрать. Придется ставить 12 с разной емкостью. В данном случае производители пошли по иному пути: установили не 12 микросхем разной емкости, а 8 одной емкости в 2 Гбит. Но при этом два 64-битных контроллера из трех работают как обычно — каждый с двумя микросхемами по 32-битной шине, а третий работает с четырьмя микросхемами, используя у каждой 16-битную ширину тактового слова, если можно так выразиться (4×16 = 64 бит). Этот вариант с точки зрения себестоимости более предпочителен, потому что на карту монтируется меньше микросхем памяти (8, а не 12).

Как мы видим, отличия между GTX 660 и GTX 660 Ti весьма существенные. Дело в том, что GTX 660 Ti выпускается на базе старшего GK104, имеющего четыре 64-битных контроллера памяти и расчитанного на 256-битную шину обмена с памятью. И когда пришла пора делать из него младшее решение, то пришлось искать варианты по урезанию шины (о чем выше уже говорилось). И был найден свой вариант, позволяющий при надобности увеличить объем памяти до 3 гигабайта. А у GTX 660 уже имеется своя PCB, которая предусматривает максимальный объем памяти в 2 гигабайта, а также можно получить 1,5 гигабайта при условии сохранения той же 192-битной шины памяти (просто не установить те самые 2 микросхемы памяти, которые используются не по полной ширине своих шин). Это может как-то удешевить выпуск такого рода GTX 660.

Что касается отличий между картами, то они также существенные. Если инженеры Zotac старались сохранить пропорции и размеры 660 Ti на новом продукте, чтобы карта получилась компактной, то у KFA2 карта вышла весьма длинной. Однако при этом питание имеет 6 фаз, когда как у Zotac — всего 4. Это потому, что продукт KFA2 нацелен в какой-то степени на оверклокеров, которым важно иметь избыточную стабильность в питании. А карта Zotac — простой продукт для обычных пользователей, не рассчитанный на высокий разгон. Да и частота работы ядра у ее всего на 13 МГц выше номинала, то есть по сути ничем не отличается. Впрочем, 28 МГц разницы в частотах у модели KFA2 и «оригинальной» GTX 660 — это тоже мизер, практически не влияющий на производительность.

Видеокарты имеют стандартный для GTX 670/680 набор гнезд вывода: 2 DVI (один из которых Single-Link и совместим с выводом на VGA) и по одному DisplayPort и HDMI (второе гнездо DVI обладает возможностью через адаптер передавать сигнал на HDMI, поэтому суммарно можно подключить 2 приемника с HDMI). Напомним, что ускорители Nvidia достаточно давно обладают собственными звуковыми кодеками, поэтому передача на HDMI-монитор будет полноценной, со звуком.

Максимальные разрешения и частоты:

  • 240 Гц — максимальная частота обновления
  • 2048×1536@85 Гц — по аналоговому интерфейсу
  • 2560×1600@60 Гц — по цифровому интерфейсу (для DVI-гнезд с Dual-Link/HDMI)

Что касается возможностей по ускорению декодирования видео — в 2007 году мы проводили такое исследование, с ним можно ознакомиться здесь.

Каждая карта требует дополнительного питания, причем одним 6-контактным разъемом.

О системах охлаждения.

KFA2 Geforce GTX 660 Overclocked 2048 МБ 192-битной GDDR5 PCI-E
Кулер состоит из большого центрального радиатора, покрытого напыленным никелем, усиленного тепловыми трубками, и кожуха с двумя вентиляторами. Собственно, ничего нового. Подобные СО мы уже видели многократно, они стандартны.

Микросхемы памяти без охлаждения, а вот силовые транзисторы имеют свой небольшой радиатор.

СО получилась нешумная, потому что по сути чуть-чуть избыточна для такого рода карт. Максимальная частота вращения вентиляторов ниже 1500 оборотов в минуту.
Zotac Geforce GTX 660 2048 МБ 192-битной GDDR5 PCI-E
Мы уже отмечали в материале по GTX 660 Ti, что специалисты Zotac представили очень компактную СО, которая соответствует размерами небольшой PCB, и этот ускоритель также выглядит весьма маленьким. При этом по ширине карта с СО занимает все те же 2 слота.

Конструкция радиатора схожа с предыдущей, однако тепловые трубки прямо впрессованы в основание и по сути прижимаются к ядру, разнося тепло по радиатору. Микросхемы памяти также не охлаждаются. А вот силовые элементы БП имеют свой небольшой радиатор.

И снова мы видим, что несмотря на то, что используемые вентиляторы — особой конструкции, предусматривающей пониженный уровень шума, небольшие размеры радиаторы заставляют их работать на частоте выше 2500 оборотов в минуту (при максимальной нагрузке), что делает охлаждение никак не бесшумным.

Мы провели исследование температурного режима с помощью новой версии утилиты EVGA PrecisionX (автор А. Николайчук AKA Unwinder) и получили следующие результаты.

KFA2 Geforce GTX 660 Overclocked 2048 МБ 192-битной GDDR5 PCI-E
Zotac Geforce GTX 660 2048 МБ 192-битной GDDR5 PCI-E

После 6 часов прогона карты под максимальной игровой нагрузкой максимальная температура ядра составила 61 градус у продукта KFA2 и 75 градусов у карты Zotac, что говорит о том, что СО у KFA2 получилась просто отличной, а вот у Zotac «подкачала». Впрочем и 75 градусов на ядре — не критично.

Комплектация. Базовый комплект поставки должен включать в себя руководство пользователя и диск с драйверами и утилитами.

KFA2 Geforce GTX 660 Overclocked 2048 МБ 192-битной GDDR5 PCI-E
Перед нами базовый комплект плюс разветвитель на 6-контактный коннектор питания и адаптер DVI-to-VGA.
Zotac Geforce GTX 660 2048 МБ 192-битной GDDR5 PCI-E
Аналогичный комплект поставки.

На очереди рассмотрение упаковок.

KFA2 Geforce GTX 660 Overclocked 2048 МБ 192-битной GDDR5 PCI-E
Ускоритель размещен в отсеке из пенополиуретана, и поэтому хорошо защищен от повреждений при перевозке.
Zotac Geforce GTX 660 2048 МБ 192-битной GDDR5 PCI-E
Ускоритель размещен в пластиковом отсеке, повторяющем конфигурацию карты, так что карта хорошо защищена от повреждений при перевозке.

Установка и драйверы

Конфигурация тестового стенда:

    Компьютеры на базе процессора Intel Core i7-3960X (Socket 2011):
    • процессор Intel Core i7-3960X (o/c 4 ГГц);
    • системная плата Asus Sabertooth X79 на чипсете Intel X79;
    • системная плата MSI X79A-GD45(8D) на чипсете Intel X79;
    • оперативная память 8 ГБ DDR3 SDRAM Corsair 1866 МГц;
    • жесткий диск Seagate Barracuda 7200.14 3 ТБ SATA2;
    • жесткий диск WD Caviar Blue WD10EZEX 1 TБ SATA2;
    • 2 блока питания Enermax Platimax 1200 Вт.
  • операционная система Windows 7 64-битная; DirectX 11;
  • монитор Dell UltraSharp U3011 (30″);
  • драйверы AMD версии Catalyst 12.8; Nvidia версии 305.37/306.23

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационной программой Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010).

Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain, также известная как Island11.

Синтетические тесты проводились на следующих видеокартах:

  • Geforce GTX 660 со стандартными параметрами (далее GTX 660)
  • Geforce GTX 660 Ti со стандартными параметрами (далее GTX 660 Ti)
  • Geforce GTX 580 со стандартными параметрами (далее GTX 580)
  • Geforce GTX 560 Ti со стандартными параметрами (далее GTX 560 Ti)
  • Radeon HD 7870 со стандартными параметрами (далее HD 7870)
  • Radeon HD 7850 со стандартными параметрами (далее HD 7850)

Для сравнения результатов выпущенной сегодня видеокарты модели Geforce GTX 660 эти решения были выбраны по следующим причинам. Geforce GTX 660 Ti является ближайшей к GTX 660 моделью по цене, и она основана на базе чипа GK104 той же архитектуры. Сравнение с GTX 580 и GTX 560 Ti будет интересно по причине разных поколений и ценовых диапазонов видеокарт, ведь первая модель является топовой одночиповой моделью предыдущей архитектуры от Nvidia, а вторая — предшественником сегодняшней новинки.

Выбранные видеоплаты от конкурирующей компании AMD были взяты для наших тестов потому, что Radeon HD 7850 имеет близкие к анонсированной видеокарте Nvidia Geforce характеристики и чуть меньшую цену, да и вторая модель — Radeon HD 7870 — также не так далека от новинки по скорости и цене, но уже сверху, так как имеет несколько большую цену. Так что прямого конкурента для Geforce GTX 660 нет, ими являются сразу обе видеокарты от AMD из семейства Radeon HD 7800.

Direct3D 9: тесты Pixel Shaders

Тесты текстурирования и заполнения (филлрейта) из пакета 3DMark Vantage мы рассмотрим ниже, а первая группа пиксельных шейдеров, которую мы используем, включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0, встречающихся в старых играх, и она очень проста для современных видеочипов.

Эти тесты очень просты для современных GPU, и скорость в них часто упирается в производительность текстурирования или филлрейт. И поэтому результаты способны показать далеко не все возможности современных видеочипов, но всё же интересны с точки зрения аналогов устаревших игровых приложений, которых до сих пор достаточно много. Судя по нашим предыдущим сравнениям, производительность последних видеокарт в этих тестах ограничена чаще всего филлрейтом, хотя и влияние скорости текстурных модулей также прослеживается.

Новый 3D-ускоритель от Nvidia неплохо смотрится в этом сравнении — почти на уровне своей старшей сестры Geforce GTX 660 Ti, уступая ей не слишком много, около 10-20%. В этих тестах лидирует старшая видеоплата от компании AMD, а новинка Geforce GTX 660 показала результат где-то между Radeon HD 7870 и HD 7850, как и должно быть, исходя по цене. Смущает слишком большая разница между Radeon HD 7850 и HD 7870, в чём виноваты программные оптимизации в драйверах разных версий.

Интересно сравнение с Geforce GTX 580, которая недавно была лучшей одночиповой. Новинка опередила её в трёх из пяти простых тестов, уступая лишь в самых сложных. Понятно, что GTX 560 Ti оставлена далеко позади. Посмотрим на результаты более сложных пиксельных программ промежуточных версий:

Тест Cook-Torrance более интенсивен вычислительно, разница в нём примерно соответствует разнице в количестве ALU и их частоте, но и от скорости TMU она также зависит. Хотя данный тест исторически лучше подходит для графических решений компании AMD, но все новые платы Geforce на базе архитектуры Kepler в нём также оказываются весьма сильны. Скорость GTX 660 в нём более чем на четверть ниже, чем у старшей GTX 660 Ti.

Впрочем, в тесте Water, скорость в котором больше зависит от текстурирования, мы видим то же самое. Интересна почти двукратная разница по скорости между Radeon HD 7870 и HD 7850, не объяснимая с теоретической точки зрения. Наша сегодняшняя героиня в лице Geforce GTX 660 при сравнении с прямыми конкурентами снова показывает промежуточный результат строго по соотношению цен. Абсолютное лидерство в обоих тестах ожидаемо заняла GTX 660 Ti. Любопытно, что новая Geforce GTX 660 опередила GTX 580 в этой паре тестов — старую карту явно подвела низкая математическая и текстурная производительность.

Direct3D 9: тесты пиксельных шейдеров Pixel Shaders 2.0

Эти тесты пиксельных шейдеров DirectX 9 сложнее предыдущих, они близки к тому, что мы сейчас видим в мультиплатформенных играх, и делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D-графики.
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами.

Существует два варианта этих шейдеров: с ориентацией на математические вычисления и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:

Это — универсальные тесты, производительность в которых зависит и от скорости блоков ALU, и от скорости текстурирования, также в них важен общий баланс чипа и эффективность исполнения вычислительных программ. Результаты теста показывают, что в этих конкретных задачах архитектура AMD смотрится заметно лучше, чем GPU производства Nvidia.

Производительность старшей из пары Radeon HD 7870 такова, что она обходит даже Geforce GTX 660 Ti, являющуюся её прямым конкурентом. Причём, платы AMD настолько хороши в этом сравнении, что даже HD 7850 обходит представленную GTX 660 в тесте «Frozen Glass». По сравнению с GTX 580 наблюдается примерный паритет, в одном из тестов выигрывает старая плата, во втором — новая.

Во втором тесте «Parallax Mapping» новая видеокарта от Nvidia показала производительность выше, чем у Radeon HD 7850, но ниже HD 7870. Отставание от старшей GTX 660 Ti составило в этот раз почти 20%. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям:

Для плат на чипах производства Nvidia положение явно улучшилось, и Geforce GTX 660 теперь явно опережает одного из конкурентов и располагаясь почти строго посередине между ними. Современные чипы AMD и в этих задачах работают несколько эффективнее, а новая видеокарта серии Geforce GTX 600 в тестах уступает GTX 660 Ti уже около 30%, что полностью соответствует теоретическим показателям. Зато GTX 580 теперь всегда позади, не говоря о GTX 560 Ti.

Но это были устаревшие задачи, с упором в текстурирование и филлрейт. Далее мы рассмотрим результаты ещё двух тестов пиксельных шейдеров — но уже версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Они наиболее показательны с точки зрения современных игр на ПК, среди которых много мультиплатформенных. Тесты отличаются тем, что сильно нагружают и ALU, и текстурные модули, обе шейдерные программы сложны и длинны, и включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D-графики.
  • Fur — процедурный шейдер, визуализирующий мех.

А вот эти тесты не ограничены производительностью только текстурных выборок, и больше всего зависят от эффективности исполнения сложного шейдерного кода. В самых тяжёлых DX9-тестах из первой версии пакета RightMark видеокарты производства Nvidia ранее были сильнее, но в последней архитектуре компании AMD исправили положение и теперь именно их старшее решение на чипе архитектуры GCN в PS 3.0 сравнении показывает лучший результат, опережая в т.ч. и GTX 660 Ti.

А рассматриваемая сегодня модель Geforce GTX 660 уступает старшей сестре почти треть, что соответствует разнице в скорости математических вычислений. Новинка в очередной раз располагается примерно посередине между двумя платами серии Radeon HD 7800, но чуть ближе к младшей модели.

Да и предыдущей топовой GTX 580 она уступает в одном из тестов, хотя и быстрее GTX 560 Ti. В задаче «Fur» новинка показала скорость на уровне GTX 580, а вот в «Steep Parallax Mapping» увы, дела не столь выдающиеся — её результат заментно ниже, чем у платы на основе чипа GF110. Скорее всего, новую модель ограничивает или сравнительная неэффективность Kepler в этой задаче, по сравнению с Fermi, что мы наблюдали и ранее.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Во вторую версию RightMark3D вошли два знакомых теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

В этом тесте производительность зависит в большей степени от количества и эффективности блоков TMU, влияет и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает ещё и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low».

Как и в аналогичных DX9 тестах, в задачах процедурной визуализации меха с большим количеством текстурных выборок, за пару поколений графических архитектур компания AMD не только сократила разницу с платами Nvidia, а с выпуском GCN и вовсе вырвалась вперёд. Теперь именно платы Radeon являются лидерами таких сравнений, что говорит о высокой эффективности выполнения ими данных программ. Снова удивляемся двукратной разнице между HD 7870 и HD 7850 — ну не должна она такой быть.

Рассматриваемая нами сегодня модель Geforce GTX 660 показала результат лишь на уровне младшей из пары Radeon HD 7800, что довольно слабо. GTX 660 Ti и GTX 580 идут примерно наравне, а новинка им обеим серьёзно уступила. В этом виновата снизившаяся эффективность исполнения сложных шейдеров, так как недостатка пропускной способности памяти (эффективного филлрейта) нет, судя по цифрам GTX 660 Ti. Парочка из GTX 660 и HD 7850 оказалась медленнее остальных участников, прилично уступив всем платам Radeon и Geforce.

Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: возможно, в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

И в этот раз ситуация аналогична предыдущей. Видеокарты новой линейки Geforce GTX 600 вроде бы улучшили результаты относительно старой Geforce GTX 580, и теперь GTX 660 близка к её уровню, но зато, при включении суперсэмплинга, увеличивающего теоретическую нагрузку вчетверо, результаты решений Nvidia в целом даже ухудшились, по сравнению с показателями видеокарт компании AMD. А разница по скорости рендеринга в данной задаче и так была не в их пользу, поэтому разгром со стороны Radeon HD 7870 стал полным.

Протестированная сегодня новая плата компании Nvidia опередила (и то ненамного) разве что слабую модель Radeon HD 7850, которая оказалась худшей, на наше удивление. Старая GTX 580, ненамного от них ушла, уступив GTX 660 Ti. В остальном, отмечаем сильный проигрыш новинки своему «верхнему» конкуренту — видеокарте модели Radeon HD 7870. Преимущество архитектуры GCN в сложных вычислениях явно у чипов компании AMD, предпочитающих попиксельные вычисления.

Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, давно используются во многих проектах, например в играх серий Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип ещё примерно в два раза — такой режим называется «High».

Диаграмма похожа на предыдущую (без дополнительного включения SSAA), разве что старая Geforce GTX 580 немного потеряла. Решения Nvidia в этом тесте справляются с ним всё так же хуже конкурирующих, и новая плата Geforce GTX 660 в обновленном D3D10-варианте теста без суперсэмплинга всё так же сильно отстаёт от сильнейшего из своих прямых соперников в серии Radeon HD 7800. Да и с HD 7850 новинка борется с переменным успехом. Посмотрим, что изменит включение суперсэмплинга, ведь он обычно вызывает сильное падение скорости на платах Nvidia.

И тут всё примерно так же, что и в «Fur». При включении суперсэмплинга и самозатенения, задача получается ещё более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьёзное падение производительности. Разница между скоростными показателями протестированных видеокарт изменилась, включение суперсэмплинга сказывается, как и в предыдущем случае — видеокарты производства AMD улучшили относительные показатели, по сравнению с платами на чипах Nvidia.

Теперь Geforce GTX 660 уже во всех условиях немного обгоняет Radeon HD 7850, но разница совсем невелика. Кроме того, старшая Radeon HD 7870 и вовсе является лучшей платой сравнения, заметно опережая остальные решения. Эта модель снова сильна и показала отличные результаты. Сегодняшняя новинка не может конкурировать с ней в этом тесте, так как графические решения Nvidia в наших D3D10-тестах пиксельных шейдеров работают явно не слишком эффективно. Ну хотя бы GTX 580 новинка почти догнала, и то неплохо.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов чаще всего более-менее соответствуют разнице в частотах и количестве вычислительных блоков, но с влиянием разной эффективности их использования. Архитектуры AMD последних лет в таких случаях раньше имели огромное преимущество перед конкурирующими видеокартами Nvidia, которое можно увидеть, сравнив результаты GTX 580 и HD 7870, но калифорнийская компания в архитектуре Kepler увеличила число потоковых процессоров, и пиковая математическая производительность свежих моделей Geforce значительно возросла. Это хорошо видно по сравнению GTX 660 и GTX 580 — старая модель осталась далеко позади.

Результаты видеокарт на диаграмме расположились примерно соответственно теории, с некоторыми исключениями. Интересно, что Geforce GTX 660 Ti опередила своего прямого конкурента в лице Radeon HD 7870 (да и HD 7950, отсутствующего на диаграмме), поэтому вполне логично, что и Geforce GTX 660 показывает неплохую скорость, располагаясь между HD 7850 и HD 7870, но ближе уже к старшей модели. Исходя из теории, в этом тесте скорость видеокарт AMD должна быть выше, но карты семейства Geforce GTX 600 в этой задаче работают эффективнее.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нём только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Во втором математическом тесте относительный результат новинки от Nvidia оказался несколько ниже, и она уже оказалась ровно посередине между платами семейства AMD Radeon HD 7800. Разница в скорости между Radeon и современными Geforce значительно уменьшилась, что можно считать явным достижением со стороны Nvidia и её архитектуры Kepler.

Новая плата на базе чипа GK106 снова опередила устаревшую модель GTX 580, основанную на чипе архитектуры Fermi. Всё-таки новая архитектура Kepler для приложений такого рода подходит куда лучше, и с её выходом разница между Radeon и Geforce стала совсем небольшой, в отличие от предыдущих нескольких лет.

Direct3D 10: тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS почти двукратное. Задача эта для современных видеокарт не слишком сложная, и производительность в ней ограничена скоростью обработки геометрии и пропускной способностью памяти.

Очень хорошо заметна разница между результатами видеокарт на чипах Nvidia и решений AMD — они расположились почти по линиям. Если в предыдущих тестах с пиксельными шейдерами платы AMD были в среднем эффективнее и быстрее, то первый же тест геометрии показал, что в таких задачах платы Nvidia остаются лидерами. Сегодняшняя новинка Geforce GTX 660 отстаёт от GTX 660 Ti совсем немного, потому что не упирается в пропускную способность памяти, который для этих плат равна.

Показанная скорость позволяет ей обойти обоих конкурентов в данной задаче, и итог сравнения вполне логичен — разница между Geforce GTX 660 и обеими платами Radeon HD 7950 заметная. Хотя в этом поколении платы Radeon улучшили свои показатели, но пока всё же не смогли догнать даже Fermi, не говоря уже о Kepler. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры не изменились для устаревшей платы Nvidia и немного улучшились для всех плат AMD и решений Nvidia из современного поколения. Все видеокарты в данном тесте слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и все выводы остаются прежними. Представленная сегодня модель Geforce GTX 660 оказалась чуть медленнее GTX 660 Ti и заметно быстрее обеих видеоплат семейства Radeon HD 7800. Интересно, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры.

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленным в «Heavy» — ещё и для их отрисовки. То есть в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер.

Увы, но в этом тесте нет результатов ни для Radeon HD 7870, ни для HD 7850, поскольку по какой-то причине они просто не запускаются (хочется думать, что из-за ошибки в драйверах, а не специально). Относительные результаты остальных решений в разных режимах также примерно соответствуют изменению нагрузки: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть чуть менее чем в два раза медленней.

В этом тесте скорость рендеринга ограничена в основном геометрической производительностью. Ведь в этот раз Geforce GTX 660 показала скорость между скоростью предыдущей старшей модели GTX 580 и старшей сестрой GTX 660 Ti. Эти цифры должны серьёзно измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в режимах «Balanced» и «Heavy».

Обе Radeon отсутствуют всё по тем же причинам. В этот раз при переносе вычислений в геометрический шейдер диаграмма поменялась, и новая видеокарта от Nvidia оказалась самой медленной, уступив даже Geforce GTX 580 из предыдущего поколения, которая лучше справилась с этой задачей. Этот тест явно упирается именно в производительность геометрических блоков, с мощностью которых у решений Nvidia всё традиционно неплохо. И хотя результат платы на базе GK106 хуже, чем у топовых решений на GF110 и GK104, но это вполне объяснимо, так как они имеют большее количество геометрических блоков.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Наши предыдущие исследования показали, что на результаты этого теста может влиять и скорость текстурирования и пропускная способность памяти, особенно в лёгком режиме. А результаты некоторых видеокарт Nvidia и вовсе бывают ограничены ещё чем-то странным. И между схожими по классу платами разница в этом тесте порой получается очень маленькой.

Geforce GTX 660 показала результат хуже, чем у GTX 660 Ti, но всё же лучше, чем GTX 580. Самой медленной стала Radeon HD 7850, а лучшими, с переменным успехом, оказались GTX 660 Ti и HD 7870. По сравнению со своими соперниками у сегодняшней новинки всё неплохо, хотя она и уступает HD 7870 во всех режимах, но разница невелика. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:

Взаимное расположение карт на диаграмме немного изменилось за счёт того, что платы Nvidia обеспечили почти ту же скорость рендеринга во всех режимах, в отличие от решений AMD, которые результаты которых ухудшились. Результаты Geforce GTX 660 близки к скорости GTX 580, но всё же чуть выше. Также новинка оказалась несколько быстрее, чем Radeon HD 7870 в двух из трёх режимов. А слабейшей стала младшая модель серии Radeon HD 7800.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» совсем не похожи на то, что мы видели на предыдущих диаграммах. В этот раз показатели старой топовой модели Geforce GTX 580 в тяжёлом режиме оказались очень низкими. Остальные видеокарты сравнения показали попарно близкие результаты. Причём, пары странные. Скорость Radeon HD 7870 почти до единиц соответствует показателям GTX 660 Ti, а представленная сегодня модель GTX 660 совсем чуть-чуть быстрее младшего варианта HD 7850. Рассмотрим второй вариант этого же теста:

В этот раз не произошло особых изменений, как в предыдущие разы, и видеокарты производства AMD не ухудшили свои результаты. Зато в лёгких режимах пострадали видеоплаты компании Nvidia, что позволило Radeon HD 7870 стать быстрейшей в сравнении. А представленная сегодня плата на чипе архитектуры Kepler показала производительность, почти идентичную младшей из своих прямых конкурентов — Radeon HD 7850. В целом, GTX 660 в тестах вершинного текстурирования выступила не очень сильно, хотя это не имеет особого значения, так как оно в играх применяется слабо.

3DMark Vantage: тесты Feature

Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10 и интересны тем, что отличаются от наших и до сих пор актуальны. При анализе результатов новой видеокарты Nvidia в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.

Feature Test 1: Texture Fill

Первый тест — тест скорости текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Тест компании Futuremark не показывает теоретически возможного уровня производительности текстурных выборок, но эффективность видеокарт AMD и Nvidia в нём достаточно высока и сравнительные цифры моделей довольно близки к соответствующим теоретическим параметрам. В этот раз получилось похоже на истину — новая Geforce GTX 660 отстала от GTX 660 Ti ровно на треть. По теории быстрейшей видеокартой в сравнении должна быть GTX 660 Ti — так оно и получилось.

В случае сравнения Geforce GTX 660 с парой конкурентов: Radeon HD 7850 и HD 7870 всё примерно соответствует теории. Новинка от Nvidia по текстурной скорости заметно обогнала слабого из пары прямых конкурентов, немного уступив старшей. А Geforce GTX 580 из предыдущего поколения осталась позади, уступив GTX 660 — это хороший знак для игровых приложений.

Feature Test 2: Color Fill

Это тест скорости заполнения. Используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Ситуация в тесте производительности блоков ROP лишь отдалённо напоминает теорию. Мы определили ранее, что цифры этого подтеста из 3DMark Vantage показывают производительность блоков ROP с учётом величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»), хотя тест измеряет скорее пропускную способность памяти, чем производительность ROP, что видно по скорости двух новых видеокарт Nvidia. Интересно, что старая GTX 580 даже немного отстаёт от них, хотя оба теоретических параметра у неё лучше. Это указывает на улучшение эффективности работы блоков TMU в Kepler.

Что касается сравнения с платами от соперничающей компании AMD, то представленная сегодня модель Geforce GTX 660 показала очень неплохую скорость заполнения сцены и опередила обоих своих конкурентов в лице Radeon HD 7850 и HD 7870. То есть, в случае ограничения общей производительности в играх филлрейтом, GTX 660 будет весьма сильна.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нём рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоёмкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжёлого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчёты освещения по Strauss.

Тест отличается от проведённых нами ранее тем, что результаты в нём зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а много от чего сразу. Для достижения высокой скорости тут важен верный баланс GPU, а также эффективность выполнения сложных шейдеров. В данном случае, больше важна математическая и текстурная производительность, поэтому в синтетике из 3DMark Vantage плата Geforce GTX 660 уступила GTX 660 Ti ровно треть. А лучшей стала Radeon HD 7870, как и в аналогичных тестах из нашего тестового пакета.

Модель Geforce GTX 660 хотя и немного опережает предшествующую топовую GTX 580, а обе они сильно выигрывают у слабого из двух конкурентов компании AMD, но старшей Radeon HD 7870 все они уступают. Похоже, что в этом тесте эффективность вычислительных блоков Kepler несколько ниже, чем у Fermi и GCN и поэтому в сравнении с конкурирующей платой HD 7870 на базе архитектуры GCN, новинка от Nvidia проиграла. Всё-таки в подобных вычислительных задачах видеокарты компании AMD лучше справляются с работой.

Feature Test 4: GPU Cloth

Тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте зависит сразу от нескольких параметров, но основными факторами влияния являются производительность обработки геометрии и эффективность выполнения геометрических шейдеров. Из-за влияния геометрических блоков вполне логично, что все видеокарты производства Nvidia чувствуют себя в этом тестировании весьма неплохо, обгоняя соответствующие по цене платы Radeon.

Вот и анонсированная сегодня модель Geforce GTX 660 легко опережает обоих конкурентов в виде моделей Radeon HD 7850 и HD 7870. Слабейшая карта AMD отстала и вовсе в два раза. Это один из тестов, в которых видно явное преимущество решений Nvidia, имеющих по несколько геометрических блоков. Интересно, что новинка на базе чипа GK106 не слишком сильно отстала от старшей сестры GTX 660 Ti, имеющей большее количество геометрических блоков.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчётами, также тестируется stream out.

Это ещё один геометрический тест, и самый интересный вывод из данной диаграммы мы сделали ещё в прошлые разы — это единственный наш тест, в котором новые платы на базе чипа с архитектурой Kepler значительно уступают лучшим представителям архитектуры Fermi, вроде Geforce GTX 580. В случае этого теста сравнительные результаты, скорее всего, объясняются показателем филлрейта, ведь его пикового значение у GTX 580 выше. В пользу этого же вывода говорит отсутствие заметной разницы между частотой кадров на GTX 660 Ti и GTX 660, имеющих равную ПСП.

Если сравнивать скорость новой Geforce GTX 660 с производительностью её соперников, то новинка от Nvidia опять оказалась впереди даже несмотря на снижение скорости относительно GTX 580. В обоих синтетических тестах имитации тканей и частиц из тестового пакета 3DMark Vantage, в которых активно используются геометрические шейдеры, новая плата Nvidia с запасом выигрывает у обоих соперников из семейства AMD Radeon HD 7800.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических расчётов.

В чисто математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим несколько иное распределение результатов, по сравнению с аналогичными тестами из нашего тестового пакета. В этом случае производительность решений почти всегда не полностью соответствует теории и расходится с тем, что мы видели ранее в математических тестах из пакета RightMark 2.0.

Видеокарты Radeon от компании AMD, созданные на базе чипов архитектуры GCN, очень хорошо справляются с такими задачами, и почти всегда они показывают лучшие результаты в случаях, когда выполняется сравнительно простая, но весьма интенсивная математика. Неудивительно, что лучшим стало одно из решений этой компании. Тем интереснее, что HD 785 оказалась слабейшей, а разница между ними близка к двукратной.

Рассматриваемая сегодня модель Geforce GTX 660 снова расположилась между соперниками, и в этот раз она ближе к медленному варианту семейства Radeon HD 7800. У видеокарт на основе чипов GK1xx эффективность в этой задаче явно не очень высокая, так как по теории GTX 660 Ti должна быть примерно на уровне HD 7870. А вот соотношение между GTX 660 и GTX 660 Ti точно соответствует теории.

Direct3D 11: Вычислительные шейдеры

Чтобы протестировать новое решение компании Nvidia в задачах, использующих такие новые возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.

Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.

Хотя это и не самый удачный пример для вычислительных шейдеров, но разницу в производительности в одной из конкретных задач он показывает. Разницы в скорости расчётов в вычислительном и пиксельном шейдерах для плат Nvidia с видеочипами архитектуры Kepler практически нет, равно как и для плат компании AMD. Судя по предыдущим тестам, результаты в задаче явно зависят не только от математической мощи и эффективности вычислений, но и от других факторов, вроде ПСП и производительности ROP.

Новинка компании Nvidia в этом тесте отстаёт от старшей модели GTX 660 Ti и находится посередине между Radeon HD 7870 и HD 7850, но ближе к старшей. Второй тест вычислительных шейдеров также взят из Microsoft DirectX SDK, в нём показана расчётная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация.

В этом тесте результаты немного отличаются тем, что Radeon HD 7850 сильно отстала, а разница между Geforce GTX 660 Ti и новой GTX 660 стала меньше — похоже, что тут наблюдается больший упор в ПСП или филлрейт, а не в скорость исполнения математических вычислений.

В любом случае, средняя видеокарта семейства Kepler весьма неплохо справляется с работой, так как Geforce GTX 660 опережает обе платы серии Radeon HD 7800, являющиеся её конкурентом. Да и GTX 660 Ti на базе GK104 не так уж сильно её обогнала... Переходим к тестам производительности в задачах тесселяции, которые традиционно должны показать ещё одну сильную сторону новой платы под маркой Geforce.

Direct3D 11: Производительность тесселяции

Вычислительные шейдеры очень важны, но ещё одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали её в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro 2033, Civilization V, Crysis 2, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.

Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.

Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нём реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:

В тесте простого бампмаппинга видно, платы упираются в ПСП и текстурирование. Наверное, именно поэтому обе платы серии Radeon HD 7800 так сильны и с запасом обгоняют новинку от Nvidia. Второй подтест с более сложными попиксельными расчётами показал, что эффективность выполнения сложных математических вычислений в пиксельных шейдерах у чипов архитектуры GCN также явно выше, чем у GPU компании Nvidia. Radeon HD 7870 стала лидером, обогнав всех, да и HD 7850 совсем чуть-чуть отстал от выпущенной сегодня GTX 660 в этом подтесте.

Да и в самом интересном подтесте тесселяции у обеих видеокарт Radeon результаты очень сильные. В данном тесте тесселяции разбиение треугольников весьма умеренное и скорость в нём не полностью упирается в производительность обработки геометрии. Поэтому платы компании AMD не теряют в производительности, и их скорости обработки треугольников вполне хватает, чтобы показывать лучшие результаты. Radeon HD 7870 лидирует в данном тесте, да и HD 7850 обгоняет обе представленные платы Geforce, в том числе и сегодняшнюю новинку.

Вторым тестом производительности тесселяции будет ещё один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.

В этом примере применяется уже более сложная геометрия, и сравнение геометрической мощи различных решений по этому тесту приносит совершенно другие выводы. Хотя все представленные в материале современные решения неплохо справляются с лёгкой и средней геометрической нагрузкой, показывая близкие цифры, но в двух самых тяжёлых условиях графические процессоры Nvidia и сейчас остаются непревзойдёнными, даже когда AMD частично исправила положение.

Чипы Nvidia хороши в таких задачах, особенно топовые решения линейки Geforce GTX 600. Анонсированная сегодня видеоплата Geforce GTX 660 основана на чипе GK106, который имеет меньше геометрических блоков, по сравнению с GK104, но всё же она не так уж много уступает своей старшей сестре GTX 660 Ti, выигрывая у конкурентов в разы. А обе Radeon среднего ценового диапазона всё же весьма неплохо выглядят во всех условиях, кроме экстремальной нагрузки на геометрические блоки.

Рассмотрим результаты ещё одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта.

Island не является чисто синтетическим тестом для измерения исключительно геометрической производительности GPU, так как он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются все блоки GPU, а не только геометрические, как в предыдущих тестах геометрии. К сожалению, на последних драйверах на Radeon HD 7850 программа не заработала, поэтому сравним новинку только с HD 7870 со старыми драйверами.

Мы протестировали демо-программу при четырёх разных коэффициентах тесселяции, в данном случае настройка называется Dynamic Tessellation LOD. Если при самом первом коэффициенте разбиения треугольников, когда скорость не ограничена производительностью геометрических блоков, единственная оставшаяся видеокарта компании AMD показала отличный результат, победив в этом сравнении, то при увеличении геометрической работы платы компании Nvidia сразу же начинают довольно сильно отрываться. При увеличении коэффициента разбиения и сложности сцены производительность Radeon падает довольно сильно.

Анонсированная сегодня плата среднего уровня от Nvidia во всех режимах заметно уступает GTX 660 Ti на базе GK104, что объясняется меньшим количеством геометрических блоков в графическом процессоре GK106. Зато выигрыш перед конкурирующим решением в виде Radeon HD 7870 заметен во всех условиях, кроме самого простого. Высокая тактовая частота видеочипа и достаточная мощь позволили новинке показать сильный результат. И хотя в современной графической архитектуре компании AMD геометрическая производительность была серьёзно улучшена, в соответствующих синтетических тестах они всё ещё продолжают проигрывать решениям Nvidia.

Выводы по синтетическим тестам

Результаты синтетических тестов выпущенной сегодня модели Geforce GTX 660, основанной на новом графическом процессоре GK106 на базе архитектуры Kepler, а также результаты других моделей видеокарт производства обоих производителей дискретных видеочипов показали, что новое решение компании Nvidia хотя и уступает по характеристикам предыдущей околотоповой модели Geforce GTX 660 Ti, но при объявленной цене она может стать одной из самых популярных видеокарт среднего ценового сегмента.

По техническим характеристикам и синтетическим тестам отставание новой модели от Geforce GTX 660 Ti не так уж велико, хотя чипы в них используются разные. Скорее всего, и в играх новинка покажет неплохие результаты, особенно если принять во внимание выпуск и фабрично разогнанных моделей. Новый графический процессор GK106 архитектуры Kepler, как и старший GK104, имеет множество улучшений, направленных на увеличение производительности и энергоэффективности, и по своим возможностям и характеристикам выглядит неплохо.

Наш набор синтетических тестов показал, что производительность Geforce GTX 660 в среднем где-то между конкурирующих с ней по цене моделей Radeon HD 7870 и HD 7850. А если сравнивать новинку с GTX 660 Ti, то максимально возможный проигрыш в 33% наблюдается лишь в тестах, зависящих исключительно от скорости текстурирования и/или математической производительности. В играх такое встречается не так часто, поэтому отставание GTX 660 от GTX 660 Ti чаще всего должно вмещаться в рамки 10-20%, а в случае упора в филлрейт и/или ПСП и того меньше.

И Geforce GTX 660 и чипу GK106 можно приписать лишь один небольшой недостаток в виде меньшего количества геометрических блоков, по сравнению с GK104 и топовыми видеокартами на его основе. Но это решение традиционно для среднебюджетных чипов Nvidia и в реальных играх оно фактически никак не сказывается, в них чаще всего нужны другие показатели: математическая мощь, скорость текстурирования и филлрейт.

Исходя из полученных нами данных о производительности и технических характеристик, можно предположить, что видеокарта Geforce GTX 660 станет неплохим предложением для тех игроков и энтузиастов, которые не хотят платить $300 и более за топовые решения вроде GTX 670 и GTX 680. А Radeon HD 7850 и HD 7870 наконец-то получили отличного конкурента, что должно сказаться и на их ценах. Результаты Geforce GTX 660 в большинстве синтетических тестов должны быть подкреплены неплохими показателями и в игровых приложениях нашего тестового набора.

Nvidia Geforce GTX 660 — Часть 3: производительность в игровых тестах →

2 блока питания Platimax для тестового стенда предоставлены компанией Enermax

Корпус ThermalTake 8430 для тестового стенда предоставлен компанией 3Logic

Монитор Dell UltraSharp U3011 для тестовых стендов предоставлен компанией Юлмарт

Системная плата Asus Sabertooth X79 для тестового стенда предоставлена компанией AsusTeK

Системная плата MSI X79A-GD45(8D) для тестового стенда предоставлена компанией MSI

Жесткий диск Seagate Barracuda 7200.14 3 ТБ для тестовых стендов предоставлен компанией Seagate

Накопитель SSD OCZ Octane 512 ГБ для тестового стенда предоставлен компанией OCZ Russia




Дополнительно

Обзор нового видеоускорителя Nvidia Geforce GTX 660. Часть 2 — Особенности видеокарты, результаты синтетических тестов

Nvidia Geforce GTX 660:

описание видеокарт и результаты синтетических тестов

Содержание

В этой части мы изучим видеокарты, а также познакомимся с результатами синтетических тестов. В нашей лаборатории побывали 2 карты разных производителей.

Платы

KFA2 Geforce GTX 660 Overclocked 2048 МБ 192-битной GDDR5 PCI-E
  • GPU: Geforce GTX 660 (GK106)
  • Интерфейс: PCI Express x16
  • Частота работы GPU (ROPs): 1008—1090 МГц (номинал — 980—1033 МГц)
  • Частота работы памяти (физическая (эффективная)): 1500 (6000) МГц (номинал — 1500 (6000) МГц)
  • Ширина шины обмена с памятью: 192 бит
  • Число вычислительных блоков в GPU/частота работы блоков: 5/1008—1090 МГц (номинал — 7/980—1033 МГц)
  • Число операций (ALU) в блоке: 192
  • Суммарное число операций (ALU): 960
  • Число блоков текстурирования: 80 (BLF/TLF/ANIS)
  • Число блоков растеризации (ROP): 24
  • Размеры: 250×100×36 мм (последняя величина — максимальная толщина видеокарты)
  • Цвет текстолита: синий
  • Энергопотребление (пиковое в 3D/в режиме 2D/в режиме «сна»): 142/48/27 Вт
  • Выходные гнезда: 1×DVI (Dual-Link/HDMI), 1×DVI (Single-Link/VGA), 1×HDMI 1.4a, 1×DisplayPort 1.2
  • Поддержка многопроцессорной работы: SLI (Hardware)
Zotac Geforce GTX 660 2048 МБ 192-битной GDDR5 PCI-E
  • GPU: Geforce GTX 660 (GK106)
  • Интерфейс: PCI Express x16
  • Частота работы GPU (ROPs): 993—1075 МГц (номинал — 980—1033 МГц)
  • Частота работы памяти (физическая (эффективная)): 1500 (6000) МГц (номинал — 1500 (6000) МГц)
  • Ширина шины обмена с памятью: 192 бит
  • Число вычислительных блоков в GPU/частота работы блоков: 5/993—1075 МГц (номинал — 7/980—1033 МГц)
  • Число операций (ALU) в блоке: 192
  • Суммарное число операций (ALU): 960
  • Число блоков текстурирования: 80 (BLF/TLF/ANIS)
  • Число блоков растеризации (ROP): 24
  • Размеры: 180×100×36 мм (последняя величина — максимальная толщина видеокарты)
  • Цвет текстолита: черный
  • Энергопотребление (пиковое в 3D/в режиме 2D/в режиме «сна»): 141/48/25 Вт
  • Выходные гнезда: 1×DVI (Dual-Link/HDMI), 1×DVI (Single-Link/VGA), 1×HDMI 1.4a, 1×DisplayPort 1.2
  • Поддержка многопроцессорной работы: SLI (Hardware)

KFA2 Geforce GTX 660 Overclocked 2048 МБ 192-битной GDDR5 PCI-E
Карта имеет 2048 МБ памяти GDDR5 SDRAM, размещенной в 8 микросхемах (по 4 на каждой стороне PCB).

Микросхемы памяти Hynix (GDDR5). Микросхемы рассчитаны на максимальную частоту работы в 1500 (6000) МГц.
Zotac Geforce GTX 660 2048 МБ 192-битной GDDR5 PCI-E
Карта имеет 2048 МБ памяти GDDR5 SDRAM, размещенной в 8 микросхемах (по 4 на каждой стороне PCB).

Микросхемы памяти Samsung (GDDR5). Микросхемы рассчитаны на максимальную частоту работы в 1500 (6000) МГц.

Сравнение с эталонным дизайном, вид спереди
KFA2 Geforce GTX 660 Overclocked 2048 МБ 192-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 670
Zotac Geforce GTX 660 2048 МБ 192-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 670

Сравнение с эталонным дизайном, вид сзади
KFA2 Geforce GTX 660 Overclocked 2048 МБ 192-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 670
Zotac Geforce GTX 660 2048 МБ 192-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 670

В предыдущем материале по GTX 660 Ti мы уже обсуждали, как получить ускоритель со 192-битной шиной, но при этом оснащенный объемом памяти в 2 ГБ. Ведь такой объем обычно набирается 8 микросхемами по 2 Гбит каждая, и они суммарно образуют 256-битную шину (8×32 бит). Чтобы получить 192-битную, надо комплектовать карту не 8, а 6 микросхемами, однако тогда объем памяти получится 1,5 ГБ. Можно было бы пойти по тому же пути, что с GTX 550 Ti: поставить 4 микросхемы по 1 Гбит и 2 микросхемы по 2 Гбит каждая — тогда суммарно получили 1 ГБ и 192-битную шину. Благо контроллер памяти у чипов Nvidia умеет работать с микросхемами разной емкости. Но тогда речь шла о суммарном объеме в 1 ГБ. А 2 ГБ с помощью 6 микросхем уже не набрать. Придется ставить 12 с разной емкостью. В данном случае производители пошли по иному пути: установили не 12 микросхем разной емкости, а 8 одной емкости в 2 Гбит. Но при этом два 64-битных контроллера из трех работают как обычно — каждый с двумя микросхемами по 32-битной шине, а третий работает с четырьмя микросхемами, используя у каждой 16-битную ширину тактового слова, если можно так выразиться (4×16 = 64 бит). Этот вариант с точки зрения себестоимости более предпочителен, потому что на карту монтируется меньше микросхем памяти (8, а не 12).

Как мы видим, отличия между GTX 660 и GTX 660 Ti весьма существенные. Дело в том, что GTX 660 Ti выпускается на базе старшего GK104, имеющего четыре 64-битных контроллера памяти и расчитанного на 256-битную шину обмена с памятью. И когда пришла пора делать из него младшее решение, то пришлось искать варианты по урезанию шины (о чем выше уже говорилось). И был найден свой вариант, позволяющий при надобности увеличить объем памяти до 3 гигабайта. А у GTX 660 уже имеется своя PCB, которая предусматривает максимальный объем памяти в 2 гигабайта, а также можно получить 1,5 гигабайта при условии сохранения той же 192-битной шины памяти (просто не установить те самые 2 микросхемы памяти, которые используются не по полной ширине своих шин). Это может как-то удешевить выпуск такого рода GTX 660.

Что касается отличий между картами, то они также существенные. Если инженеры Zotac старались сохранить пропорции и размеры 660 Ti на новом продукте, чтобы карта получилась компактной, то у KFA2 карта вышла весьма длинной. Однако при этом питание имеет 6 фаз, когда как у Zotac — всего 4. Это потому, что продукт KFA2 нацелен в какой-то степени на оверклокеров, которым важно иметь избыточную стабильность в питании. А карта Zotac — простой продукт для обычных пользователей, не рассчитанный на высокий разгон. Да и частота работы ядра у ее всего на 13 МГц выше номинала, то есть по сути ничем не отличается. Впрочем, 28 МГц разницы в частотах у модели KFA2 и «оригинальной» GTX 660 — это тоже мизер, практически не влияющий на производительность.

Видеокарты имеют стандартный для GTX 670/680 набор гнезд вывода: 2 DVI (один из которых Single-Link и совместим с выводом на VGA) и по одному DisplayPort и HDMI (второе гнездо DVI обладает возможностью через адаптер передавать сигнал на HDMI, поэтому суммарно можно подключить 2 приемника с HDMI). Напомним, что ускорители Nvidia достаточно давно обладают собственными звуковыми кодеками, поэтому передача на HDMI-монитор будет полноценной, со звуком.

Максимальные разрешения и частоты:

  • 240 Гц — максимальная частота обновления
  • 2048×1536@85 Гц — по аналоговому интерфейсу
  • 2560×1600@60 Гц — по цифровому интерфейсу (для DVI-гнезд с Dual-Link/HDMI)

Что касается возможностей по ускорению декодирования видео — в 2007 году мы проводили такое исследование, с ним можно ознакомиться здесь.

Каждая карта требует дополнительного питания, причем одним 6-контактным разъемом.

О системах охлаждения.

KFA2 Geforce GTX 660 Overclocked 2048 МБ 192-битной GDDR5 PCI-E
Кулер состоит из большого центрального радиатора, покрытого напыленным никелем, усиленного тепловыми трубками, и кожуха с двумя вентиляторами. Собственно, ничего нового. Подобные СО мы уже видели многократно, они стандартны.

Микросхемы памяти без охлаждения, а вот силовые транзисторы имеют свой небольшой радиатор.

СО получилась нешумная, потому что по сути чуть-чуть избыточна для такого рода карт. Максимальная частота вращения вентиляторов ниже 1500 оборотов в минуту.
Zotac Geforce GTX 660 2048 МБ 192-битной GDDR5 PCI-E
Мы уже отмечали в материале по GTX 660 Ti, что специалисты Zotac представили очень компактную СО, которая соответствует размерами небольшой PCB, и этот ускоритель также выглядит весьма маленьким. При этом по ширине карта с СО занимает все те же 2 слота.

Конструкция радиатора схожа с предыдущей, однако тепловые трубки прямо впрессованы в основание и по сути прижимаются к ядру, разнося тепло по радиатору. Микросхемы памяти также не охлаждаются. А вот силовые элементы БП имеют свой небольшой радиатор.

И снова мы видим, что несмотря на то, что используемые вентиляторы — особой конструкции, предусматривающей пониженный уровень шума, небольшие размеры радиаторы заставляют их работать на частоте выше 2500 оборотов в минуту (при максимальной нагрузке), что делает охлаждение никак не бесшумным.

Мы провели исследование температурного режима с помощью новой версии утилиты EVGA PrecisionX (автор А. Николайчук AKA Unwinder) и получили следующие результаты.

KFA2 Geforce GTX 660 Overclocked 2048 МБ 192-битной GDDR5 PCI-E
Zotac Geforce GTX 660 2048 МБ 192-битной GDDR5 PCI-E

После 6 часов прогона карты под максимальной игровой нагрузкой максимальная температура ядра составила 61 градус у продукта KFA2 и 75 градусов у карты Zotac, что говорит о том, что СО у KFA2 получилась просто отличной, а вот у Zotac «подкачала». Впрочем и 75 градусов на ядре — не критично.

Комплектация. Базовый комплект поставки должен включать в себя руководство пользователя и диск с драйверами и утилитами.

KFA2 Geforce GTX 660 Overclocked 2048 МБ 192-битной GDDR5 PCI-E
Перед нами базовый комплект плюс разветвитель на 6-контактный коннектор питания и адаптер DVI-to-VGA.
Zotac Geforce GTX 660 2048 МБ 192-битной GDDR5 PCI-E
Аналогичный комплект поставки.

На очереди рассмотрение упаковок.

KFA2 Geforce GTX 660 Overclocked 2048 МБ 192-битной GDDR5 PCI-E
Ускоритель размещен в отсеке из пенополиуретана, и поэтому хорошо защищен от повреждений при перевозке.
Zotac Geforce GTX 660 2048 МБ 192-битной GDDR5 PCI-E
Ускоритель размещен в пластиковом отсеке, повторяющем конфигурацию карты, так что карта хорошо защищена от повреждений при перевозке.

Установка и драйверы

Конфигурация тестового стенда:

    Компьютеры на базе процессора Intel Core i7-3960X (Socket 2011):
    • процессор Intel Core i7-3960X (o/c 4 ГГц);
    • системная плата Asus Sabertooth X79 на чипсете Intel X79;
    • системная плата MSI X79A-GD45(8D) на чипсете Intel X79;
    • оперативная память 8 ГБ DDR3 SDRAM Corsair 1866 МГц;
    • жесткий диск Seagate Barracuda 7200.14 3 ТБ SATA2;
    • жесткий диск WD Caviar Blue WD10EZEX 1 TБ SATA2;
    • 2 блока питания Enermax Platimax 1200 Вт.
  • операционная система Windows 7 64-битная; DirectX 11;
  • монитор Dell UltraSharp U3011 (30″);
  • драйверы AMD версии Catalyst 12.8; Nvidia версии 305.37/306.23

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационной программой Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010).

Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain, также известная как Island11.

Синтетические тесты проводились на следующих видеокартах:

  • Geforce GTX 660 со стандартными параметрами (далее GTX 660)
  • Geforce GTX 660 Ti со стандартными параметрами (далее GTX 660 Ti)
  • Geforce GTX 580 со стандартными параметрами (далее GTX 580)
  • Geforce GTX 560 Ti со стандартными параметрами (далее GTX 560 Ti)
  • Radeon HD 7870 со стандартными параметрами (далее HD 7870)
  • Radeon HD 7850 со стандартными параметрами (далее HD 7850)

Для сравнения результатов выпущенной сегодня видеокарты модели Geforce GTX 660 эти решения были выбраны по следующим причинам. Geforce GTX 660 Ti является ближайшей к GTX 660 моделью по цене, и она основана на базе чипа GK104 той же архитектуры. Сравнение с GTX 580 и GTX 560 Ti будет интересно по причине разных поколений и ценовых диапазонов видеокарт, ведь первая модель является топовой одночиповой моделью предыдущей архитектуры от Nvidia, а вторая — предшественником сегодняшней новинки.

Выбранные видеоплаты от конкурирующей компании AMD были взяты для наших тестов потому, что Radeon HD 7850 имеет близкие к анонсированной видеокарте Nvidia Geforce характеристики и чуть меньшую цену, да и вторая модель — Radeon HD 7870 — также не так далека от новинки по скорости и цене, но уже сверху, так как имеет несколько большую цену. Так что прямого конкурента для Geforce GTX 660 нет, ими являются сразу обе видеокарты от AMD из семейства Radeon HD 7800.

Direct3D 9: тесты Pixel Shaders

Тесты текстурирования и заполнения (филлрейта) из пакета 3DMark Vantage мы рассмотрим ниже, а первая группа пиксельных шейдеров, которую мы используем, включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0, встречающихся в старых играх, и она очень проста для современных видеочипов.

Эти тесты очень просты для современных GPU, и скорость в них часто упирается в производительность текстурирования или филлрейт. И поэтому результаты способны показать далеко не все возможности современных видеочипов, но всё же интересны с точки зрения аналогов устаревших игровых приложений, которых до сих пор достаточно много. Судя по нашим предыдущим сравнениям, производительность последних видеокарт в этих тестах ограничена чаще всего филлрейтом, хотя и влияние скорости текстурных модулей также прослеживается.

Новый 3D-ускоритель от Nvidia неплохо смотрится в этом сравнении — почти на уровне своей старшей сестры Geforce GTX 660 Ti, уступая ей не слишком много, около 10-20%. В этих тестах лидирует старшая видеоплата от компании AMD, а новинка Geforce GTX 660 показала результат где-то между Radeon HD 7870 и HD 7850, как и должно быть, исходя по цене. Смущает слишком большая разница между Radeon HD 7850 и HD 7870, в чём виноваты программные оптимизации в драйверах разных версий.

Интересно сравнение с Geforce GTX 580, которая недавно была лучшей одночиповой. Новинка опередила её в трёх из пяти простых тестов, уступая лишь в самых сложных. Понятно, что GTX 560 Ti оставлена далеко позади. Посмотрим на результаты более сложных пиксельных программ промежуточных версий:

Тест Cook-Torrance более интенсивен вычислительно, разница в нём примерно соответствует разнице в количестве ALU и их частоте, но и от скорости TMU она также зависит. Хотя данный тест исторически лучше подходит для графических решений компании AMD, но все новые платы Geforce на базе архитектуры Kepler в нём также оказываются весьма сильны. Скорость GTX 660 в нём более чем на четверть ниже, чем у старшей GTX 660 Ti.

Впрочем, в тесте Water, скорость в котором больше зависит от текстурирования, мы видим то же самое. Интересна почти двукратная разница по скорости между Radeon HD 7870 и HD 7850, не объяснимая с теоретической точки зрения. Наша сегодняшняя героиня в лице Geforce GTX 660 при сравнении с прямыми конкурентами снова показывает промежуточный результат строго по соотношению цен. Абсолютное лидерство в обоих тестах ожидаемо заняла GTX 660 Ti. Любопытно, что новая Geforce GTX 660 опередила GTX 580 в этой паре тестов — старую карту явно подвела низкая математическая и текстурная производительность.

Direct3D 9: тесты пиксельных шейдеров Pixel Shaders 2.0

Эти тесты пиксельных шейдеров DirectX 9 сложнее предыдущих, они близки к тому, что мы сейчас видим в мультиплатформенных играх, и делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D-графики.
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами.

Существует два варианта этих шейдеров: с ориентацией на математические вычисления и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:

Это — универсальные тесты, производительность в которых зависит и от скорости блоков ALU, и от скорости текстурирования, также в них важен общий баланс чипа и эффективность исполнения вычислительных программ. Результаты теста показывают, что в этих конкретных задачах архитектура AMD смотрится заметно лучше, чем GPU производства Nvidia.

Производительность старшей из пары Radeon HD 7870 такова, что она обходит даже Geforce GTX 660 Ti, являющуюся её прямым конкурентом. Причём, платы AMD настолько хороши в этом сравнении, что даже HD 7850 обходит представленную GTX 660 в тесте «Frozen Glass». По сравнению с GTX 580 наблюдается примерный паритет, в одном из тестов выигрывает старая плата, во втором — новая.

Во втором тесте «Parallax Mapping» новая видеокарта от Nvidia показала производительность выше, чем у Radeon HD 7850, но ниже HD 7870. Отставание от старшей GTX 660 Ti составило в этот раз почти 20%. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям:

Для плат на чипах производства Nvidia положение явно улучшилось, и Geforce GTX 660 теперь явно опережает одного из конкурентов и располагаясь почти строго посередине между ними. Современные чипы AMD и в этих задачах работают несколько эффективнее, а новая видеокарта серии Geforce GTX 600 в тестах уступает GTX 660 Ti уже около 30%, что полностью соответствует теоретическим показателям. Зато GTX 580 теперь всегда позади, не говоря о GTX 560 Ti.

Но это были устаревшие задачи, с упором в текстурирование и филлрейт. Далее мы рассмотрим результаты ещё двух тестов пиксельных шейдеров — но уже версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Они наиболее показательны с точки зрения современных игр на ПК, среди которых много мультиплатформенных. Тесты отличаются тем, что сильно нагружают и ALU, и текстурные модули, обе шейдерные программы сложны и длинны, и включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D-графики.
  • Fur — процедурный шейдер, визуализирующий мех.

А вот эти тесты не ограничены производительностью только текстурных выборок, и больше всего зависят от эффективности исполнения сложного шейдерного кода. В самых тяжёлых DX9-тестах из первой версии пакета RightMark видеокарты производства Nvidia ранее были сильнее, но в последней архитектуре компании AMD исправили положение и теперь именно их старшее решение на чипе архитектуры GCN в PS 3.0 сравнении показывает лучший результат, опережая в т.ч. и GTX 660 Ti.

А рассматриваемая сегодня модель Geforce GTX 660 уступает старшей сестре почти треть, что соответствует разнице в скорости математических вычислений. Новинка в очередной раз располагается примерно посередине между двумя платами серии Radeon HD 7800, но чуть ближе к младшей модели.

Да и предыдущей топовой GTX 580 она уступает в одном из тестов, хотя и быстрее GTX 560 Ti. В задаче «Fur» новинка показала скорость на уровне GTX 580, а вот в «Steep Parallax Mapping» увы, дела не столь выдающиеся — её результат заментно ниже, чем у платы на основе чипа GF110. Скорее всего, новую модель ограничивает или сравнительная неэффективность Kepler в этой задаче, по сравнению с Fermi, что мы наблюдали и ранее.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Во вторую версию RightMark3D вошли два знакомых теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

В этом тесте производительность зависит в большей степени от количества и эффективности блоков TMU, влияет и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает ещё и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low».

Как и в аналогичных DX9 тестах, в задачах процедурной визуализации меха с большим количеством текстурных выборок, за пару поколений графических архитектур компания AMD не только сократила разницу с платами Nvidia, а с выпуском GCN и вовсе вырвалась вперёд. Теперь именно платы Radeon являются лидерами таких сравнений, что говорит о высокой эффективности выполнения ими данных программ. Снова удивляемся двукратной разнице между HD 7870 и HD 7850 — ну не должна она такой быть.

Рассматриваемая нами сегодня модель Geforce GTX 660 показала результат лишь на уровне младшей из пары Radeon HD 7800, что довольно слабо. GTX 660 Ti и GTX 580 идут примерно наравне, а новинка им обеим серьёзно уступила. В этом виновата снизившаяся эффективность исполнения сложных шейдеров, так как недостатка пропускной способности памяти (эффективного филлрейта) нет, судя по цифрам GTX 660 Ti. Парочка из GTX 660 и HD 7850 оказалась медленнее остальных участников, прилично уступив всем платам Radeon и Geforce.

Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: возможно, в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

И в этот раз ситуация аналогична предыдущей. Видеокарты новой линейки Geforce GTX 600 вроде бы улучшили результаты относительно старой Geforce GTX 580, и теперь GTX 660 близка к её уровню, но зато, при включении суперсэмплинга, увеличивающего теоретическую нагрузку вчетверо, результаты решений Nvidia в целом даже ухудшились, по сравнению с показателями видеокарт компании AMD. А разница по скорости рендеринга в данной задаче и так была не в их пользу, поэтому разгром со стороны Radeon HD 7870 стал полным.

Протестированная сегодня новая плата компании Nvidia опередила (и то ненамного) разве что слабую модель Radeon HD 7850, которая оказалась худшей, на наше удивление. Старая GTX 580, ненамного от них ушла, уступив GTX 660 Ti. В остальном, отмечаем сильный проигрыш новинки своему «верхнему» конкуренту — видеокарте модели Radeon HD 7870. Преимущество архитектуры GCN в сложных вычислениях явно у чипов компании AMD, предпочитающих попиксельные вычисления.

Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, давно используются во многих проектах, например в играх серий Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип ещё примерно в два раза — такой режим называется «High».

Диаграмма похожа на предыдущую (без дополнительного включения SSAA), разве что старая Geforce GTX 580 немного потеряла. Решения Nvidia в этом тесте справляются с ним всё так же хуже конкурирующих, и новая плата Geforce GTX 660 в обновленном D3D10-варианте теста без суперсэмплинга всё так же сильно отстаёт от сильнейшего из своих прямых соперников в серии Radeon HD 7800. Да и с HD 7850 новинка борется с переменным успехом. Посмотрим, что изменит включение суперсэмплинга, ведь он обычно вызывает сильное падение скорости на платах Nvidia.

И тут всё примерно так же, что и в «Fur». При включении суперсэмплинга и самозатенения, задача получается ещё более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьёзное падение производительности. Разница между скоростными показателями протестированных видеокарт изменилась, включение суперсэмплинга сказывается, как и в предыдущем случае — видеокарты производства AMD улучшили относительные показатели, по сравнению с платами на чипах Nvidia.

Теперь Geforce GTX 660 уже во всех условиях немного обгоняет Radeon HD 7850, но разница совсем невелика. Кроме того, старшая Radeon HD 7870 и вовсе является лучшей платой сравнения, заметно опережая остальные решения. Эта модель снова сильна и показала отличные результаты. Сегодняшняя новинка не может конкурировать с ней в этом тесте, так как графические решения Nvidia в наших D3D10-тестах пиксельных шейдеров работают явно не слишком эффективно. Ну хотя бы GTX 580 новинка почти догнала, и то неплохо.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов чаще всего более-менее соответствуют разнице в частотах и количестве вычислительных блоков, но с влиянием разной эффективности их использования. Архитектуры AMD последних лет в таких случаях раньше имели огромное преимущество перед конкурирующими видеокартами Nvidia, которое можно увидеть, сравнив результаты GTX 580 и HD 7870, но калифорнийская компания в архитектуре Kepler увеличила число потоковых процессоров, и пиковая математическая производительность свежих моделей Geforce значительно возросла. Это хорошо видно по сравнению GTX 660 и GTX 580 — старая модель осталась далеко позади.

Результаты видеокарт на диаграмме расположились примерно соответственно теории, с некоторыми исключениями. Интересно, что Geforce GTX 660 Ti опередила своего прямого конкурента в лице Radeon HD 7870 (да и HD 7950, отсутствующего на диаграмме), поэтому вполне логично, что и Geforce GTX 660 показывает неплохую скорость, располагаясь между HD 7850 и HD 7870, но ближе уже к старшей модели. Исходя из теории, в этом тесте скорость видеокарт AMD должна быть выше, но карты семейства Geforce GTX 600 в этой задаче работают эффективнее.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нём только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Во втором математическом тесте относительный результат новинки от Nvidia оказался несколько ниже, и она уже оказалась ровно посередине между платами семейства AMD Radeon HD 7800. Разница в скорости между Radeon и современными Geforce значительно уменьшилась, что можно считать явным достижением со стороны Nvidia и её архитектуры Kepler.

Новая плата на базе чипа GK106 снова опередила устаревшую модель GTX 580, основанную на чипе архитектуры Fermi. Всё-таки новая архитектура Kepler для приложений такого рода подходит куда лучше, и с её выходом разница между Radeon и Geforce стала совсем небольшой, в отличие от предыдущих нескольких лет.

Direct3D 10: тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS почти двукратное. Задача эта для современных видеокарт не слишком сложная, и производительность в ней ограничена скоростью обработки геометрии и пропускной способностью памяти.

Очень хорошо заметна разница между результатами видеокарт на чипах Nvidia и решений AMD — они расположились почти по линиям. Если в предыдущих тестах с пиксельными шейдерами платы AMD были в среднем эффективнее и быстрее, то первый же тест геометрии показал, что в таких задачах платы Nvidia остаются лидерами. Сегодняшняя новинка Geforce GTX 660 отстаёт от GTX 660 Ti совсем немного, потому что не упирается в пропускную способность памяти, который для этих плат равна.

Показанная скорость позволяет ей обойти обоих конкурентов в данной задаче, и итог сравнения вполне логичен — разница между Geforce GTX 660 и обеими платами Radeon HD 7950 заметная. Хотя в этом поколении платы Radeon улучшили свои показатели, но пока всё же не смогли догнать даже Fermi, не говоря уже о Kepler. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры не изменились для устаревшей платы Nvidia и немного улучшились для всех плат AMD и решений Nvidia из современного поколения. Все видеокарты в данном тесте слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и все выводы остаются прежними. Представленная сегодня модель Geforce GTX 660 оказалась чуть медленнее GTX 660 Ti и заметно быстрее обеих видеоплат семейства Radeon HD 7800. Интересно, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры.

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленным в «Heavy» — ещё и для их отрисовки. То есть в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер.

Увы, но в этом тесте нет результатов ни для Radeon HD 7870, ни для HD 7850, поскольку по какой-то причине они просто не запускаются (хочется думать, что из-за ошибки в драйверах, а не специально). Относительные результаты остальных решений в разных режимах также примерно соответствуют изменению нагрузки: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть чуть менее чем в два раза медленней.

В этом тесте скорость рендеринга ограничена в основном геометрической производительностью. Ведь в этот раз Geforce GTX 660 показала скорость между скоростью предыдущей старшей модели GTX 580 и старшей сестрой GTX 660 Ti. Эти цифры должны серьёзно измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в режимах «Balanced» и «Heavy».

Обе Radeon отсутствуют всё по тем же причинам. В этот раз при переносе вычислений в геометрический шейдер диаграмма поменялась, и новая видеокарта от Nvidia оказалась самой медленной, уступив даже Geforce GTX 580 из предыдущего поколения, которая лучше справилась с этой задачей. Этот тест явно упирается именно в производительность геометрических блоков, с мощностью которых у решений Nvidia всё традиционно неплохо. И хотя результат платы на базе GK106 хуже, чем у топовых решений на GF110 и GK104, но это вполне объяснимо, так как они имеют большее количество геометрических блоков.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Наши предыдущие исследования показали, что на результаты этого теста может влиять и скорость текстурирования и пропускная способность памяти, особенно в лёгком режиме. А результаты некоторых видеокарт Nvidia и вовсе бывают ограничены ещё чем-то странным. И между схожими по классу платами разница в этом тесте порой получается очень маленькой.

Geforce GTX 660 показала результат хуже, чем у GTX 660 Ti, но всё же лучше, чем GTX 580. Самой медленной стала Radeon HD 7850, а лучшими, с переменным успехом, оказались GTX 660 Ti и HD 7870. По сравнению со своими соперниками у сегодняшней новинки всё неплохо, хотя она и уступает HD 7870 во всех режимах, но разница невелика. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:

Взаимное расположение карт на диаграмме немного изменилось за счёт того, что платы Nvidia обеспечили почти ту же скорость рендеринга во всех режимах, в отличие от решений AMD, которые результаты которых ухудшились. Результаты Geforce GTX 660 близки к скорости GTX 580, но всё же чуть выше. Также новинка оказалась несколько быстрее, чем Radeon HD 7870 в двух из трёх режимов. А слабейшей стала младшая модель серии Radeon HD 7800.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» совсем не похожи на то, что мы видели на предыдущих диаграммах. В этот раз показатели старой топовой модели Geforce GTX 580 в тяжёлом режиме оказались очень низкими. Остальные видеокарты сравнения показали попарно близкие результаты. Причём, пары странные. Скорость Radeon HD 7870 почти до единиц соответствует показателям GTX 660 Ti, а представленная сегодня модель GTX 660 совсем чуть-чуть быстрее младшего варианта HD 7850. Рассмотрим второй вариант этого же теста:

В этот раз не произошло особых изменений, как в предыдущие разы, и видеокарты производства AMD не ухудшили свои результаты. Зато в лёгких режимах пострадали видеоплаты компании Nvidia, что позволило Radeon HD 7870 стать быстрейшей в сравнении. А представленная сегодня плата на чипе архитектуры Kepler показала производительность, почти идентичную младшей из своих прямых конкурентов — Radeon HD 7850. В целом, GTX 660 в тестах вершинного текстурирования выступила не очень сильно, хотя это не имеет особого значения, так как оно в играх применяется слабо.

3DMark Vantage: тесты Feature

Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10 и интересны тем, что отличаются от наших и до сих пор актуальны. При анализе результатов новой видеокарты Nvidia в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.

Feature Test 1: Texture Fill

Первый тест — тест скорости текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Тест компании Futuremark не показывает теоретически возможного уровня производительности текстурных выборок, но эффективность видеокарт AMD и Nvidia в нём достаточно высока и сравнительные цифры моделей довольно близки к соответствующим теоретическим параметрам. В этот раз получилось похоже на истину — новая Geforce GTX 660 отстала от GTX 660 Ti ровно на треть. По теории быстрейшей видеокартой в сравнении должна быть GTX 660 Ti — так оно и получилось.

В случае сравнения Geforce GTX 660 с парой конкурентов: Radeon HD 7850 и HD 7870 всё примерно соответствует теории. Новинка от Nvidia по текстурной скорости заметно обогнала слабого из пары прямых конкурентов, немного уступив старшей. А Geforce GTX 580 из предыдущего поколения осталась позади, уступив GTX 660 — это хороший знак для игровых приложений.

Feature Test 2: Color Fill

Это тест скорости заполнения. Используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Ситуация в тесте производительности блоков ROP лишь отдалённо напоминает теорию. Мы определили ранее, что цифры этого подтеста из 3DMark Vantage показывают производительность блоков ROP с учётом величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»), хотя тест измеряет скорее пропускную способность памяти, чем производительность ROP, что видно по скорости двух новых видеокарт Nvidia. Интересно, что старая GTX 580 даже немного отстаёт от них, хотя оба теоретических параметра у неё лучше. Это указывает на улучшение эффективности работы блоков TMU в Kepler.

Что касается сравнения с платами от соперничающей компании AMD, то представленная сегодня модель Geforce GTX 660 показала очень неплохую скорость заполнения сцены и опередила обоих своих конкурентов в лице Radeon HD 7850 и HD 7870. То есть, в случае ограничения общей производительности в играх филлрейтом, GTX 660 будет весьма сильна.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нём рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоёмкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжёлого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчёты освещения по Strauss.

Тест отличается от проведённых нами ранее тем, что результаты в нём зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а много от чего сразу. Для достижения высокой скорости тут важен верный баланс GPU, а также эффективность выполнения сложных шейдеров. В данном случае, больше важна математическая и текстурная производительность, поэтому в синтетике из 3DMark Vantage плата Geforce GTX 660 уступила GTX 660 Ti ровно треть. А лучшей стала Radeon HD 7870, как и в аналогичных тестах из нашего тестового пакета.

Модель Geforce GTX 660 хотя и немного опережает предшествующую топовую GTX 580, а обе они сильно выигрывают у слабого из двух конкурентов компании AMD, но старшей Radeon HD 7870 все они уступают. Похоже, что в этом тесте эффективность вычислительных блоков Kepler несколько ниже, чем у Fermi и GCN и поэтому в сравнении с конкурирующей платой HD 7870 на базе архитектуры GCN, новинка от Nvidia проиграла. Всё-таки в подобных вычислительных задачах видеокарты компании AMD лучше справляются с работой.

Feature Test 4: GPU Cloth

Тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте зависит сразу от нескольких параметров, но основными факторами влияния являются производительность обработки геометрии и эффективность выполнения геометрических шейдеров. Из-за влияния геометрических блоков вполне логично, что все видеокарты производства Nvidia чувствуют себя в этом тестировании весьма неплохо, обгоняя соответствующие по цене платы Radeon.

Вот и анонсированная сегодня модель Geforce GTX 660 легко опережает обоих конкурентов в виде моделей Radeon HD 7850 и HD 7870. Слабейшая карта AMD отстала и вовсе в два раза. Это один из тестов, в которых видно явное преимущество решений Nvidia, имеющих по несколько геометрических блоков. Интересно, что новинка на базе чипа GK106 не слишком сильно отстала от старшей сестры GTX 660 Ti, имеющей большее количество геометрических блоков.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчётами, также тестируется stream out.

Это ещё один геометрический тест, и самый интересный вывод из данной диаграммы мы сделали ещё в прошлые разы — это единственный наш тест, в котором новые платы на базе чипа с архитектурой Kepler значительно уступают лучшим представителям архитектуры Fermi, вроде Geforce GTX 580. В случае этого теста сравнительные результаты, скорее всего, объясняются показателем филлрейта, ведь его пикового значение у GTX 580 выше. В пользу этого же вывода говорит отсутствие заметной разницы между частотой кадров на GTX 660 Ti и GTX 660, имеющих равную ПСП.

Если сравнивать скорость новой Geforce GTX 660 с производительностью её соперников, то новинка от Nvidia опять оказалась впереди даже несмотря на снижение скорости относительно GTX 580. В обоих синтетических тестах имитации тканей и частиц из тестового пакета 3DMark Vantage, в которых активно используются геометрические шейдеры, новая плата Nvidia с запасом выигрывает у обоих соперников из семейства AMD Radeon HD 7800.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических расчётов.

В чисто математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим несколько иное распределение результатов, по сравнению с аналогичными тестами из нашего тестового пакета. В этом случае производительность решений почти всегда не полностью соответствует теории и расходится с тем, что мы видели ранее в математических тестах из пакета RightMark 2.0.

Видеокарты Radeon от компании AMD, созданные на базе чипов архитектуры GCN, очень хорошо справляются с такими задачами, и почти всегда они показывают лучшие результаты в случаях, когда выполняется сравнительно простая, но весьма интенсивная математика. Неудивительно, что лучшим стало одно из решений этой компании. Тем интереснее, что HD 785 оказалась слабейшей, а разница между ними близка к двукратной.

Рассматриваемая сегодня модель Geforce GTX 660 снова расположилась между соперниками, и в этот раз она ближе к медленному варианту семейства Radeon HD 7800. У видеокарт на основе чипов GK1xx эффективность в этой задаче явно не очень высокая, так как по теории GTX 660 Ti должна быть примерно на уровне HD 7870. А вот соотношение между GTX 660 и GTX 660 Ti точно соответствует теории.

Direct3D 11: Вычислительные шейдеры

Чтобы протестировать новое решение компании Nvidia в задачах, использующих такие новые возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.

Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.

Хотя это и не самый удачный пример для вычислительных шейдеров, но разницу в производительности в одной из конкретных задач он показывает. Разницы в скорости расчётов в вычислительном и пиксельном шейдерах для плат Nvidia с видеочипами архитектуры Kepler практически нет, равно как и для плат компании AMD. Судя по предыдущим тестам, результаты в задаче явно зависят не только от математической мощи и эффективности вычислений, но и от других факторов, вроде ПСП и производительности ROP.

Новинка компании Nvidia в этом тесте отстаёт от старшей модели GTX 660 Ti и находится посередине между Radeon HD 7870 и HD 7850, но ближе к старшей. Второй тест вычислительных шейдеров также взят из Microsoft DirectX SDK, в нём показана расчётная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация.

В этом тесте результаты немного отличаются тем, что Radeon HD 7850 сильно отстала, а разница между Geforce GTX 660 Ti и новой GTX 660 стала меньше — похоже, что тут наблюдается больший упор в ПСП или филлрейт, а не в скорость исполнения математических вычислений.

В любом случае, средняя видеокарта семейства Kepler весьма неплохо справляется с работой, так как Geforce GTX 660 опережает обе платы серии Radeon HD 7800, являющиеся её конкурентом. Да и GTX 660 Ti на базе GK104 не так уж сильно её обогнала... Переходим к тестам производительности в задачах тесселяции, которые традиционно должны показать ещё одну сильную сторону новой платы под маркой Geforce.

Direct3D 11: Производительность тесселяции

Вычислительные шейдеры очень важны, но ещё одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали её в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro 2033, Civilization V, Crysis 2, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.

Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.

Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нём реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:

В тесте простого бампмаппинга видно, платы упираются в ПСП и текстурирование. Наверное, именно поэтому обе платы серии Radeon HD 7800 так сильны и с запасом обгоняют новинку от Nvidia. Второй подтест с более сложными попиксельными расчётами показал, что эффективность выполнения сложных математических вычислений в пиксельных шейдерах у чипов архитектуры GCN также явно выше, чем у GPU компании Nvidia. Radeon HD 7870 стала лидером, обогнав всех, да и HD 7850 совсем чуть-чуть отстал от выпущенной сегодня GTX 660 в этом подтесте.

Да и в самом интересном подтесте тесселяции у обеих видеокарт Radeon результаты очень сильные. В данном тесте тесселяции разбиение треугольников весьма умеренное и скорость в нём не полностью упирается в производительность обработки геометрии. Поэтому платы компании AMD не теряют в производительности, и их скорости обработки треугольников вполне хватает, чтобы показывать лучшие результаты. Radeon HD 7870 лидирует в данном тесте, да и HD 7850 обгоняет обе представленные платы Geforce, в том числе и сегодняшнюю новинку.

Вторым тестом производительности тесселяции будет ещё один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.

В этом примере применяется уже более сложная геометрия, и сравнение геометрической мощи различных решений по этому тесту приносит совершенно другие выводы. Хотя все представленные в материале современные решения неплохо справляются с лёгкой и средней геометрической нагрузкой, показывая близкие цифры, но в двух самых тяжёлых условиях графические процессоры Nvidia и сейчас остаются непревзойдёнными, даже когда AMD частично исправила положение.

Чипы Nvidia хороши в таких задачах, особенно топовые решения линейки Geforce GTX 600. Анонсированная сегодня видеоплата Geforce GTX 660 основана на чипе GK106, который имеет меньше геометрических блоков, по сравнению с GK104, но всё же она не так уж много уступает своей старшей сестре GTX 660 Ti, выигрывая у конкурентов в разы. А обе Radeon среднего ценового диапазона всё же весьма неплохо выглядят во всех условиях, кроме экстремальной нагрузки на геометрические блоки.

Рассмотрим результаты ещё одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта.

Island не является чисто синтетическим тестом для измерения исключительно геометрической производительности GPU, так как он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются все блоки GPU, а не только геометрические, как в предыдущих тестах геометрии. К сожалению, на последних драйверах на Radeon HD 7850 программа не заработала, поэтому сравним новинку только с HD 7870 со старыми драйверами.

Мы протестировали демо-программу при четырёх разных коэффициентах тесселяции, в данном случае настройка называется Dynamic Tessellation LOD. Если при самом первом коэффициенте разбиения треугольников, когда скорость не ограничена производительностью геометрических блоков, единственная оставшаяся видеокарта компании AMD показала отличный результат, победив в этом сравнении, то при увеличении геометрической работы платы компании Nvidia сразу же начинают довольно сильно отрываться. При увеличении коэффициента разбиения и сложности сцены производительность Radeon падает довольно сильно.

Анонсированная сегодня плата среднего уровня от Nvidia во всех режимах заметно уступает GTX 660 Ti на базе GK104, что объясняется меньшим количеством геометрических блоков в графическом процессоре GK106. Зато выигрыш перед конкурирующим решением в виде Radeon HD 7870 заметен во всех условиях, кроме самого простого. Высокая тактовая частота видеочипа и достаточная мощь позволили новинке показать сильный результат. И хотя в современной графической архитектуре компании AMD геометрическая производительность была серьёзно улучшена, в соответствующих синтетических тестах они всё ещё продолжают проигрывать решениям Nvidia.

Выводы по синтетическим тестам

Результаты синтетических тестов выпущенной сегодня модели Geforce GTX 660, основанной на новом графическом процессоре GK106 на базе архитектуры Kepler, а также результаты других моделей видеокарт производства обоих производителей дискретных видеочипов показали, что новое решение компании Nvidia хотя и уступает по характеристикам предыдущей околотоповой модели Geforce GTX 660 Ti, но при объявленной цене она может стать одной из самых популярных видеокарт среднего ценового сегмента.

По техническим характеристикам и синтетическим тестам отставание новой модели от Geforce GTX 660 Ti не так уж велико, хотя чипы в них используются разные. Скорее всего, и в играх новинка покажет неплохие результаты, особенно если принять во внимание выпуск и фабрично разогнанных моделей. Новый графический процессор GK106 архитектуры Kepler, как и старший GK104, имеет множество улучшений, направленных на увеличение производительности и энергоэффективности, и по своим возможностям и характеристикам выглядит неплохо.

Наш набор синтетических тестов показал, что производительность Geforce GTX 660 в среднем где-то между конкурирующих с ней по цене моделей Radeon HD 7870 и HD 7850. А если сравнивать новинку с GTX 660 Ti, то максимально возможный проигрыш в 33% наблюдается лишь в тестах, зависящих исключительно от скорости текстурирования и/или математической производительности. В играх такое встречается не так часто, поэтому отставание GTX 660 от GTX 660 Ti чаще всего должно вмещаться в рамки 10-20%, а в случае упора в филлрейт и/или ПСП и того меньше.

И Geforce GTX 660 и чипу GK106 можно приписать лишь один небольшой недостаток в виде меньшего количества геометрических блоков, по сравнению с GK104 и топовыми видеокартами на его основе. Но это решение традиционно для среднебюджетных чипов Nvidia и в реальных играх оно фактически никак не сказывается, в них чаще всего нужны другие показатели: математическая мощь, скорость текстурирования и филлрейт.

Исходя из полученных нами данных о производительности и технических характеристик, можно предположить, что видеокарта Geforce GTX 660 станет неплохим предложением для тех игроков и энтузиастов, которые не хотят платить $300 и более за топовые решения вроде GTX 670 и GTX 680. А Radeon HD 7850 и HD 7870 наконец-то получили отличного конкурента, что должно сказаться и на их ценах. Результаты Geforce GTX 660 в большинстве синтетических тестов должны быть подкреплены неплохими показателями и в игровых приложениях нашего тестового набора.

Nvidia Geforce GTX 660 — Часть 3: производительность в игровых тестах →

2 блока питания Platimax для тестового стенда предоставлены компанией Enermax

Корпус ThermalTake 8430 для тестового стенда предоставлен компанией 3Logic

Монитор Dell UltraSharp U3011 для тестовых стендов предоставлен компанией Юлмарт

Системная плата Asus Sabertooth X79 для тестового стенда предоставлена компанией AsusTeK

Системная плата MSI X79A-GD45(8D) для тестового стенда предоставлена компанией MSI

Жесткий диск Seagate Barracuda 7200.14 3 ТБ для тестовых стендов предоставлен компанией Seagate

Накопитель SSD OCZ Octane 512 ГБ для тестового стенда предоставлен компанией OCZ Russia