Обзор видеоускорителей Moore Threads MTT S80 и S70 полностью китайской разработки

Предыстория

Интерес к исследованию новых уникальных видеокарт из Китая, выпущенных компанией Moore Threads, у нас возник, как только информация о них появилась в новостях. На тот момент (дело было поздней весной 2023 года) стоимость новинок была очень высокой: около 3000 юаней за MTT S80 и 2500 юаней за MTT S70 при ожидаемом уровне производительности где-то в районе Nvidia GeForce GTX 1650, а скорее всего еще ниже. Сами понимаете, что даже при курсе 10 рублей за 1 юань это было очень дорого, а с последующим ростом курса — тем более. Однако к моменту публикации обзора цена этих карт снизилась почти в 3 раза (до 1200 и 900 юаней соответственно), что уже можно назвать более-менее адекватным уровнем. Мы понимали, что переплачиваем и, возможно, приобретаем мертворожденные продукты без перспектив, но всё же хотелось разобраться, что собой представляют полностью (и сам GPU, и печатная плата) разработанные в Китае видеокарты.

Приобрести такие видеокарты можно было лишь через внутренних китайских поставщиков, поэтому мы обратились за помощью к Владиславу (его контакт в конце материала). Решили взять сразу два продукта, основанных на едином GPU — S70 и S80. MTT S70 удалось купить как самостоятельный розничный продукт.

А вот MTT S80 на тот момент пропали из продажи, их можно было заказать только в составе системных блоков китайских ПК. Но охота пуще неволи, и «одеревеневший» с помощью СДЭК системник тоже прибыл к нам.

Мы уже собирались применить подаренную в свое время Nvidia фомку (предназначенную «отбиваться от зомби или...», и мы решили, что это как раз случай «или»), однако крепление оказалось на винтах, так что обошлись отверткой.

Китайский ПК имел весьма оригинальный и стильный корпус с «водянкой» для охлаждения процессора (хотя там использовался всего лишь Intel Core i5-13400).

Собственно, на этом история появления у нас карт Moore Threads заканчивается. Заметим, что получили мы их еще в июне 2023 года. Почему же обзор выходит только сейчас?

Пара-тройка имевшихся на тот момент обзоров сообщали о крайне неустойчивой работе и очень скудном списке поддерживаемых игр с API не выше DirectX 10, однако даже за период ожидания карт разработчики успели выпустить пару бета-версий драйверов, так что смысл подождать имелся.
Выяснилось, что карты требуют для работы относительно новых платформ с поддержкой PCIe 5.0, так что пришлось обновлять наш тестовый стенд, где производятся измерения нагрева и шума.
Последующие выпуски драйверов Moore Threads действительно улучшали ситуацию и включали поддержку всё большего числа игр.

В общем, мы решили выждать некоторое разумное время, потому что цели разгромить новинки у нас не было. Сразу отметим, что выход нашего материала и наложение санкций США на компанию Moore Threads примерно в одно время — чистой воды совпадение. Мы уже вовсю работали (а карты пришлось тестировать очень долго: многие игры на них не запускались или зависали), когда пришла информация о том, что этот китайский стартап попал в американский черный список.

Но более детально мы поговорим об этом в выводах, а пока приступим к пристальному изучению самой компании Moore Threads и ее продуктов.

Компания Moore Threads и ее видеокарты

Итак, осенью прошлого года китайская компания Moore Threads представила первую китайскую же игровую видеокарту MTT S80, а позднее и менее производительную S70 на том же чипе. Эта компания была основана еще в 2020 году, поставив своей целью разработку и создание графического процессора, основанного исключительно на китайских технологиях. Всего за год они прошли три раунда финансирования, получив многомиллионные вливания от Sequoia Capital China, ByteDance, Tencent и других больших компаний. Последняя серия инвестиций была использована для запуска массового производства видеокарт и расширения экосистемы Moore Threads — утверждается, что их партнерами стали сотни китайских компаний, работающих в сфере графики и вычислений.

В Китае в последние годы появилось большое количество молодых компаний, работающих над своими графическими процессорами, но именно у Moore Threads оказалось достаточно опытных сотрудников для создания собственного GPU. Часть команды была набрана из сотрудников Nvidia, Microsoft, Intel, ARM и других крупных технологических компаний. Неудивительно, что Moore Threads поддерживается китайскими властями, в числе прочего известно, что они адаптировали свои GPU для совместной работы с китайскими же центральными процессорами и операционными системами. И сейчас видеокарты компании Moore Threads поддерживают все основные платформы, интересующие китайцев — Intel, AMD, Loongson, Zhaoxin, а также операционные системы Windows, Kirin, Tongxin, Ubuntu и др.

Китайцам сейчас жизненно необходимо скорейшее создание полностью собственных чипов для высокопроизводительных вычислений — даже не графики, которая в этом деле не главное. Не так давно власти США запретили поставки некоторых моделей наиболее производительных графических процессоров западных производителей в Китай, это коснулось и Nvidia, и AMD. Времена полностью свободного рынка не то чтобы прошли, их никогда и не было, все последние санкции это лишь подтверждают. Сложно предугадать, какие еще конфликты и западные санкции грозят Китаю в будущем, но они справедливо желают иметь возможность использовать собственные разработки в столь важных для современной индустрии сферах, как высокопроизводительные вычисления и искусственный интеллект.

И компания Moore Threads сделала один из первых шагов к этому. Да, есть вопросы и к самой архитектуре (далее мы поговорим о том, китайская ли она вообще), и к ее совместимости с имеющимся парком аппаратного и программного обеспечения, и к возможности собственного производства — ведь западные санкции запретили китайцам производство микропроцессоров с использованием современных техпроцессов на той же тайваньской TSMC, где и производятся чипы MTT. А собственное 7-нанометровое производство на китайских фабриках SMIC пока еще, похоже, не готово к производству массовых изделий такой сложности. В общем, проблем на сегодняшний день немало, но часть из них находится в процессе решения.

И поскольку многих игроков в Китае не интересуют самые современные игры, требующие высокопроизводительных графических процессоров, то видеокарты начального уровня могут быть востребованы. MTT S80 и S70 сейчас с оговорками можно использовать для просмотра видеороликов и большинства несложных/старых игр, но для выхода на мировой уровень (даже не рынок) этого мало. Будем надеяться, что Moore Threads продолжат адаптировать и оптимизировать драйвера под всевозможные игры и приложения, а пока что советовать их решения при возможности приобрести карты AMD, Nvidia и Intel крайне сложно.

Впрочем, практические трудности не останавливают наш теоретический интерес: сегодня у нас один из самых интересных, но вместе с тем и самых сложных обзоров на сайте за всё время. Новые производители графических процессоров появляются даже не каждое десятилетие. Прошли 1990—2000-е годы бурного развития аппаратных ускорителей графики реального времени, когда маленькая компания могла спроектировать видеочип, отправить его в производство и привлечь стороннюю компанию для выпуска видеокарт. Видеочипы и видеокарты тех времен намного проще нынешних. Сейчас создать конкурентоспособный мощный GPU со всеми современными требованиями сходу не слишком хорошо получилось даже у Intel, хотя их попытка и стала наиболее удачной за долгие годы.

Кроме того, создание обзора сильно затрудняло отсутствие информации об изделиях MTT. Мы потратили кучу времени на поиски, но толковой информации нашлось очень мало, а по некоторым темам — например, про использование для майнинга или в задачах искусственного интеллекта — ее нет вообще. Какие-то отдельные китайские разработчики молча пишут программное обеспечение под MTT, но рассказывать об этом в мировом интернете не собираются. В найденных обзорах чаще всего просто констатируют, что такие видеокарты есть и работают они вот так, да еще и на китайском языке. Давайте посмотрим, что нам удалось узнать.

Графический ускоритель MTT S80
Кодовое имя чипа	Chunxiao (SD102AA)
Технология производства	7 нм TSMC
Количество транзисторов	22 млрд
Площадь ядра	416 мм²
Архитектура	унифицированная, с массивом процессоров для потоковой обработки разных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX	DirectX 11, с поддержкой уровня возможностей Feature Level 11_1
Шина памяти	256-битная: 8 независимых 32-битных контроллеров памяти с поддержкой GDDR6
Частота графического процессора	до 1800 МГц
Вычислительные блоки	4096 блоков ALU для целочисленных расчетов и расчетов с плавающей запятой (поддерживаются форматы INT8, INT16, FP16, FP32 и FP64)
Блоки трассировки лучей	—
Тензорные ядра	128 ядер
Блоки текстурирования	256 блоков текстурной адресации и фильтрации с поддержкой FP16/FP32-компонент и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растровых операций (ROP)	256 блоков ROP с поддержкой различных режимов сглаживания, в том числе программируемых и при FP16/FP32-форматах буфера кадра
Поддержка мониторов	поддержка интерфейсов HDMI 2.1 и DisplayPort 1.4a

Спецификации видеокарты MTT S80
Частота ядра максимальная	1800 МГц
Количество универсальных процессоров	4096
Количество текстурных блоков	256
Количество блоков блендинга	256
Эффективная частота памяти	14 ГГц
Тип памяти	GDDR6
Шина памяти	256 бит
Объем памяти	16 ГБ
Пропускная способность памяти	448 ГБ/с
Вычислительная производительность (FP32)	до 14,4 терафлопс
Теоретическая максимальная скорость закраски	460 гигапикселей/с
Теоретическая скорость выборки текстур	460 гигатекселей/с
Шина	PCI Express 5.0 x16
Разъемы	один HDMI 2.1, три DisplayPort 1.4a
Энергопотребление	до 255 Вт
Дополнительное питание	один 8-контактный разъем
Число слотов, занимаемых в системном корпусе	2,5
Рекомендуемая цена на старте продаж	$423 (приблизительно)

Спецификации видеокарты MTT S70
Частота ядра максимальная	1600 МГц
Количество универсальных процессоров	3584
Количество текстурных блоков	224
Количество блоков блендинга	224
Эффективная частота памяти	14 ГГц
Тип памяти	GDDR6
Шина памяти	224 бит
Объем памяти	7 ГБ
Пропускная способность памяти	392 ГБ/с
Вычислительная производительность (FP32)	до 11,2 терафлопс
Теоретическая максимальная скорость закраски	358 гигапикселей/с
Теоретическая скорость выборки текстур	358 гигатекселей/с
Шина	PCI Express 4.0 x16
Разъемы	один HDMI 2.1, три DisplayPort 1.4a
Энергопотребление	до 220 Вт
Дополнительное питание	один 8-контактный разъем
Число слотов, занимаемых в системном корпусе	2,5
Рекомендуемая цена на старте продаж	$352 (приблизительно)

Наименование пары рассматриваемых сегодня моделей видеокарт Moore Threads соответствует принятому ими больше года назад принципу. Старший вариант из двух получил код S80, а младший — S70. Ранее у них существовала также менее мощная модель S60, а позднее они выпустили пару более производительных. Посмотрим, как они будут называть свои решения дальше, но пока что всё выглядит логично.

Понятно, что о рекомендованных ценах и конкурентах на рынке в случае видеокарт из Китая говорить сложно. Были заявлены какие-то рекомендованные цены для локального рынка, но они бессмысленны по причине отсутствия этих видеокарт на мировом рынке и быстрого изменения розничных цен. На момент начала продаж модель S80 стоила 3000 юаней (порядка $423), сейчас ее цена упала до 1200 юаней ($164), что всё равно дороговато. Впрочем, для Китая с учетом существующих и потенциальных санкций в будущем это может быть вполне интересно, а на остальные рынки видеокарты Moore Threads никто и не продвигает.

Что касается объема видеопамяти, то для MTT S80, исходя из ширины шины видеопамяти в 256 бит, выбор был между 8 и 16 ГБ. С учетом того, что эти карты не только игровые, объем 8 ГБ для старшей модели показался компании недостаточным, поэтому они выбрали 16 ГБ, вполне подходящие и для использования старшего решения в каких-то более-менее серьезных вычислительных задачах. С точки зрения игр же, скорость имеющихся видеокарт MTT настолько низкая, что в любом случае придется использовать низкие настройки качества графики, так что упора в объем видеопамяти не будет никогда. Для чисто игровой карты уровня S80 можно было обойтись и 8 ГБ (и, вероятно, еще меньше).

С моделью MTT S70 всё несколько интереснее: GPU этой модификации лишили одного 32-битного канала памяти, и шина стала 224-битной, так что установить на нее можно или 14 ГБ, или 7 ГБ видеопамяти. Для младшей карты разумно выбрали второй вариант, единственная претензия к которому заключается в том, что уж больно необычно смотрится такой «нечетный» объем. Разработчики игр обычно ориентируются на наиболее распространенные варианты объема видеопамяти, так что за ориентир они, скорее всего, возьмут 8 ГБ, а у карты с 7 ГБ теоретически могут наблюдаться странные провалы в производительности. Впрочем, с учетом сказанного выше про общий уровень производительности, S70 это вряд ли грозит.

Так как компания Moore Threads всё делает самостоятельно, то видеокарты MTT существуют исключительно в эталонном дизайне (и только производства самой компании). Обе полученные нами на тесты видеокарты имеют двухслотовую конструкцию, но из-за немалой толщины кожуха кулера они займут скорее 2,5-3 слота в корпусе. Система охлаждения у них трехвентиляторная. Обе видеокарты имеют по три разъема DisplayPort 1.4 и один разъем HDMI 2.1 для вывода информации на дисплеи, что вполне на хорошем современном уровне.

К сожалению, решения MTT не отличаются энергоэффективностью и по этому параметру уступают всем соперникам. Потребление энергии у пары видеокарт Moore Threads достаточно высокое: максимальный заявленный уровень у S80 может достигать 255 Вт, а у S70 — 220 Вт. Именно поэтому компания использует немаленький кулер с тремя вентиляторами. В то же время, такой уровень энергопотребления позволяет обойтись одним 8-контактным разъемом дополнительного питания.

Особенности архитектуры

Видеокарты моделей MTT S80 и S70 является игровыми вариантами, они основаны на разных версиях графического процессора, известного под кодовым именем Chunxiao, который базируется на архитектуре Moore Threads Unified System Architecture (MUSA). GPU начал производиться с ноября 2022 года при помощи техпроцесса 7 нм на фабриках TSMC. Некоторые изначально предполагали возможность чисто китайского производства на фабриках SMIC, но дальнейшая история с санкционным запретом производства микрочипов с использованием современных технологий на тайваньских фабриках для китайских производителей раскрыла, что производителем точно являлась TSMC.

Напомним, в октябре США еще сильнее ужесточили санкции против китайских компаний, запретив разработчикам графических чипов и ускорителей вычислений использование услуг контрактных производителей, вроде TSMC. Эти ограничения означают, что Moore Threads не смогут заказывать выпуск разработанных ими GPU на фабриках компании TSMC — вслед за компанией Huawei, которая попала в аналогичную ситуацию несколько лет назад и теперь сотрудничает с также находящейся под санкциями США китайской компанией SMIC. Введение санкций привело к тому, что Moore Threads даже заявила о сокращении части персонала, и в дальнейшем им, судя по всему, также придется обходиться возможностями SMIC.

Но пока что у них есть чипы, сделанные ранее на TSMC. Количество транзисторов в этом GPU немалое: заявлено 22 млрд, и это явно больше, чем 17,4 млрд в чипе GA104 (Nvidia), который используется в GeForce RTX 3060 Ti, RTX 3070 и даже RTX 3070 Ti. Площадь кристалла также довольно впечатляющая: 416 мм², что также несколько больше, чем 392 мм² у GA104. Судя по этим числам, плотность транзисторов у Chunxiao достаточно высока: 52,9 млн/мм², что явно выше, чем 44,4 млн/мм² у GA104. Это объясняется разницей в техпроцессах: 7 нм TSMC для китайского GPU и 8 нм Samsung для графического процессора Nvidia. По этим параметрам китайский GPU выглядит вполне серьезно.

Мы не знаем множества деталей о внутреннем устройстве графического процессора. Известно, что в нем 4096 блоков потоковой обработки архитектуры MUSA, работающих на частоте 1,8 ГГц, что дает вычислительную производительность до 14,4 терафлопс при вычислениях одинарной точности с плавающей запятой (FP32). Кроме этого, заявлено наличие 128 тензорных ядер, обеспечивающих производительность матричных вычислений в формате INT8 до 57,6 тераопс. К сожалению, данных о количестве блоков текстурирования TMU и растеризации ROP в Chunxiao у нас нет, но по появившимся на одном из слайдов цифрам в 460 Гпикс/с и 460 Гтекс/с, зная частоту чипа в 1800 МГц, можно посчитать, что этих блоков в GPU должно быть по 256 штук, что на фоне других GPU много. Но других данных у нас нет. И вот по этим значениям могут возникнуть некоторые вопросы к эффективности и конкурентоспособности китайского изделия — даже с учетом чисто теоретической производительности.

14,4 терафлопс FP32 для 22 млрд транзисторов при 21,8 Тфлопс FP32 для 17,4 млрд (RTX 3070 Ti) при близких тактовых частотах чипов говорят о том, что второй заметно более эффективен даже чисто в теории (0,65 против 1,25 Тфлопс/млрд). И даже если взять урезанную версию GA104 в RTX 3060 Ti, то это будет 0,93 Тфлопс/млрд — то есть показатель MTT S80 ниже в полтора, а то и в два раза. По скорости текстурирования и филлрейту, если верить заявленным MTT значениям, производительнее будет уже китайское решение, но это нужно проверять на практике. Кстати, предыдущее решение компании — модель MTT S60 — имело 2048 потоковых процессоров MUSA, вычислительную производительность до 6 терафлопс и скорость заполнения в 192 гигапикселей/с (примерно вдвое хуже по всем параметрам). К слову, MTT S80 основан на графическом процессоре Chunxiao, а S60 — на предыдущем чипе Sudi, и отличие нового GPU в том, что у него четыре вычислительных движка, которые могут работать одновременно.

Модель Moore Threads MTT S80 имеет 16 ГБ достаточно производительной GDDR6-памяти с эффективной частотой 14 ГГц, которая присоединена к графическому процессору по 256-битной шине, что дает итоговую пропускную способность памяти в 448 ГБ/с — ровно столько же, сколько у RTX 3060 Ti, к примеру. А вот что выгодно отличает именно старшую MTT S80, так это поддержка интерфейса PCIe 5.0 (с полной шириной x16, разумеется) — это первая в отрасли видеокарта с таким скоростным интерфейсом. В теории это должно обеспечить самую высокую пропускную способность для передачи данных в 128 ГБ/с (в обе стороны), недостижимую для всех остальных GPU, поддерживающих лишь предыдущую версию PCIe и имеющих вдвое меньшую скорость передачи. Другой вопрос, что мы не нашли тестов для Windows, которые могли бы на практике подтвердить эту скорость, и нам остается лишь верить китайским исследователям.

Значительно позднее компания Moore Threads анонсировала и выпустила на рынок модель MTT S70, основанную на том же GPU, но имеющем урезанные характеристики по сравнению с полным чипом в S80. Видеокарта MTT S70 имеет 3584 потоковых процессора архитектуры MUSA (вероятна группировка потоковых процессоров по 512 штук, если отключен один из укрупненных блоков, а если два, тогда по 256) и тактовую частоту до 1,6 ГГц — по сравнению с 4096 процессорами и 1,8 ГГц у S80. То есть пиковая вычислительная производительность S70 упала на 3,2 терафлопса. Судя по всему, аналогичным образом младшая версия GPU была урезана и по количеству блоков текстурирования и заполнения. Но это еще не всё: MTT S70 лишилась одного 32-битного канала памяти и вместо 256-битного предлагает лишь 224-битный интерфейс — не самое распространенное значение среди графических процессоров. Соответственно, установить на нее можно было или 14 ГБ, или 7 ГБ видеопамяти, и для младшей карты выбрали второй вариант, что смотрится весьма необычно. Эффективная частота памяти не изменилась (14 ГГц), поэтому общая пропускная способность составила 392 ГБ/с.

Ну а еще любопытнее то, что в компании решили лишить младший вариант уникальной особенности, известной по топовой видеокарте MTT: модель S70 поддерживает лишь интерфейс PCIe 4.0, а не более новый PCIe 5.0, поддержкой которого хвастает S80. Впрочем, на деле это скорее маркетинговое отличие, а в реальности PCIe 4.0 даже лучше, так как решает некоторые потенциальные проблемы совместимости с системными платами, скорости же более старой версии интерфейса для столь медленного GPU в игровых применениях точно будет достаточно. Что касается энергопотребления, то младший вариант видеокарты не слишком понизил эту планку: с 255 Вт лишь до 220 Вт.

Возможности по обработке видеоданных заявлены неплохие: видеокарты MTT имеют интеллектуальный мультимедийный движок второго поколения, который поддерживает такие распространенные видеоформаты, как AV1, H.264, H.265 и VP9, и также поддерживает аппаратную обработку и воспроизведение видеоданных в формате HDR10. S80 и S70 имеют четыре блока, которые обеспечивают обработку мультимедийных данных, их можно использовать в задачах компьютерного зрения, а также для простого ускорения кодирования и декодирования видеопотоков во всех основных видеоформатах. Поддерживается аппаратное ускорение декодирования видеопотока как минимум в форматах H.264, H.265 (HEVC), VP9 и AV1, включая 10-битные профили с разрешением до 8K или до 32 каналов Full HD при 30 FPS. На практике при тестовом просмотре видео типичная загрузка GPU наблюдалась порядка 50%-60%.

Благодаря поддержке относительно современных интерфейсов вывода данных на дисплеи DisplayPort 1.4a и HDMI 2.1, рассматриваемые китайские видеокарты поддерживают одновременный вывод информации на четыре дисплея с разрешением вплоть до 8K (7680×4320) при 30 Гц или 1920×1080 при 360 Гц, обещана также поддержка HDR. Ну а поддержка многопоточного транспорта MST дает возможность подключения нескольких дисплеев к одному порту при помощи объединения нескольких видеосигналов в один поток — до четырех.

Поддержка графических API

Найти специалистов по созданию графических процессоров непросто, о чем мы еще поговорим, но не менее сложно отыскать и программистов для написания хорошо оптимизированных графических драйверов для Windows и DirectX. Их в принципе мало, и большинство из них живет в западных странах. Даже компания Intel, занимающаяся созданием GPU десятки лет, столкнулась со многими проблемами и неудачами при разработке аппаратного и программного обеспечения для графики, не говоря уже о полностью новом игроке, присутствующем на рынке всего лишь три года. Поэтому совершенно не удивительно, что у китайцев возникли... скажем так, некоторые проблемы, и это еще мягко говоря.

Аппаратно графический процессор Chunxiao и видеокарты MTT выглядят весьма интересно, а вот с программной точки зрения им предстоит еще долгая работа. Центр управления видеокартой PES включает функции обновления драйверов, мониторинг состояния видеокарты, некоторые настройки и т. п., и тут всё довольно неплохо. Заявлена поддержка DirectX, OpenGL, Vulkan, OpenCL и CUDA (при помощи трансляции), но на данный момент по первому пункту это всего лишь DirectX 11 с уровнем возможностей 11_1 и OpenGL 3.3, так что GPU поддерживает лишь старые игры и приложения, и то далеко не идеально — есть проблемы и с производительностью, и с качеством.

Конечно, китайцы постоянно работают над улучшением драйверов, и новые версии часто обеспечивают большой прирост производительности, но это объясняется эффектом низкой базы: начальная скорость была уж слишком маленькой. Moore Threads продолжают оптимизировать программное обеспечение, чтобы повысить производительность и обеспечить лучшую совместимость, но не факт, что мы увидим действительно важные и большие изменения. Сейчас же поддержка возможностей Direct3D выглядит так.

Инструменты диагностики показывают общий доступный объем видеопамяти в 32 ГБ (к 16 ГБ локальной видеопамяти добавлены еще 16 ГБ разделяемой памяти в ОЗУ). Уровни поддержки функциональности Direct3D видеокартами MTT ограничены версией 11_1, хотя у всех современных GPU есть поддержка 12_1 и 12_0. Судя по всему, поддерживается полноэкранное сглаживание методами MSAA 2x, MSAA 4x и MSAA 8x, но мы это не проверяли, так как производительность слишком низкая и без включения столь затратных технологий. Максимальный поддерживаемый размер текстур — 8192×8192 пикселей (у видеокарт Nvidia, к примеру, 16384×16384).

Графическими процессорами MTT не поддерживаются следующие функции Direct3D 11 (по сравнению с современными видеокартами Nvidia): AGP Texturing, Double-Precision Floating-Point, Driver Concurrent Creates, Driver Command Lists, Edge Anti-Aliasing и Tiled Resources. Если Edge Anti-Aliasing и Double-Precision Floating-Point вряд ли пригодятся где-то с GPU такого уровня, то списки команд и мозаичные (плиточные) ресурсы вполне могли бы использоваться — особенно с учетом их дальнейшего развития в Direct3D12, который как раз и не поддерживается графическими процессорами MTT. Первые позволяют создавать объекты (текстуры, буферы и шейдеры) параллельно в разных потоках и формировать командный буфер в отдельном потоке, ускоряя загрузку и обработку. Практически все в том или ином виде используются в современных Direct3D12-приложениях. Тесселяция также поддерживается не полностью, как минимум пока.

Из важных вещей также нет поддержки функции GPU-планировщика с аппаратным ускорением — Hardware Scheduling, которая появилась в обновлении Windows 10 за май 2020 года. Аппаратное ускорение планирования обеспечивает более эффективное распределение ресурсов между различными приложениями — при поддержке этой функции аппаратным и программным обеспечением можно переложить большую часть планирования на сам графический процессор, что обычно работает несколько эффективнее. При этом сама операционная система продолжает решать, какие приложения имеют приоритет при использовании ресурсов.

Лицензирование или собственная архитектура?

Самый интересный вопрос: как китайцы за относительно короткое время вдруг смогли с нуля разработать полностью собственную графическую архитектуру, пусть и со множеством недостатков? Немногие компании в мире в принципе способны разработать собственные ядра графических процессоров, ведь в них используется немало технологий и патентов, принадлежащих далеко не только китайским компаниям, но и многим западным. Впрочем, не обязательно ведь разрабатывать самостоятельно вообще всё, можно использовать и чужие разработки, договорившись с их владельцами.

Этим вопросом задались далеко не мы одни, и хотя прямых доказательств нет, но, по многим признакам, есть немалая вероятность, что Moore Threads лицензировали какую-то архитектуру у компании Imagination Technologies, известной по PowerVR Kyro в настольных ПК много лет назад и графическим ядрам PowerVR в мобильных чипах, на которых основаны некоторые смартфоны и планшеты — к слову, их графические ядра раньше использовала даже Apple. Эта компания обладает более чем тридцатилетним опытом разработки графических процессоров PowerVR, они являются одними из пионеров аппаратных ускорителей 3D-графики. Компания известна по необычной архитектуре отложенного рендеринга на основе тайлов (tile-based deferred rendering — TBDR), созданной еще в 90-х годах, а их графические ядра для мобильных решениях включают даже поддержку трассировки лучей. В смартфонах и планшетах эти мобильные решения работают достаточно неплохо, обеспечивая хороший уровень производительности и энергоэффективности.

Портфолио графических процессоров компании Imagination весьма широко, их GPU отлично масштабируются и охватывают спектр решений с разным уровнем производительности. Интересно также, что недавно компания выпустила IMG DXD — новые высокопроизводительные графические ядра с поддержкой DirectX, предлагаемые для лицензирования сторонним компаниям. Конечно, архитектура не свалилась с неба, это наследник всё той же архитектуры отложенного рендеринга на основе тайлов PowerVR, которую мы знаем и по настольным решениям очень давнего прошлого, и по рынку мобильных решений, где очень важна высокая энергоэффективность. Новые ядра IMG DXD предлагают вдвое более высокую производительность на ядро по сравнению с предыдущими решениями IMG BXT. Ключевые функции повышения производительности — двойной темп FP16-вычислений, изменяемая скорость затенения — повышение производительности без ущерба качеству, текстурирование с двойным темпом, поддержка текстурного сжатия методом ASTC HDR для снижения требований к пропускной способности памяти, а также встроенное ядро RISC-V для управления графическим процессором.

Двухъядерная конфигурация IMG DXD обеспечивает вычислительную производительность до 5 терафлопс для вычислений в FP32-формате (темп FP16 вдвое выше, а DOT8 выше вчетверо) при скорости текстурирования в 144 гигатекселей/с, чего должно быть достаточно для непритязательных игроков. В реальных приложениях IMG DXD обеспечивает пиковую производительность на 40%—60% выше, чем эквивалентная конфигурация IMG BXT. Ну а для нас примечательнее всего то, что соотношение вычислительной производительности, скорости текстурирования и заполнения у IMG DXD и других решений компании в целом довольно близки к тому, что обозначила в своих материалах Moore Threads, так что на лицензирование каких-то предыдущих решений Imagination вполне похоже.

Всё это неудивительно: на китайском рынке растет спрос на высокопроизводительные и энергоэффективные видеокарты из-за растущего количества западных санкций и запретов, и востребованность предложения Imagination может быть весьма высокой. Полноценная аппаратная поддержка DirectX (пусть и всего лишь 11) и современных игр в IMG DXD дорогого стоит: как показал пример Moore Threads, таким образом можно сделать GPU полностью менее чем за пару лет, причем это будет индивидуальное решение, хотя и на основе кирпичиков чужой готовой архитектуры. Амбициозные китайские компании сейчас ускоряют изготовление своих продуктов, и подобная помощь от такого опытного партнера, как Imagination, им весьма пригодится.

Пока что аппаратная поддержка DirectX у IMG DXD заявлена лишь уровня возможностей 11_0, даже чуть ниже, чем у MTT, но это всё равно позволяет запускать множество популярных игр и приложений. Полная аппаратная поддержка DirectX очень важна для настольных GPU, и поддержка IMG DXD уровня возможностей Direct3D 11_0 — это только начало, специалисты компании собираются продолжать улучшать возможности своих решений, как утверждает директор компании. Их решениями также поддерживаются и другие API: Vulkan 1.3, OpenGL 4.6 (через Zink), OpenGL ES 3.2 и OpenCL 3.0. Как видите, и в этом возможности Moore Threads и самого современного решения Imagination, доступного для лицензирования, довольно близки.

Слухи давно говорили, что в решениях MTT используется архитектура PowerVR, и возможно, другие китайские компании будут догонять их, договорившись с той же Imagination, к примеру. Для Китая это означает лишь частичное решение их основной задачи, ведь патенты на большинство технологий GPU всё равно будут в чужих (западных) руках. Но использование готовых чужих блоков освобождает от львиной доли работы по созданию всей структуры GPU, и всю разработку можно завершить года за полтора. И на данном этапе развития китайской микроэлектроники это решение видится вполне разумным. Основные патенты в области графических процессоров, особенно связанные именно с графикой, а не вычислениями, находятся в руках таких производителей, как Nvidia, Intel и AMD, и китайские производители не смогут это обойти.

Модель правильная с коммерческой точки зрения, как и в мобильных SoC вполне нормально использовать готовые ядра ARM, а не разрабатывать свои. Лишь очень немногие из производителей микроконтроллеров в принципе имеют достаточно ресурсов и возможностей для разработки собственных ядер, а использование чужих разработок — быстрый и самый недорогой путь. Но с точки зрения импортозамещения, использование ядер GPU и архитектур иностранных (западных) производителей не способствует развитию собственных технологий. И тут есть серьезный риск, связанный с возможностью усиления санкционного давления со стороны западных стран.

В Китае еще в 90-х годах были разработки процессоров, сравнимых с Intel 80486, но после снятия ограничений на поставки таких процессоров производства Intel разработки собственных массовых решений были отложены в долгий ящик. Зачем тратить ресурсы, если всё можно купить, казалось тогда китайцам, да и не только им. Но если бы они продолжали свои разработки с того времени, то кто знает, может быть у них появился бы конкурент для Intel и Nvidia еще несколько лет назад. Ну а сейчас всё больше китайских компаний вынуждены проводить исследования и разрабатывать собственные технологии в области графических процессоров и вычислений, связанных с искусственным интеллектом.

И так как сейчас у китайских стартапов по проектированию и производству графических процессоров нет собственных разработок графических процессоров с нуля, то вполне можно использовать чужие, купив лицензию на использование графических ядер у Imagination Technologies. Пока на это есть деньги и не наложены санкции, такой вариант подходит. Можно также использовать специализированное ядро Nvidia с открытым исходным кодом NVDLA для вычислений, связанных с искусственным интеллектом — сам код открыт и его можно модифицировать как угодно, получив достаточно высокую эффективность, но графических функций в этом решении нет.

Сейчас в Китае существует несколько десятков начинающих компаний, которые занимаются именно графическими и вычислительными процессорами, и большинство из них используют ядра Imagination или NVDLA. И если всё больше предприятий будет развивать собственные исследования и разработки, у китайской индустрии графических процессоров появится больше возможностей. Мы постараемся следить за ними и по возможности исследовать.

Текущее положение дел и перспективы

Поговорим немного о том, что получилось на практике с видеокартами MTT у различных исследователей. Скорость заполнения MTT S80, по данным теста Fillrate Tester, равна 188 Гпикс/с, и это очень высокое значение: у RTX 3060 скорость заполнения менее 90 Гпикс/с, а MTT S80 по пиковой скорости заполнения ближе к RTX 3080 Ti. Вполне похоже, что Moore Threads указала верные данные по пиковой теоретической скорости заполнения, хотя оно и далеко от реального. Тест скорости текстурирования в бенчмарке 3DMark 06 показывает более 170 Гтекс/с, и это уже ближе к скорости заполнения текстур у условно конкурирующих видеокарт: например, RTX 3060 обеспечивает в этом тесте порядка 200 ГТекс/с.

К сожалению, под Windows оказалось не так много тестов, способных работать с китайскими видеокартами. К примеру, мы не смогли запустить тесты, использующие OpenCL, но максимальная скорость вычислений с плавающей запятой одинарной точности FP32 по результатам других исследователей составила для MTT S80 порядка 14 терафлопс, что весьма близко к ее теоретическому показателю. Что касается тестов пропускной способности PCIe, то в Windows мы также не смогли протестировать карты MTT, хотя поддержка S80 версии PCIe 5.0 нас весьма интересует. Китайские же исследователи через OpenCL в Ubuntu добились пропускной способности выгрузки в 28 Гбит/с, а загрузки — 32 Гбит/с, что далеко от теоретических значений, но всё равно заметно быстрее, чем у большинства других видеокарт с поддержкой «всего лишь» PCIe 4.0.

По данным всё тех же китайских исследователей, производительность декодирования видеороликов разрешения 1080p и формата VP9 в многоканальном тесте дает общую частоту кадров более 1200 кадров в секунду — то есть одновременно декодируется 10 каналов с более чем 120 FPS для каждого. Что касается кодирования, то десяток потоков разрешения 1080p сжимаются в формат H.265 со скоростью более 180 кадров в секунду. Так что аппаратные возможности кодирования и декодирования в MTT весьма хороши, но есть немалая ложка дегтя: адаптации популярного программного обеспечения под эти решения еще нет. Moore Threads занимается поддержкой программного обеспечения для редактирования видеоданных, но пока что всё находится на зачаточном уровне.

Если же вернуться к 3D-производительности, то если смотреть исключительно по результатам в синтетических тестах, а также теоретическим показателям производительности, топовая MTT S80 должна бы достигать примерно уровня GeForce RTX 3060. Но так как драйвер до сих пор сложно назвать хорошо оптимизированным, производительность даже в поддерживаемых китайскими GPU играх не дотягивает до куда менее производительных решений. Налицо явное несовпадение между заявленными теоретическими характеристиками MTT S80/S70 и их результатами в реальных тестах и играх. Уровень аппаратных возможностей MTT S80 и S70 до сих пор не раскрыт, и есть предположение, что в основном именно из-за недостатков драйверов.

Видеокарты MTT лучше всего себя показывают в приложениях, использующих DirectX 9, что также намекает на устаревшую архитектуру, для которой много лет не оптимизировали и не писали новые драйверы. Кстати, сначала драйверы китайских GPU вообще поддерживали только DX9, затем стала появляться поддержка DX10 и некоторых игр DX11, список которых постоянно расширялся. Всё это свидетельствует о явной работе и прогрессе оптимизации драйверов, но у китайцев впереди еще очень много работы. Список поддерживаемых игр растет, но всё это довольно старые проекты, а почти все новые используют Direct3D 12, которым в случае китайских видеокарт пока и не пахнет.

Так что с игровой точки зрения, видеокарты MTT — это первый блин, они очень сырые, их программная часть находится в постоянной разработке и доработке. Драйверы не поддерживают многие функции привычных графических API, вроде DirectX, вызов некоторых из поддерживаемых вызывает явные проблемы с производительностью, а иногда и с качеством. Есть подозрение, что в архитектуре и текущем воплощении GPU есть немало технических ошибок в аппаратном обеспечении, которые драйверам приходится обходить программно, а это всегда обходится очень дорого в плане производительности. Было бы неплохо увидеть исправления в следующих GPU, но пока что у нас нет никаких данных об этом — компания Moore Threads весьма скрытна, а теперь еще и санкции изменят планы.

Возможно, при дальнейшей разработке архитектуры удалось бы исправить большинство проблем, но на данный момент мы не уверены в том, что это будет сделано. Возможно, компания поспешила с рекламными заявлениями о том, что их видеокарты подходят для игр и вообще конкурентоспособны. Подобные решения на такой стадии разработки подходят скорее для отдельных узкоспециализированных применений, вроде разработки вычислительного ПО, в котором нужно использовать исключительно китайское аппаратное и программное обеспечение. Для таких задач MTT S80 и S70 вполне подойдут, а еще лучше подойдут специализированные ускорители вычислений, основанные на том же графическом процессоре. Но S80 и S70 выпущены как игровые решения, и в этом качестве они отнюдь не блистают.

Даже топовая модель S80 по производительности соответствует разве что GeForce GTX 1050 Ti, в лучшем случае — GTX 1650. Это крайне низкий уровень по сегодняшним меркам, а ведь если смотреть на сложность чипа Chunxiao, то решения на его основе должны конкурировать хотя бы с RTX 3060 Ti, чтобы иметь рыночный успех. Но многие даже не самые современные игры плохо работают или вовсе не запускаются на MTT из-за проблем совместимости драйверов и API. И поэтому S80 и S70 — игровые видеокарты для крайне малой доли энтузиастов, в реальности их применение выглядит необоснованно даже для китайского рынка, пока на него не запретили поставлять видеокарты Nvidia, AMD и Intel. Особенно при не самых низких ценах на видеокарты MTT, которые поначалу вообще были порядка $300 на внутреннем китайском рынке — так что та же GTX 1050 Ti была и лучше, и дешевле.

У видеокарт MTT очень хорошие теоретические показатели производительности вычислений, текстурирования, скорости заполнения, конкурентоспособный техпроцесс и показатель потребления энергии, а установленная GDDR6-память имеет очень приличную пропускную способность, не говоря уже о поддержке PCIe 5.0 — зачем бы китайцы делали всё это при скорости на уровне GTX 1050 Ti? Вероятнее всего, видеокарты MTT с аппаратной точки зрения способны на гораздо большее, чем мы получаем. Ну не должен достаточно сложный GPU с кучей исполнительных блоков и приличной частотой, интерфейсом PCIe 5.0 и 16 ГБ GDDR6-памяти с 256-битной шиной работать как медленная и древняя видеокарта с 4 ГБ медленной видеопамяти, присоединенной по 64-битной шине, да при потреблении в 75 Вт.

На (очень осторожный) оптимизм нас может настраивать лишь то, что у компании Intel также получалось далеко не всё сразу при выходе на рынок видеокарт серии Arc, особенно самых первых. Они также не поддерживали кучу игр и работали куда медленнее ожидаемого уровня, а затем удивили значительным приростом производительности и совместимости драйверов за довольно короткий период. И ведь это — огромная махина Intel с многолетним опытом в проектировании и производстве графических ядер, включая встроенные в процессоры, которые требуют высокой эффективности. Так что есть некоторые шансы и на то, что игровая производительность и совместимость MTT S80 и S70 сильно подрастут и сравняются, к примеру, хотя бы с Radeon RX 5700, если драйверы будут дорабатываться в высоком темпе. И тут нужна не только производительность, но и поддержка всех современных версий DirectX, OpenGL и OpenCL.

Возможно, видеокарты MTT в принципе лучше подходят не для игр, а для различных вычислительных применений, включая использование нейросетей. В теории, архитектура MUSA и разработанный компанией полный стек позволяет обеспечить необходимыми инструментами разработчиков ПО, перенести уже существующие программы на видеокарты MTT, которые совместимы с PyTorch, TensorFlow, PaddlePaddle, OneFlow и другими платформами глубокого обучения. В число функциональных модулей, включенных в программный стек MUSA, входит рендеринг, работа с мультимедиа, задачи искусственного интеллекта, физического моделирования и общих вычислений.

В теории графические процессоры MTT должны показывать неплохую производительность в таких задачах, ведь максимальная вычислительная производительность в операциях с плавающей запятой одинарной точности и специальном 8-битном формате INT8 у них достаточно высока. Есть некоторые данные о том, что решения MTT неплохо адаптированы к MONAI — платформе искусственного интеллекта с открытым исходным кодом в области медицинских исследований, к примеру. Также китайцы подтверждают высокую производительность в OpenCL под Ubuntu. Но так как мы используем только публичные тесты и не занимаемся вычислениями самостоятельно, то и проверить всё это не можем.

Кстати, одна из важнейших технологий, разработанных Moore Threads — CUDA on MUSA. Судя по ее названию, она позволяет снизить затраты на переход существующих пользователей CUDA с видеокарт Nvidia на MTT при помощи портирования кода на CUDA в код, подходящий для решений Moore Threads (видимо, OpenCL). Мы не знаем, насколько просто перенести исходный код CUDA на графические процессоры Moore Threads, но на бумаге заявлено, что это якобы достаточно просто, нужно лишь портировать и перекомпилировать код. Мы это также не можем проверить.

Что ж, сейчас предлагаем перейти к тому, что́ мы проверить можем и чем постоянно занимаемся — к рассмотрению особенностей видеокарт Moore Threads MTT S80 и S70 на практике.

Особенности карт Moore Threads MTT S80 (16 ГБ) и MTT S70 (7 ГБ)

Компания Moore Threads Technology (торговая марка MTT) основана в 2020 году в Китайской Народной Республике. Штаб-квартира в Пекине. Изначально создавалась как стартовая компания разработчиков новых графических процессоров и видеокарт на их основе. Формальным руководителем является бывший вице-президент и глава офиса Nvidia в КНР Чжан Цзяньчжун. За три года существования стартап получил миллиарды долларов государственной поддержки правительства КНР, вследствие чего уже через год компания объявила о первой успешной разработке собственного GPU, на основе которого вышли первые продукты компании для вычислительных нужд под единой идеологией создания «метакомпьютеров» для вычислительных процессов оцифровки всего физического мира и физикализации цифрового мира. Была создана единая системная архитектура MUSA (MT Unified System Architecture). Численность персонала неизвестна.

Объекты исследования: ускоритель трехмерной графики (видеокарта) MTT S80 16 ГБ 256-битной GDDR6 и ускоритель MTT S70 7 ГБ 224-битной GDDR6.

Внешне карты совершенно одинаковы.

Moore Threads MTT S80 16 ГБ 256-битной GDDR6 / MTT S70 7 ГБ 224-битной GDDR6
Параметр	S80	S70
GPU	Chunxiao
Интерфейс	PCI Express x16 5.0	PCI Express x 16 4.0
Частота работы GPU (ROPs), МГц	1800	1600
Частота работы памяти (физическая (эффективная)), МГц	1750 (14000)	1750 (14000)
Ширина шины обмена с памятью, бит	256	224
Число вычислительных блоков в GPU	64	56
Число операций (ALU/CUDA) в блоке	64
Суммарное количество блоков ALU/CUDA	4096	3584
Число блоков текстурирования (BLF/TLF/ANIS)	152	148
Число блоков растеризации (ROP)	80
Число блоков Ray Tracing	—
Число тензорных блоков	128	114
Размеры, мм	285×110×50
Количество слотов в системном блоке, занимаемые видеокартой	3
Цвет текстолита	черный
Энергопотребление пиковое в 3D, Вт	170	152
Энергопотребление в режиме 2D, Вт	150	141
Энергопотребление в режиме «сна», Вт	—	—
Уровень шума в 3D (максимальная нагрузка), дБА	27,6	27,4
Уровень шума в 2D (просмотр видео), дБА	22,0	22,0
Уровень шума в 2D (в простое), дБА	22,0	22,0
Видеовыходы	1×HDMI 2.1, 3×DisplayPort 1.4a
Поддержка многопроцессорной работы	нет
Максимальное количество приемников/мониторов для одновременного вывода изображения	4	4
Питание: 8-контактные разъемы PCIe	0	1
Питание: 8-контактные разъемы EPS12V	1	0
Питание: 16-контактные разъемы	0	0
Вес карты с комплектом поставки (брутто), кг	—	1,3
Вес карты чистый (нетто), кг	1,0	1,0
Максимальное разрешение/частота, DisplayPort	3840×2160@144 Гц, 7680×4320@60 Гц
Максимальное разрешение/частота, HDMI	3840×2160@144 Гц, 7680×4320@60 Гц
Ориентировочная стоимость карт	18 тысяч рублей	14 тысяч рублей

Память

Карта MTT S80 имеет 16 ГБ памяти GDDR6 SDRAM, размещенной в 8 микросхемах по 16 Гбит на лицевой стороне PCB.

Карта MTT S70 имеет 7 ГБ памяти GDDR6 SDRAM, размещенной в 7 микросхемах по 8 Гбит на лицевой стороне PCB.

Микросхемы памяти Samsung рассчитаны на номинальную частоту работы в 2000 (16000) МГц.

Особенности карт и сравнение между собой

MTT S80 (16 ГБ)	MTT S70 (7 ГБ)
вид спереди

вид сзади

Прекрасно видно, что обе карты имеют совершенно одинаковые PCB. Разница лишь емкостях установленных микросхем памяти и в отсутствии одной микросхемы у S70, вследствие чего объем памяти снизился до 7 ГБ, а ширина шины обмена с памятью — до 224 бит.

MTT S80 использует чип SD102AA-500, дата выпуска неизвестна.

MTT S70 использует чип SD102AA-400, дата выпуска неизвестна.

Чипы имеют разные маркировки производства, поэтому можно предположить, что кристаллы выпускались на разных заводах.

Суммарное количество фаз питания у обеих карт — 8 (6+2).

Зеленым цветом отмечена схема питания ядра, красным — памяти.

6 фазами питания ядра управляют два ШИМ-контроллера DRV8305 (Texas Instruments), каждый из которых рассчитан максимум на 3 фазы. Они расположены на лицевой стороне карты.

2 фазами питания микросхем памяти заведует точно такой же третий ШИМ-контроллер.

В преобразователе питания ядра и микросхем памяти используются транзисторные сборки DrMOS — в данном случае AOZ5311 (Alpha&Omega Semi), рассчитанные максимум на 55 А.

Имеется и контроллер Texas Instruments для мониторинга (отслеживания напряжений и температур).

Карты оснащены подсветкой, но однотонной и неуправляемой, так что контроллера подветки нет.

Обе карты оснащены контроллером Realtek RTD2175, который преобразует сигнал DisplayPort в HDMI 2.1 (для работы единственного такого видеовыхода).

Энергопотребление карт в тестах доходило до 170 Вт у MTT S80 и до 152 Вт у MTT S70 (что примерно соответствует их заявленному максимальному потреблению с учетом того, что во время тестов мы видели стабильно низкую загруженность GPU, далекую от 100%).

Питание на обе карты подается через боковой торец. При этом у MTT S70 установлен обычный 8-контактный разъем PCIe 2.0, а у MTT S80 — тоже 8-контактный, но EPS12V (такие устанавливаются на материнских платах для питания CPU).

Карта MTT S80 поставляется с переходником питания на EPS12V с двух 8-контактных разъемов PCIe (как правило, у блоков питания всего 2 «хвоста» EPS12V, и часто они оба используются).

Чтобы не перепутать требуемый коннектор, карты снабжены соответствующими наклейками на разъемах питания. Однако MTT S80 мы получили в составе уже собранного ПК, с уже вставленным хвостом питания и переходником, так что наклейки на ней не было.

Габариты карт вполне стандартные, толщина составляет 5 см, так что они занимают почти 3 слота в системном блоке (официально производитель их заявляет как 2-слотовые).

Также стоит отметить, что у обеих карт используются стандартные 4 видеовыхода: один HDMI 2.1 и три DP 1.4a.

Управление работой карт обеспечивается с помощью фирменной утилиты MTT PES (Perfect Experience System). PES позволяет лицезреть мониторинг во всей красе и управлять выводом графики на несколько мониторов. Управлять частотами GPU и режимами работы возможности нет. Очень важно включить в настройках автоматическое отслеживание обновлений драйверов, ибо только половина версий выкладывается на сайте в виде отдельных пакетов, прочие скачиваются через PES в виде обновлений.

Семейство MTT уже понимает бета-версия FurMark 2.1, однако GPU-Z и HWinfo до сих пор не умеют работать с такими картами.

Нагрев и охлаждение

Основой СО является относительно массивный двухсекционный пластинчатый никелированный радиатор с тепловыми трубками, распределяющими тепло по ребрам радиатора.

Трубки припаяны к огромному медному плато. Микросхемы памяти и преобразователи питания VRM охлаждаются с помощью этого же огромного теплосъемника (через термопрокладки).

Задняя пластина служит элементом защиты PCB, усиливает жесткость конструкции, а также помогает в охлаждении силовых элементов схемы питания GPU (она прижата к оборотной стороне текстолита через термопрокладку).

Поверх радиатора установлен кожух с тремя вентиляторами (боковые — ∅100 мм, центральный — ∅85 мм).

Вентиляторы вращаются всегда, вне зависимости от нагрузки.

Мониторинг температурного режима

MTT S80

После 2-часового прогона под нагрузкой максимальная температура ядра не превысила 52 градусов, что является отличным результатом. Энергопотребление карты доходило до 170 Вт.

Максимум нагрева — около GPU и у разъема PCIe.

MTT S70

После 2-часового прогона под нагрузкой максимальная температура ядра не превысила 46 градусов, что также является отличным результатом. Энергопотребление карты доходило до 152 Вт.

Шум

Методика измерения шума подразумевает, что помещение шумоизолировано и заглушено, снижены реверберации. Системный блок, в котором исследуется шум видеокарт, не имеет вентиляторов, не является источником механического шума. Фоновый уровень 18 дБА — это уровень шума в комнате и уровень шумов собственно шумомера. Измерения проводятся с расстояния 50 см от видеокарты на уровне системы охлаждения.

Режимы измерения:

Режим простоя в 2D: загружен интернет-браузер с сайтом iXBT.com, окно Microsoft Word, ряд интернет-коммуникаторов
Режим 2D с просмотром фильмов: используется SmoothVideo Project (SVP) — аппаратное декодирование со вставкой промежуточных кадров
Режим 3D с максимальной нагрузкой на ускоритель: используется тест FurMark

Оценка градаций уровня шума следующая:

менее 20 дБА: условно бесшумно
от 20 до 25 дБА: очень тихо
от 25 до 30 дБА: тихо
от 30 до 35 дБА: отчетливо слышно
от 35 до 40 дБА: громко, но терпимо
выше 40 дБА: очень громко

MTT S80

В режиме простоя в 2D температура была не выше 24 °C, вентиляторы работали на частоте вращения 1100 оборотов в минуту, уровень шума был равен 22 дБА.

При просмотре фильма с аппаратным декодированием ничего не менялось.

В режиме максимальной нагрузки в 3D температура ядра достигала 52 °C. Вентиляторы при этом раскручивались до 1846 оборотов в минуту, шум вырастал до 27,6 дБА: это тихо. Аудиозапись шума — здесь.

Спектрограмма шума:

MTT S70

В режиме простоя в 2D температура была не выше 22 °C, вентиляторы работали на частоте вращения 1000 оборотов в минуту, уровень шума был равен 22 дБА.

При просмотре фильма с аппаратным декодированием ничего не менялось.

В режиме максимальной нагрузки в 3D температура ядра достигала 46 °C. Вентиляторы при этом раскручивались до 1828 оборотов в минуту, шум вырастал до 27,4 дБА: это тихо. Аудиозапись шума — здесь.

Спектрограмма шума:

Подсветка

У обеих карт имеется однотонная оранжевая неуправляемая и неотключаемая подсветка по ободу центрального вентилятора. Точно так же подсвечен вырез в форме логотипа компании на задней пластине.

Комплект поставки и упаковка

MTT S70

В комплекте поставки кроме традиционного краткого руководства пользователя и гарантийной карты (оба на китайском языке) больше ничего нет.

MTT S80

Как мы уже отмечали, данная карта попала к нам в составе системного блока, так что кроме переходника питания с ней ничего не было. Однако в качестве бонуса отдельной посылкой приехал огромный фирменный коврик Moore Threads для мыши.

Тестирование: синтетические тесты

Мы провели тестирование пары видеокарт Moore Threads со стандартными параметрами в нашем наборе синтетических тестов. В этот раз он сильно похудел: ранее мы добавили много новых тестов, но из-за крайне ограниченной поддержки графических API китайскими решениями пришлось сильно урезать список и даже протестировать GPU в старых тестах DirectX 10, которые мы давно выкинули из обычных материалов по картам AMD, Intel и Nvidia. Последней пригодной к использованию версией из популярных бенчмарков серии 3DMark для китайских видеокарт является 3DMark 06. Так что придется обойтись без приложений DirectX 12, которые были в основе наших обычных тестов.

Синтетические тесты проводились на следующих видеокартах:

MTT S80 со стандартными параметрами (MTT S80)
MTT S70 со стандартными параметрами (MTT S70)
Radeon RX 5500 XT со стандартными параметрами (RX 5500 XT)
GeForce GTX 1650 со стандартными параметрами (GTX 1650)
GeForce GTX 1050 Ti со стандартными параметрами (GTX 1050 Ti)
GeForce GTX 1050 со стандартными параметрами (GTX 1050)

Было довольно сложно подобрать соперников для анализа производительности видеокарт MTT. Особенно с учетом того, что решений подобного уровня производительности Nvidia с AMD давно не выпускали, да и у нас их осталось не очень много. Поэтому из имеющихся карт Radeon мы взяли лишь одну модель из предпредыдущего поколения на основе еще первой архитектуры RDNA — Radeon RX 5500 XT. Она является чуть ли не самой слабой из той линейки (RX 5300 уж не считаем) и достаточно старой, чтобы китайские видеокарты могли составить ей хоть какую-то конкуренцию.

Что касается решений производства Nvidia, то тут выбор у нас оказался побольше, так как они выпустили в свое время линейку GeForce GTX 16. Из нее мы и взяли также почти самую слабую модель — GTX 1650 (в GTX 1630 нет смысла, ибо она медленнее даже GTX 1050 Ti). А из GPU еще более старших поколений у нас сразу два решения: GTX 1050 Ti и GTX 1050, в зависимости от теста. Конечно, все они не соперники китайцам по цене и возможностям, видеокарты AMD и Nvidia явно дешевле и лучше, но это не так уж важно для синтетических тестов.

Тесты Direct3D 10

Из DirectX 10-тестов из RightMark3D мы оставили только несколько примеров с наибольшей нагрузкой на GPU, и в этот раз их будет чуть больше — по причине того, что видеокарты MTT не поддерживают самую современную версию этого графического API, а в чем-то тестировать их над. Первая пара тестов измеряет производительность выполнения относительно простых пиксельных шейдеров с циклами при большом количестве текстурных выборок (до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере. Оба примера включают самозатенение и шейдерный суперсэмплинг, увеличивающий нагрузку на видеочипы.

Первый тест пиксельных шейдеров — Fur. При максимальных настройках в нем используется от 160 до 320 текстурных выборок из карты высот и несколько выборок из основной текстуры. Производительность в данном тесте сильнее всего зависит от количества и эффективности блоков TMU, но на результат влияет также и эффективность выполнения сложных программ.

В задачах процедурной визуализации меха с большим количеством текстурных выборок, всегда хорошо выглядели решения компании AMD, которые были в лидерах со времен выхода первых графических процессоров архитектуры GCN. Но и модели на чипах Navi архитектуры RDNA1 стали смотреться еще сильнее, что говорит о большей эффективности выполнения ими подобных программ — но лишь по сравнению с решениями Nvidia, как выяснилось.

Рассматриваемые сегодня две видеокарты компании Moore Threads выступили еще лучше, обогнав всех своих соперников, и Radeon RX 5500 XT и условных конкурентов от Nvidia в виде GTX 1650 и GTX 1050. Благодаря большому количеству блоков TMU, видеокарта модели MTT S80 показала результат заметно лучше всех остальных видеокарт в этом тесте, а S70 хоть и проиграла ей очень прилично (явно больше, чем мы ожидали по теории), но всё равно оказалась лучше RX 5500 XT в более сложном варианте теста. Посмотрим, что получится при чуть более сложных шейдерах и условиях.

Еще один DX10-тест Steep Parallax Mapping также измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок. При максимальных настройках он использует от 80 до 400 текстурных выборок из карты высот и несколько выборок из базовых текстур. Этот шейдерный тест Direct3D 10 несколько интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, в том числе и такие варианты как steep parallax mapping. Кроме того, в нашем тесте мы включили самозатенение, увеличивающее нагрузку на видеочип в два раза, и суперсэмплинг, также повышающий требования к мощности GPU.

Диаграмма в целом очень похожа на предыдущую, видеокарты GeForce выглядят чуть получше по отношению к Radeon, ну а две видеокарты MTT так и остались лидерами. S80 намного опережает всех остальных — похоже, что большое количество блоков текстурирования дает китайским GPU явное преимущество в таких тестах со сложными шейдерами и многочисленными текстурными выборками. Младший вариант MTT S70 примерно на уровне Radeon RX 5500 XT, что также неплохо. Отставание пары GeForce от MTT и Radeon чуть уменьшилось, но рассматриваемые сегодня видеокарты оказались заметно быстрее обеих представленных видеокарт Nvidia и в этом тесте.

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере. В последние годы скорость выполнения арифметических инструкций в пиксельном шейдере стала не так важна, ведь большинство вычислений перешли в compute shaders, но для устаревших игр это важно.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты этих предельных математических тестов для DirectX 10 чаще всего не полностью соответствуют разнице по частотам и количеству вычислительных блоков, на результаты влияет и разная эффективность их использования в конкретных задачах, и оптимизация драйверов, и упор в ПСП, и много чего еще. Так что в тесте Mineral видеокарты зачастую обеспечивают не самые показательные результаты, иногда далекие как от теории, так и от результатов в аналогичных тестах из других пакетов.

Две видеокарты MTT на основе пары версий чипа Chunxiao показали не самый высокий результат, хотя старшая модель и обошла обе GeForce, но отстала от более слабой по теории видеокарты AMD — это не соответствует теоретическим пиковым показателям этих решений. Кроме этого, модель S70 сильно уступила старшему варианту, и в итоге оказалась слабейшей в этом тесте, уступив даже GeForce GTX 1050. Похоже, что младшая модель чем-то ограничена, вроде пропускной способности, ну или драйверы иначе настроены для двух моделей на базе одного GPU. В любом случае мы видим явное несоответствие теоретическим высоким показателям скорости вычислений, по сравнению с AMD и Nvidia.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для блоков ALU, текстурная выборка в нем только одна, а вот количество инструкций типа sin и cos увеличено вдвое — до 130. Посмотрим, что изменится при увеличении нагрузки:

Пожалуй, для китайских видеокарт всё стало лишь чуть хуже. Младшая S70 уступает старшей S80 более чем в полтора раза, чего не должно быть исходя из теории. Так что есть вопросы к оптимизации драйверов — возможно, они разные для этих моделей. Хотя в математическом тесте из RightMark мы в принципе часто получали результаты, далекие от теории и сравнений в других аналогичных бенчмарках. Все GPU при тестировании чаще всего не загружены работой на 100% и сильно ограничены чем-то, кроме скорости ALU.

Что касается сравнения с GeForce, то старшая MTT S80 в этот раз хоть и впереди GTX 1650, но разница между ними невелика. А младшая модель так и снова стала слабейшей в сравнении, что не совсем соответствует теории, ведь по пиковой математической производительности разница между ними не столь велика. Radeon RX 5500 XT вообще далеко впереди, архитектура RDNA отличается отличной эффективностью в подобных задачах. Ну а про видеокарты Moore Threads мы этого сказать не можем — по крайней мере, в чисто математических DX10-тестах они себя показали крайне средне.

Переходим к тесту геометрических шейдеров. В составе пакета RightMark3D 2.0 есть два теста скорости геометрических шейдеров, но один из них (Hyperlight, демонстрирующий использование техник: instancing, stream output, buffer load, использующий динамическое создание геометрии и stream output), на всех видеокартах компании AMD не работает, да и на видеокартах MTT отработал так себе, поэтому мы оставили лишь второй — Galaxy. В этом тесте анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу.

Все вычисления в этом тесте производятся в геометрическом шейдере, и это уже куда менее распространенная задача, по сравнению с текстурированием и интенсивными математическими вычислениями из прошлых тестов, и это привело к тому, что обе видеокарты MTT показали себя явно слабее AMD и Nvidia, даже с учетом того, что мы сравниваем их с очень старыми моделями. Разница между S80 и S70 невелика и вполне соответствует теоретической.

Хотя соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, так как производительность соответствует количеству точек, но видеокарты MTT S80 и S70 показали крайне низкие результаты раз в пять ниже даже своих устаревших условных конкурентов от AMD и Nvidia, а не современных решений этих компаний. Если Radeon RX 5500 XT и GeForce GTX 1650 в этом тесте примерно на одном уровне, и обе достаточно эффективно выполняют работу, то китайские видеокарты явно плохо подготовлены для геометрических шейдеров — скорее всего, у них или геометрические конвейеры слабые, или драйверы плохо оптимизированы для подобных задач.

Переходим в тестированию скорости текстурных выборок из вершинных шейдеров. В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты «Earth» и «Waves» схожи по сути, в обоих используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет. И так как результаты оказались в целом схожими, будет достаточно лишь теста «Waves», количество билинейных текстурных выборок в данном случае до 24 на каждую вершину.

На результаты этого теста может также влиять филлрейт и пропускная способность памяти, ограничивающая производительность, но у видеокарт Moore Threads с этим проблем нет, а как и со скоростью текстурных выборок самих по себе, а вот с оптимизацией драйверов под разные задачи (и тем более относительно слабо распространенные, как активные выборки из вершинных шейдеров) у них беда, как мы уже поняли.

Ситуация в этом тесте получше, чем с геометрическими шейдерами, но MTT S80 и S70 всё равно уступили остальным участникам тестирования уж слишком много. Рассматриваемые нами сегодня видеокарты показали крайне низкую скорость, отставая от единственного представителя Radeon до 5-6 раз и уступая даже слабейшей из GeForce — до 2-3 раз. Единственный плюс для младшего варианта в том, что он отстал от старшей модели вовсе не так далеко. Но в целом по геометрическим и вершинным шейдерам ситуация нарисовалась не радужная, видеокарты MTT явно проигрывают даже очень старым и медленным GPU.

Тесты 3DMark Vantage

Обычно мы рассматриваем также устаревшие синтетические тесты из пакета 3DMark Vantage, ведь в них зачастую можно найти что-то интересное, чего нет в других, более современных тестах. Feature тесты из этого тестового пакета имеют поддержку DirectX 10, они до сих пор более-менее актуальны и при анализе результатов новых видеокарт мы всегда делаем какие-то полезные выводы.

Feature Test 1: Texture Fill

Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Эффективность работы видеокарт AMD и Nvidia в текстурном тесте компании Futuremark обычно довольно высока, и тест показывает результаты, близкие к соответствующим теоретическим параметрам, хотя иногда они всё же получаются несколько заниженными в случае некоторых GPU. Вот как раз в случае видеокарт Moore Threads получилось так, что они явно отстают от своих пиковых параметров, провозглашенных производителем. А уж более чем двойную разницу между моделями S80 и S70 мы вообще ничем объяснить не можем — такая разница есть лишь по скорости PCIe, но очень вряд ли производительность теста от этого вообще зависит.

В целом же, производительность полной модели китайского графического процессора Chunxiao в этом тесте оказалась достаточно высока, чтобы обойти Radeon RX 5500 XT и пару GeForce, а вот младшая модель на урезанном варианте GPU смогла оказаться быстрее лишь GTX 1050 Ti. Так не должно быть по теории, поэтому всерьез этого результат вряд ли нужно воспринимать. В любом случае, можно уверенно утверждать, что эффективная скорость текстурирования решений MTT оказалась явно ниже, чем даже у старых видеокарт AMD и Nvidia.

Feature Test 2: Color Fill

Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне современным.

Результаты второго подтеста 3DMark Vantage показывают производительность блоков ROP без учета величины пропускной способности видеопамяти, и тест измеряет именно производительность подсистемы ROP, а ПСП обычно не оказывает явного влияния. И всё бы хорошо, но разница между MTT S80 и S70 в этот раз еще более невменяемая — ну не может быть такой разницы между парой решений на одном GPU, пусть и с разным количеством исполнительных блоков. Вероятно, дело всё же в драйверах, по-разному оптимизированных для двух моделей.

Если рассматривать результат видеокарты MTT S80 как корректный, то она весьма неплохо выступила. И хотя и не дотянула до своих теоретических показателей по пиковой скорости заполнения сцены, которые еще более впечатляющи, но по сравнению с имеющимися в сравнении Radeon RX 5500 XT и парой GeForce показала себя просто отлично. Смущает лишь результат младшей модели, но не будем повторяться.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника давно используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss.

Результаты этого теста из пакета 3DMark Vantage зависят не только исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а сразу от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен правильный баланс GPU, а также эффективность выполнения сложных шейдеров. Это довольно полезный тест, так как результаты в нем нередко хорошо коррелируют с тем, что получается в игровых тестах.

Тут важны и математическая и текстурная производительность, и в этой «синтетике» из 3DMark Vantage видеокарты Moore Threads снова выступили очень хорошо — как и в аналогичных по сути тестах из RightMark в предыдущем разделе. Единственное — это снова относится лишь к старшей видеокарте S80, а младшая S70 уступила ей на удивление очень сильно, так что можно не брать этот показатель в расчет как явно некорректный. Старшая же S80 обогнала и Radeon RX 5500 XT и GeForce GTX 1650, пусть и с небольшим преимуществом, не говоря уже о GTX 1050 Ti, что уже неплохо само по себе.

Feature Test 4: GPU Cloth

Четвертый тест интересен тем, что в нем рассчитываются физические взаимодействия (имитация ткани) при помощи GPU. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте также должна зависеть сразу от нескольких параметров, и основными факторами влияния должны являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. Должны, но не обязаны — мы уже говорили, что на видеокартах Nvidia давно получаем явно некорректные результаты в этом тесте, и не учитываем их (как и результаты видеокарт поколения Radeon RX 7000), а у MTT всё гораздо печальнее — они вообще почти нулевые. Как и в тестах геометрических и вершинных шейдеров из предыдущего раздела, снова всё плохо, и даже хуже. Это не объяснить теорией, дело явно в драйверах, которые никто не оптимизирует для этого тестового пакета.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи графического процессора. Используется вершинная симуляция, где каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот. Частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out.

И в этом случае мы видим почти то же самое — и во втором геометрическом тесте из 3DMark Vantage получились не самые корректные результаты китайских видеокарт компании Moore Threads, хотя... а может они такие и есть, может там есть какая-то аппаратная ошибка, связанная с обработкой геометрии в таких задачах и всё это приходится обходить в драйверах, частично считая что-то на CPU? С такими показателями скорости мы не удивимся и этому. Но думаем, что дело снова в отсутствии оптимизации в драйвере под определенный тип задач.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом GPU, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений.

В этом математическом тесте производительность разных GPU хоть и не всегда соответствует теории, но обычно близка к пиковой производительности видеочипов в предельных задачах, пусть и с оговорками. В тесте используются операции с плавающей запятой, и новые архитектуры обычно неплохо с ними справляются, но и наши старички вполне хороши — тест уже порядком устарел, но для них подходит идеально. Разница между младшей и старшей из рассматриваемых сегодня китайских видеокарт в этот раз наоборот оказалась слишком малой, что также не очень соответствует теории. Но хорошо уже то, что обе видеокарты MTT обошли и Radeon RX 5500 XT и GeForce GTX 1650, а уж самая слабая по всем статьям GTX 1050 Ti осталась далеко позади.

Если же подводить итоги по DirectX 10 тестам в целом, то можно сказать, что в тестах с текстурированием и заполнением большим количеством пикселей видеокарты MTT на фоне своих устаревших соперников смотрятся сильно, в математических тестах тоже неплохо, но уже не так ярко, но когда речь заходит о чем-то менее часто используемом в играх и программах, вроде геометрических шейдеров или активных текстурных выборок из вершинных шейдеров, то в таких непопулярных задачах китайский графический процессор явно пасует. Посмотрим, что получится в более современных синтетических тестах, использующих DirectX 11.

Тесты Direct3D 11

Хорошо, что видеокарты Moore Threads поддерживают DirectX 11, это позволило использовать Direct3D11-тесты из пакета разработчиков SDK Radeon. Первым на очереди будет тест под названием FluidCS11, в котором моделируется физика жидкостей, для чего рассчитывается поведение множества частиц в двухмерном пространстве. Для симуляции жидкостей в этом примере используется гидродинамика сглаженных частиц. Число частиц в тесте устанавливаем максимально возможное — 64 000 штук.

В первом Direct3D11-тесте модели видеокарт MTT S80 и S70 показали близкие результаты, что несколько неожиданно и странно, но в целом они не столь провальны, как в некоторых тестах из предыдущих разделов. Но всё же исполнение вычислительных шейдеров D3D11 не слишком хорошо оптимизировано в драйверах видеокарт MTT, поэтому они отстали не только от Radeon RX 5500 XT, но и GeForce GTX 1650, и даже немного уступили слабейшей GTX 1050 Ti. Впрочем, судя по высокой частоте кадров, вычисления в этом примере из SDK слишком просты даже для видеокарт такого низкого уровня.

Второй D3D11-тест называется InstancingFX11, в этом примере из SDK используются DrawIndexedInstanced-вызовы для отрисовки множества одинаковых моделей объектов в кадре, а их разнообразие достигается при помощи использования текстурных массивов с различными текстурами для деревьев и травы. Для увеличения нагрузки на GPU мы использовали максимальные настройки: число деревьев и плотность травы.

Производительность рендеринга в этом тесте больше всего зависит от оптимизации драйвера и командного процессора GPU, и с этим всё всегда было отлично у решений Nvidia, а вот AMD сначала страдали, но затем улучшили свои позиции и теперь если и уступают GeForce, то не слишком сильно. А вот про решения Moore Threads этого не скажешь — как только задача в очередной раз отошла от распространенных тестов текстурирования и математических вычислений, S80 и S70 снова сдулись и в этот раз. Явно виноват недостаток оптимизации драйверов, ведь по теории MTT не должны отставать от AMD и Nvidia в десятки раз ну никак.

Рассмотрим последний, третий D3D11-пример — VarianceShadows11. В этом тесте из SDK AMD используются теневые карты (shadow maps) с тремя каскадами (уровнями детализации). Динамические каскадные карты теней сейчас широко применяются в играх с растеризацией, поэтому тест довольно любопытный именно с практической точки зрения. При тестировании мы использовали настройки по умолчанию.

Производительность в этом примере из SDK зависит как от скорости блоков растеризации, так и от пропускной способности памяти. И хотя тут MTT S80 и S70 показали не столь плохие результаты, как в прошлом тесте, они всё равно отстают от всех решений двух компаний, которые давно на рынке и на оптимизации аппаратного и программного обеспечения собаку съели, что называется. Разница между старшей и младшей моделями MTT тут как и должна быть, но они обе отстали даже от GeForce GTX 1050 Ti, не говоря уже о более мощных GPU.

И это точно проблема в драйверах, так как по примеру видеокарт AMD мы ранее встречались со случаями, когда новые драйверы с проведенными оптимизациями позволяли поднять скорость рендеринга в разы. И хотя частота кадров и в этом тесте слишком высока, так как задача является слишком простой даже для таких слабых GPU, но уступают китайские решения именно из-за недостаточной проработки драйверов, и у них явно есть большой запас по аппаратной производительности, скрытый плохой программной частью. Проблема лишь в том, что мы можем и не дождаться решения всех этих недостатков, ведь это не так уж просто, те же AMD и Nvidia годами работали над оптимизацией своих драйверов, а Intel до сих пор продолжает это делать с переменным успехом.

Тестирование: игровые тесты

Конфигурация тестового стенда

Список инструментов тестирования

Во всех игровых тестах использовалось низкое качество графики в настройках.

Ashes of the Singularity
Dota 2
PlayerUnknown’s Battlegrounds
Counter-Strike: Global Offensive
Heroes of the Storm
World of Tanks
Monster Hunter: World
Far Cry 5
Crysis 3

Результаты тестирования в 3D-играх в разрешении 1920×1080

Тестов получилось всего девять, но подготовка к тестированию была, поверьте, долгой и кропотливой: требовались игры не такие уж старые, ориентированные на DirectX 11 или DirectX 10, и еще в них должны были стабильно работать обе видеокарты MTT. Список официально поддерживаемых игр с сайта производителя на 90% состоит из каких-то китайских названий, неизвестных на мировом рынке, приводить его не имеет смысла.

Заодно пришлось протестировать в тех же играх ближайших (по возможности) конкурентов, в качестве которых мы взяли:

Nvidia GeForce GTX 1650 4 ГБ (Palit GeForce GTX 1650 StormX)
Nvidia GeForce RTX 3050 8 ГБ (Palit GeForce GTX 3050 StormX)
AMD Radeon RX 6500 XT 4 ГБ (Gigabyte Radeon RX 6500 XT Gaming)
Intel Arc A380 6 ГБ (Gigabyte Intel Arc A380 Gaming)

Понятно, что уровень карт MTT — это разрешение не выше Full HD (скорее явно ниже). Также понятно, что использовать максимальный уровень графики для подобных экспериментов бессмысленно, даже со средним качеством игры часто буксовали, поэтому все тесты в итоге проведены на низких настройках графики в разрешении 1080p.

Комфорт в Ashes of the Singularity был приемлемым, но не полным. Даже самый слабый из конкурентов (GTX 1650) обгонял обе карты MTT в полтора-два раза. Загрузка GPU у карт MTT была не максимальной (явная проблема драйверов).

В Dota 2 играть было весьма комфортно, минимальный FPS всегда был выше 60. Но снова отмечаем, что даже GTX 1650 обошел MTT S80 на 36%.

Играть в PUBG почти было невозможно. Снова фиксировался недогруз карт MTT, они работали на 60%-70% по загрузке ядер, то есть снова проблема в драйверах. Сравнивать с конкурентами даже нет смысла.

Комфорт в CS:GO был на приличном уровне, но минимальный FPS иногда падал ниже 40. Понятно, что у конкурентов результаты гораздо лучше. В этой игре выставление средних настроек качества графики не сильно ударило по производительности, это вполне жизнеспособный вариант (хотя кто в CS смотрит на качество графики?).

Отмечаем хороший комфорт в Heroes of the Storm, нареканий не было. Однако GTX 1650 всё равно в 1,5 раза быстрее.

Такой же вывод и для World of Tanks: результат приемлемый, играть можно, однако конкуренты намного быстрее — в их случае можно было выставить даже высокие настройки графики, тогда как видеокарты MTT даже со средними настройками уже не обеспечивали должного комфорта.

В целом в Monster Hunter: World играть можно, но иногда случались фризы и лаги.

Играть почти невозможно: перерисовка сцен с рывками. Драйвера нуждаются в дальнейшей отладке.

Это первый и единственный случай, когда карты MTT не только догнали, но и обошли некоторых конкурентов. Да и абсолютный показатель FPS достаточно высокий. Однако даже при низком качестве графики периодически наблюдались лаги и фризы, особенно при вспышках огня (взрывах), когда показатель FPS мог падать до 10-15.

Выводы

Moore Threads MTT S80/S70 в целом

Однозначные выводы сделать сложно: у карт огромное количество недостатков, разных по величине и важности, но есть и небольшое количество достоинств, также разных.

Однозначно плюсом является сам факт появления компании, желающей играть в одной лиге с такими монстрами, как Nvidia, AMD и Intel. При этом Moore Threads Technology ориентирована исключительно на внутренние китайские и свои собственные технологии, следуя общему тренду политики КНР: достичь максимально возможной автономности во всех сферах жизни.

Удалось ли это MTT? Ее деятельность, как и во всех случаях, когда компания субсидируется и поддерживается правительством КНР, сильно засекречена. Мы видим лишь верхушку айсберга — крайне дозированную информацию, которую топ-менеджмент компании выносит на публику. Неизвестны многие детали архитектуры MUSA, тогда как те же AMD, Nvidia и Intel выдают обозревателям огромное количество документации, помогают в прояснении непонятных моментов, связанных с архитектурой, позиционированием и т. д. Moore Threads не горит желанием общаться с прессой и уж тем более выдавать все детали своих творений.

Отсюда масса слухов и домыслов. Например, говорят, что бывший глава офиса Nvidia на самом деле исполняет в MTT роль свадебного генерала, а реально руководят компанией совсем другие люди. Или что кристаллы GPU выпускаются той же тайваньской TSMC, а не в Китае (собственно, в этом и смысл санкций США в отношении MTT). Чему верить? Мы можем лишь опираться на факты: компания существует, продукция выпускается и реально доступна в продаже в Китае (то есть это не пара выставочных образцов).

Главная проблема S70/S80 — драйверы. Видеокарты компании Intel, которая вышла на рынок настольных ускорителей графики чуть более года назад, тоже поначалу страдали от этого компонента. Но в случае Intel создатели драйверов ориентировались в первую очередь на современные игры на базе API DirectX 12 и Vulkan, а уж потом занимались оптимизацией ПО под «старье». В MTT выбрали противоположный подход: вначале поддержка старых игр с API DirectX 9, потом постепенное внедрение поддержки DirectX 10, теперь вот уже взялись за DirectX 11. Почему? Видимо, дело в том, что Intel давным-давно сотрудничает с производителями игр (как производитель CPU), и работать с ними же по оптимизации работы видеоускорителей не так тяжело. Мы прекрасно знаем на примере той же компании Matrox, что плотная работа с разработчиками игр — это обязательное условие успеха будущих видеокарт. В свое время Matrox пренебрегла этим, и как результат — все ее последние 3D-решения для игр провалились, так что уже много-много лет эта канадская компания выпускает лишь видеокарты с поддержкой большого количества приемников сигнала (по сути, это 2D-видеокарты).

Так вот, новенькая компания Moore Threads (к тому же из Китая, а не из Европы или США) вряд может запросто придти к глобальным разработчикам игр и попросить их о помощи в отладке ПО для своих карт. Да, китайские разработчики могут помочь с теми играми, которые выпускаются для внутреннего рынка — вероятно поэтому такие игры и доминируют в списке совместимости, выложенном на сайте MTT. Однако чтобы выходить на глобальный рынок, требуется сотрудничество с маститыми разработчиками, многие из которых находятся в США или Европе, и тут, скорее всего, вмешается политика, которая помешает такому сотрудничеству. Поэтому пока специалисты MTT пытаются самостоятельно отлаживать свое ПО, ориентируясь на свободные (а может, и не свободные) источники знаний по работе API и библиотек. Уже сам факт, что они всего за 1,5 года смогли с нуля создать графические процессоры, их видеокарты работают и на них даже запускаются игры, говорит о том, что в команде есть профессионалы. Понятно, что многое решает господдержка. Но нам важно, что всё же появился конкурент зажравшимся «большим» производителям GPU, пусть пока конкурент и куцый.

В итоге MTT S80/S70 работают в качестве игровых видеокарт, позволяют запускать некоторые игры уровня не выше DirectX 11 и обеспечивают в них приличный комфорт в разрешениях не выше Full HD при низком качестве графики. Цены же обсуждать совсем тяжело, потому что карты продаются только на внутреннем рынке КНР, и мы можем лишь сказать, что за полгода цены сильно упали относительно начальных.

Moore Threads MTT S80 (16 ГБ)

Наши тесты показали, что в целом эта карта значительно медленнее, чем Nvidia GeForce GTX 1650 — она может конкурировать только с GeForce GTX 1050 Ti или даже с GeForce GTX 1050. По мере отладки и выпуска новых версий драйверов картина и соотношение сил могут меняться, благо «на бумаге» характеристики у MTT S80 довольно серьезные. Но пока вот так. Стоит отметить, что поддержки DirectX 12 у этой карты может не появиться вовсе, если верна версия, что GPU основан на купленной старой архитектуре Imagination Tech, которая переработана под новые API и оптимизирована. В пользу этого может говорить короткий срок, за который MTT сумела не только создать саму архитектуру, но и выпустить готовый чип на ее основе. Если это правда, то ждать внедрения DirectX 12 скорее всего не стоит (базовая архитектура для его поддержки не годится). Однако, как уже было сказано выше, деятельность MTT ведется под завесом тайн и секретности, поэтому утверждать мы ничего не можем.

Наши исследования показали, что карта прекрасно аппаратно декодирует видеопотоки, но вот поддержка OpenCL — никакая. В результате почти во всех программах видеомонтажа (например, в Adobe Premiere) в окнах превью ничего нет. Это снова проблема драйверов MTT.

Как видеокарта MTT S80 имеет тихий кулер, но при этом имеет высокое потребление для своего уровня производительности, и к тому же GPU и микросхемы памяти работают на высоких частотах всегда, включая режим простоя, так что потребление в 2D не снижается. Надеемся, что это возможно исправить в будущих версиях драйверов. Не помешало бы и установить на карту выключатель подсветки для тех, кому будет мешать этот постоянно горящий оранжевый «глаз».

Moore Threads MTT S70 (7 ГБ)

Подход к созданию младшей версии ускорителя странный: не только уменьшить вдвое емкость микросхем видеопамяти по сравнению со старшим вариантом, но и снять одну из восьми микросхем памяти — получив в итоге объем 7 ГБ вместо 16 ГБ. При этом карты мало различаются по количеству исполнительных блоков. Безусловно, 16 ГБ для игровой видеокарты такого уровня, как MTT S80, это излишняя роскошь, так что, возможно, назначение 16-гигабайтного варианта как минимум не чисто игровое. А разница в производительности между S80 и S70 совсем небольшая, и явно определяется не объемом памяти. Впрочем, из-за сырых драйверов в массе игр ускорители на загружаются полностью, поэтому глобальные выводы сделать сложно. Но на практике нет смысла переплачивать за S80, потому что S70 выдаст лишь чуть меньше FPS в тех же играх (если эти игры вообще запустятся на картах MTT).

Что касается самой видеокарты, то для нее справедливо абсолютно всё, сказанное выше про S80.

Итог

Один вывод напрашивается: на данный момент видеокарты MTT — это точно не массовые продукты, они нуждаются в долгой отладке и совершенствовании. Человек, купивший сейчас любую из этих видеокарт, вынужден будет стать бета-тестером за свои же деньги.

И всё же радостно, что кто-то пытается делать свое, не завися от американских технологий. Главное достижение этого подхода — возможность усиления конкуренции, которая сейчас очень не помешает с учетом непомерно раздутых аппетитов калифорнийских производителей GPU, особенно того, что зеленого цвета. Получится ли у маленького муравья вырасти до размеров огромных волосатых пауков в мире 3D-графики? Посмотрим.

Мы же обещаем, что данный обзор — лишь первый в серии. Через полгода мы проведем повторное тестирование, и выпустим дополнение или обновление, если для него наберется достаточно материала.

Благодарим Владислава Громова из Хабаровска (Telegram-канал)
за помощь в оперативном получении нового оборудования из Китая

Обзор видеоускорителей Moore Threads MTT S80 и S70 полностью китайской разработки

Оглавление

Предыстория

Компания Moore Threads и ее видеокарты

Особенности архитектуры

Поддержка графических API

Лицензирование или собственная архитектура?

Текущее положение дел и перспективы

Особенности карт Moore Threads MTT S80 (16 ГБ) и MTT S70 (7 ГБ)

Память

Особенности карт и сравнение между собой

Нагрев и охлаждение

Шум

Подсветка

Комплект поставки и упаковка

Тестирование: синтетические тесты

Тестирование: игровые тесты

Конфигурация тестового стенда

Список инструментов тестирования

Результаты тестирования в 3D-играх в разрешении 1920×1080

Выводы

Moore Threads MTT S80/S70 в целом

Moore Threads MTT S80 (16 ГБ)

Moore Threads MTT S70 (7 ГБ)

Итог

Новости