Кэш память шейдера AMD что это

AMD прощается с Catalyst: запущена новая программная платформа Radeon Software Crimson

В декабре 2014 года компания AMD выпустила крупное обновление драйверов Catalyst Omega, а спустя почти год решила навсегда отказаться от прежнего бренда, использовавшегося ей на протяжении тринадцати лет. Выпущенный сегодня пакет Radeon Software Crimson Edition включает новейший драйвер, а также первую редакцию новой программной платформы Radeon Software. Более современный, быстрый и удобный аналог Catalyst Control Center (CCC) разработан сформированным в прошлом месяце подразделением Radeon Technologies Group (RTG) и призван не только повысить качество ПО, но и увеличить экономию энергии и производительность в играх, а также улучшить качество воспроизведения видео, поддержку DirectX 12 и технологий виртуальной реальности.

Панель Radeon Settings открывается двойным кликом по иконке на панели задач либо выбором соответствующей опции в меню, открывающемся нажатием правой кнопки мыши на рабочем столе. Новый интерфейс, выдержанный в строгом стиле, написан на QT и отличается более удобным расположением элементов и в целом более высокой отзывчивостью: ПО устанавливается в три клика (вместо семи в случае с ССС), а его запуск происходит значительно быстрее, чем раньше.

Radeon Software предлагает следующие основные нововведения:

  • более быстрый интуитивный интерфейс, созданный с нуля;
  • менеджер игр;
  • поддержка технологии виртуальной реальности LiquidVR;
  • профили качества и новые функции, связанные с воспроизведением видео;
  • интеграция с социальными сетями;
  • упрощенная настройка технологии AMD Eyefinity для систем с несколькими дисплеями;
  • панель системных уведомлений;
  • кэширование шейдеров;
  • технология сглаживания кадровой частоты (Frame Pacing) версии 3.0;
  • возможность настройки различных параметров дисплея (Custom Resolutions);
  • улучшенная технология AMD Low Framerate Compensation (LFC) на дисплеях с поддержкой AMD FreeSync;
  • дополнительные возможности OpenCL 2.0.

Одна из особенностей Radeon Software — повышенная экономия энергии. По сравнению с AMD Catalyst 15.7.1 новая версия ПО позволяет в разы эффективнее расходовать ресурсы графического ускорителя и всей системы в целом при просмотре HD-видеороликов на YouTube.

Функция Frame Rate Target Control (FRTC), впервые представленная в AMD Catalyst 15.7, теперь позволяет вручную задавать кадровую частоту для полноэкранных приложений на базе DirectX 9. Пользователь может установить любое значение в пределах от 30 до 200 кадров/c. Эта возможность помогает снизить нагрузку на графический процессор и как следствие уменьшить уровень шума и нагрев. Управление кадровой частотой особенно пригодится в меню игр и на загрузочных экранах — в таких случаях изображение нередко обновляется несколько сотен раз в секунду.

Что касается игр на базе DirectX 10 и DirectX 11, то в BioShock Infinite на той же видеокарте в разрешении 4К при ограничении частоты до 60 кадров/с можно добиться экономии 105 Вт и 107 Вт для видеоускорителя и всей системы соответственно. Соответствующая функция в Catalyst 15.7.1 при этом экономит не более чем 50 Вт. В Sniper Elite 3 при установлении лимита 55 кадров/с экономия может достигать 189 Вт для графического адаптера и 190 Вт для всего компьютера.

Повышение производительности в играх

На Radeon R9 Fury Х в разрешении 1080р можно получить некоторый прирост производительности в играх по сравнению с Catalyst 15.7.1: в Fable Legends он составляет 20 %, в Call of Duty: Black Ops 3 — 8,22 %. Оптимизирована работа и некоторых игр на Linux (BioShock Infinite, Total War, Portal 2 и Dota 2 — рост производительности варьируется от 112 до 155 %).

Читать еще:  Не работает стрелка на ноутбуке что делать

Благодаря функции кэширования шейдеров во многих играх, особенно имеющих открытый мир, удаётся добиться сокращения времени загрузок, устранить «заикания» изображения из-за перегрузки ЦП и кратковременные зависания. Так, при включении этой опции загрузка бенчмарка BioShock Infinite ускоряется на 12 %, а карты Эндор в режиме «Выживание» в Star Wars: Battlefront — на 34,5 % (Radeon R9 380X, AMD FX 8370, 8 Гбайт оперативной памяти, Windows 10).

Также обновление привнесло поддержку функции сглаживания кадров (Frame Pacing), введённой в Catalyst 13.12, для игр на DirectX 9 (на графике ниже результаты её работы показываются на примере The Elder Scrolls V: Skyrim) и улучшило работу технологии динамической вертикальной синхронизации FreeSync при частых падениях кадровой частоты. Технология Low Framerate Compensation (LFC) на дисплеях с поддержкой FreeSync сглаживает скачки кадровой частоты и устраняет «дрожание» картинки.

Кроме того, Radeon Software предлагает шесть профилей для просмотра видеороликов, которые автоматически активируют определённые возможности в зависимости от текущего разрешения экрана, воспроизводимого контента и используемого проигрывателя. Пользователи могут настраивать резкость, яркость, цветовую насыщенность, а также активировать режимы AMD Fluid Motion Video и AMD Steady Video.

Также появились две новые функции: направленное масштабирование (Directional Scaling), сглаживающее возникающий при выводе изображения в 1080р на 4К-дисплее «лестничный эффект» , и адаптивное управление динамической контрастностью, позволяющее повысить общий контраст изображения, не затрагивая тёмные области.

Наконец, теперь у пользователей появилась возможность вручную задавать различные параметры дисплея: горизонтальное и вертикальное разрешение, частоту обновления, частоту пикселизации, тип развёртки и пр.

В пакет входит программа AMD Unistall Clean Utility, которая удалит ранее установленные графические и звуковые драйверы Catalyst, неиспользуемые файлы и записи в реестре.

Одновременно с выпуском Radeon Software Crimson Edition компания поделилась любопытной статистикой и некоторыми планами на будущее. Выяснилось, что с момента выпуска AMD Catalyst Omega драйверы для видеокарт её производства были загружены свыше 60 млн раз. В следующем году компания, как уже отмечалось в прошлом, будет выпускать обновления драйверов чаще: в 2016-м появятся вплоть до шести WHQL-редакций драйверов, тогда как в 2015-м их было три. Наряду с основными релизами AMD, как и прежде, намеревается выпускать бета-драйверы.

Скачать пакет можно с официального сайта производителя. Он предназначен для 64- и 32-разрядных версий Windows 10, Windows 8.1 и Windows 7, а также Linux. Список поддерживаемых видеокарт для настольных систем начинается серией AMD Radeon HD 7700 и заканчивается AMD Radeon R9 Fury (для ноутбуков — от AMD Radeon HD 7700М до AMD Radeon R9 M300).

Тесты удвоения объёма кеша L3 процессора

Зачем нужен кэш и как он влияет на производительность?

Современный процессор является сложным устройством, которое выполняет множество действий для решения поставленной задачи. И делает это всё современный процессор очень быстро. Настолько, что даже несмотря на название «оперативная память», память эта недостаточно оперативная. Если бы процессор всегда ждал данных из оперативной памяти, то ему приходилось бы простаивать по несколько десятков, а временами, и сотен тактов не делая ничего. Подобное поведение сделало бы любые улучшения внутри ядер процессора полностью бесполезными. И, если посмотреть в историю развития процессоров, проблема эта с ростом производительности процессоров становилась всё более острой. Вначале появлялись опциональные чипы кэша процессора, то есть места на плате куда можно установить чип памяти кеша L2. С ростом производительности такая «опция» уже перестала появляться, так как потери производительности без него становились слишком большими. Та же судьба была и у L3, который так же был вначале прерогативой серверных решений и располагался вне процессора и только с развитием полупроводникового производства на общем кристалле с ядрами стало достаточно места чтобы разместить ещё и кэш L3.

Читать еще:  Чем открыть H264 с камеры видеонаблюдения

Кэши L2 и L3 позволяют получать процессору данные максимально быстро. В современных моделях задержки достигают единиц наносекунд. Что, в прочим, тоже для процессора довольно долго. Но современные архитектуры процессоров на подобные задержки и рассчитаны. Естественно процессор не будет пропускать по несколько тактов работы ожидая данные из кеша L3. Для того чтобы такое не случалось внутри процессорного конвейера организовываются очереди микроопераций, в которых они и выдерживаются до тех пор пока необходимые данные не будут доступны для использования уже в регистровой памяти процессора.

Но если так случилось, что микрооперация попала в конвейер, а данные для её выполнения расположены не в каком-то из кэшей, а в оперативной памяти (или вообще в постоянной памяти), то процессору ничего не остаётся как пропустить эту микрооперацию, оставив её в очереди, и выполнять следующие за ней мирооперации. И называется это «мероприятие» промах в кэш (Cache Miss).

Проблема тут в том, что для следующих микроопераций могут быть нужны данные которые должны были быть получены в той, что «застряла» в очереди… И всё это нарастает как снежный ком, который в конечном итоге приводит к тому, что часть времени процессор будет простаивать, не развивая свою максимальную теоретическую производительность.

И естественно, что чем больше объём кэш памяти, тем реже будут происходить промахи в кэш, а значит реже будут простои, что в свою очередь приведёт к росту производительности в реальных задачах.

Насколько большая разница от изменения объёма?

И встаёт закономерный вопрос: «На сколько же велико влияние?».

Ответ на него, к сожалению, однозначным быть не может, так как всё зависит от конкретного приложения. Если его данные и все создаваемые им результаты помещаются в кэш, то последующее увеличение размера кэша вообще не приведёт к росту производительности. А если приложение постоянно обращается к совершенно разным участкам памяти, плохо оптимизировано под использование только что созданных процессором результатов, которые только-только были записаны в кэш, то разница от увеличения объёма может быть несколько крат.

Производители процессоров подбирают объёмы регистов и кэша исходя из экономической целесообразности, тратя транзисторный бюджет на то, что будет давать большую производительность при равной цене.

Для некой усреднённой задачи может получится зависимость производительности от цены при изменения объёма кэша примерно такая:

Где рыжая линия показывает динамику изменения соотношений цены/производительности от увеличения объёма кэша. До определённого объёма — увеличение кэша приводит к значительному росту производительности так-как снижает частоту критичных состояний процессора когда он простаивает от промахов в кэш. Но при дальнейшем росте объёма всё меньше задач будут выполняться со значительными потерями в производительности, при дальнейшем росте стоимости процессора из-за увеличения кэш памяти.

Как измерить разницу от объёма?

И перейдём уже к практической области решения данного вопроса.

Для того чтобы понять разницу необходима некая конфигурация систем в которых отличия ограничиваются только объёмом кэш памяти.

В нашем случае это процессоры i7 7700k и i9 9900k. В последнем отключено 4 ядра из восьми (кэш память при этом не отключается).

Читать еще:  Invalid torrent file что делать

В данном случае могла бы быть проблема связанная с программными исправлениями аппаратных уязвимостей более новых процессоров. Решена она запуском процессора i9 9900k на материнской плате ASUS Z170i Pro Gaming с BIOS версией 2002. К моменту выхода прошивки этой материнской платы об аппаратных уязвимостях сведений ещё не было и исправления их в тестовых системах — нет.

Про то как установить процессоры 8 и 9 поколений на платы для 6 и 7 поколений процессоров можете посмотреть тут.

Кроме процессора важно выбрать оперативную память. Я решил взять некие средние для DDR4 показатели. Частоту 3600 МГц с таймингами 17-18-18-38 CR2. Все субтайминги материнская плата выставляла автоматически.

Для игр так же стоит упомянуть о видеокарте: Gainward GeForce RTX 2070 Phoenix с небольшим заводским разгоном.

Обзор видеокарты можно посмотреть тут.

Важно чтобы в играх производительность ограничивалась именно процессором, а не видеокартой. Если у процессора будет возможность делать простои, то именно в них все проблемы по накапливанию невыполнимых операций и будут решаться без вреда для производительности игры. Так что в играх тесты сделаны на пресетах максимальных настроек, но без сглаживания и в сниженном разрешении (768р).

Результаты

Для начала проведём тест который покажет, что объём кэша действительно разный.

  • Тест кэша и памяти в Sandra

Тест задержек кэша и памяти позволяет увидеть переходы к разным уровням кэша и на оперативную память по увеличению задержек. График отлично показывает разницу в объёме кэша L3 по смещению долгих задержек от оперативной памяти (график логарифмический, поэтому двукратная разница в объёме выглядит не двукратной на глаз).

Теперь, убедившись в том, что всё идёт по плану можно перейти к бэнчмаркам, которые плохо реагируют на разгон памяти. Теоретически они должны слабо реагировать и на увеличение объёма кеша, так как отсутствие прироста от памяти говорит о малом числе промахов в кэш.

Все тесты проводились по 3 раза с усреднением результатов.

В однопоточном тесте CPU-z разницы от увеличения объёма кеша L3 — нет. В многопоточном разница — 3%

В Cinebench R15 разница 0,4% (незначительно превышает погрешности теста).

Тесты которые слабо реагируют на разгон памяти слабо реагируют и на увеличение объёма кэш памяти.

Далее рассмотрим блок тестов, в которых бенчмарки зависимые от частоты и задержек памяти.

Win-rar. Прирост производительности — 35%. Стоит отметить, что встроенный бенчмарк не отражает реальный прирост производительности архиватора.

7-Zip. Прирост 4,5%.

CPU тест 3D Mark Time Spy. Прирост 3,7%

  • Все бенчмарки

Выводы по бэнчмаркам

В идеальных задачах максимально оптимизированных для процессора и работы с памятью прирост находится в пределах 0-2%.

Для задач имеющий меньшую оптимизацию или связанных с работой с данными прирост от увеличения объёма кэш памяти составил от 3,7 до 35%.

Оптимизировать игры так чтобы они выполнялись только в объёме кэш памяти без промахов — практически невозможно. Подготовка и отрисовка игровых кадров требуют от процессора постоянной смены выполняемых действий, что, неизбежно, приводит к нехватке объёма кэш памяти и учащению промахов в кэш.

Far Cry 5

Время кадра Плотность вероятности Распределение вероятности

На графиках выше можно увидеть разницу и без цифр. На графиках изображены все удачные прогоны бенчмарка. Все они нанесены для оценки отличий результатов от погрешностей проведения тестов.

Ссылка на основную публикацию
Adblock
detector