Ігри

Чи потрібний кеш 3 рівня для ігор. Невелике порівняння L3 кеша в іграх та додатках

Кеш -проміжний буфер з швидким доступом, Що містить інформацію, яка може бути запитана з найбільшою ймовірністю. Доступ до даних у кеші йде швидше, ніж вибірка вихідних даних з оперативної (ОЗУ) і швидше за зовнішній ( жорсткий дискабо твердотільний накопичувач) пам'яті, рахунок чого зменшується середній час доступу і збільшується загальна продуктивністькомп'ютерної системи

Ряд моделей центральних процесорів (ЦП) мають власний кеш, для того щоб мінімізувати доступ до оперативної пам'яті(ОЗУ), яка повільніша, ніж регістри. Кеш-пам'ять може давати значний виграш у продуктивності, якщо тактова частота ОЗУ значно менше тактової частоти ЦП. Тактова частота для кеш-пам'яті зазвичай набагато менше частоти ЦП.

Рівні кешу

Кеш центрального процесораподілено на кілька рівнів. В універсальному процесорі в даний час число рівнів може досягати 3. Кеш-пам'ять рівня N+1 зазвичай більше за розміром і повільніше швидкості доступу і передачі даних, ніж кеш-пам'ять рівня N.

Самої швидкою пам'яттює кеш першого рівня - L1-cache. По суті вона є невід'ємною частиною процесора, оскільки розташована на одному з ним кристалі і входить до складу функціональних блоків. У сучасних процесорах зазвичай кеш L1 розділений на два кеші, кеш команд (інструкцій) та кеш даних (Гарвардська архітектура). Більшість процесорів без кешу L1 не можуть функціонувати. L1 кеш працює на частоті процесора, і, у випадку, звернення щодо нього може проводитися кожен такт. Найчастіше є можливим виконувати кілька операцій читання/запису одночасно. Латентність доступу зазвичай дорівнює 2×4 тактам ядра. Обсяг зазвичай невеликий - трохи більше 384 Кбайт.

Другим за швидкодією є L2-cache - кеш другого рівня, зазвичай він розташований на кристалі, як і L1. У старих процесорах - набір мікросхем на системній платі. Об'єм L2 кешу від 128 Кбайт до 1×12 Мбайт. У сучасних багатоядерних процесорахкеш другого рівня, перебуваючи на тому ж кристалі, є пам'яттю роздільного користування - при загальному обсязі кешу в nM Мбайт на кожне ядро припадає по nM/nC Мбайта, де кількість ядер процесора. Зазвичай латентність кеша L2, розташованого на кристалі ядра, становить від 8 до 20 тактів ядра.

Кеш третього рівня найменш швидкодіючий, але він може бути дуже великого розміру - більше 24 Мбайт. L3 кеш повільніший за попередні кеші, але все одно значно швидше, ніж оперативна пам'ять. У багатопроцесорних системах перебуває у загальному користуванні і призначений синхронізації даних різних L2.

Іноді існує і 4 рівень кешу, зазвичай він розташований в окремій мікросхемі. Застосування кеша 4 рівня виправдане лише для високопродуктивних серверів та мейнфреймів.

Проблема синхронізації між різними кешами(як одного, так і множини процесорів) вирішується когерентністю кеша. Існує три варіанти обміну інформацією між кеш-пам'яттю різних рівнів, або, як то кажуть, кеш-архітектури: інклюзивна, ексклюзивна та неексклюзивна.

При виконанні різних завданьдо процесора вашого комп'ютера надходять необхідні блоки інформації з оперативної пам'яті. Обробивши їх ЦП записує отримані результати обчислень на згадку і отримує обробку наступні блоки даних. Так триває доти, доки поставлене завдання не буде виконано.

Вищезгадані процеси виробляються дуже великій швидкості. Однак швидкість навіть найшвидшої оперативної пам'яті значно менша за швидкість будь-якого слабкого процесора. Кожна дія, чи це запис на неї інформації або зчитування з неї займають багато часу. Швидкість роботи оперативної пам'яті в десятки разів нижча за швидкість процесора.

Незважаючи на таку різницю у швидкості обробки інформації, процесор ПК не простоює без діла і не чекає, коли ОЗУ видасть та прийме дані. Процесор завжди працює і завдяки присутності в ньому кеш пам'яті.

Кеш – особливий вид оперативної пам'яті. Процесор використовує пам'ять кешу для зберігання тих копій інформації з основної оперативної пам'яті комп'ютера, ймовірність звернення яких найближчим часом дуже велика.

По суті кеш-пам'ять виконує роль швидкодіючого буфера пам'яті, що зберігає інформацію, яка може знадобитися процесору. Таким чином, процесор отримує необхідні дані в десятки разів швидше, ніж при зчитуванні їх з оперативної пам'яті.

Основною відмінністю кеш пам'яті від звичайного буфера є інтегровані логічні функції. У буфері зберігаються випадкові дані, які зазвичай обробляються за схемою " отриманий першим, виданий першим " чи " отриманий першим, виданий останнім " . У кеш пам'яті містяться дані, ймовірність звернення яких найближчим часом дуже велика. Тому завдяки «розумному кешу» процесор може працювати з повною швидкістю і не чекати на дані, що витягуються з повільнішої оперативної пам'яті.

Основні типи та рівні кеш-пам'яті L1 L2 L3

Кеш пам'ять виконано як мікросхем статичної оперативної пам'яті (SRAM), які встановлюються на системної платі чи вбудовані в процесор. У порівнянні з іншими видами пам'яті, статична пам'ять здатна працювати на дуже високих швидкостях.

Швидкість кешу залежить від обсягу конкретної мікросхеми, Чим більший обсяг мікросхеми, тим важче досягти високої швидкості для її роботи. Враховуючи цю особливість, При виготовленні кеш пам'ять процесора виконують у вигляді кількох невеликих блоків, які називаються рівнями. Найпоширенішою на сьогоднішній день вважається трирівнева система кеша L1, L2, L3:

Кеш пам'ять першого рівня L1 — найменша за обсягом (загалом кілька десятків кілобайт), але найшвидша за швидкістю і найважливіша. Вона містить дані, що найбільш часто використовуються процесором і працює без затримок. Зазвичай кількість мікросхем пам'яті рівня L1 дорівнює кількості ядер процесора, причому кожне ядро отримує доступ тільки до своєї мікросхеми L1.

Кеш пам'ять рівня L2 за швидкістю поступається пам'яті L1, але виграє в обсязі, який вимірюється вже в кількох сотнях кілобайтів. Вона призначена для тимчасового зберігання важливої інформації, Імовірність звернення до якої нижче, ніж у інформації, що зберігається в кеші L1.

Третій рівень кеш пам'яті L3 — має найбільший обсяг із трьох рівнів (може досягати десятків мегабайт), але й має саму повільною швидкістю, яка все ж таки значно вища за швидкість оперативної пам'яті. Кеш пам'ять L3 служить загальною всім ядер процесора. Рівень пам'яті L3 призначений для тимчасового зберігання тих важливих даних, ймовірність звернення яких трохи нижче, ніж у інформації що зберігається у перших двох рівнях L1, L2. Вона також забезпечує взаємодію ядер процесора між собою.

Деякі моделі процесорів виконані з двома рівнями кеш пам'яті, де L2 поєднує всі функції L2 і L3.

Коли корисний великий обсяг кешу.

Значний ефект від великого обсягу кешу ви відчуєте при використанні програм архіваторів, у 3D іграх, під час обробки та кодування відео. У відносно «легких» програмах та додатках різниця практично не помітна (офісні програми, плеєри тощо).

Всім доброї доби. Сьогодні ми намагатимемося розтлумачити вам таке поняття як кеш. Кеш пам'ять процесора – це надшвидкий масив обробки даних, швидкість якого перевищує показники стандартної ОЗУ в 16–17 разів, якщо йдеться про DDR4.

З цієї статті ви дізнаєтесь:

Саме обсяг кеш-пам'яті дозволяє ЦП працювати на граничних швидкостях, не чекаючи, поки оперативна пам'ять обробить будь-які дані і не надішле результати готових обчислень чіпа для подальшої їх обробки. Аналогічний принцип простежується у HDD, лише там використовується буфер на 8-128 МБ. Інша річ, що швидкості набагато нижчі, але процес роботи аналогічний.

Що таке кеш-процесора?

Як взагалі відбувається процес обчислень? Всі дані зберігаються в оперативній пам'яті, яка призначена для тимчасового зберігання важливої і системної інформації. Процесор вибирає собі певну кількість завдань, які заганяються в надшвидкий блок, що називається кеш-пам'яттю, і починає займатися своїми прямими обов'язками.

Результати обчислень знову відправляються в ОЗУ, але вже в набагато меншій кількості (замість тисячі значень на виході отримуємо значно менше), а на обробку береться новий масив. І так доти, доки робота не буде зроблена.

Швидкість роботи визначається ефективністю оперативної пам'яті. Але жоден сучасний модуль DDR4, включаючи оверклокерські рішення з частотами під 4000 МГц, і поряд не стояв із можливостями самого чахлого процесора з його «повільним» КЕШ.

Все тому, що швидкість роботи ЦП перевищує показники роботи ОЗУ в середньому в 15, а то й вище. І не дивіться лише на параметри частоти, окрім них відмінностей вистачає.
Теоретично виходить, що навіть надпотужні Intel Xeonі AMD Epyc змушені простоювати, але за фактом обидва серверні чіпи працюють на межі можливостей. А все тому, що вони набирають потрібну кількість даних за величиною кеша (аж до 60 і більше МБ) і моментально обробляють дані. ОЗУ служить як склад, звідки черпаються масиви для обчислень. Ефективність обчислень комп'ютера зростає і задоволені.

Короткий екскурс в історію

Перші згадки про кеш-пам'яті датовані кінцем 80-х років. До цього часу швидкість роботи процесора та пам'яті були приблизно однаковою. Стрімкий розвиток чіпів вимагав придумати якийсь «милицень», щоб підвищити рівень швидкодії ОЗУ, проте використовувати надшвидкі чіпи було дуже затратно, а тому вирішили обійтися економічним варіантом - впровадженням швидкісного масиву пам'яті в ЦП.

Вперше модуль кеш-пам'яті з'явився в Intel 80386. Тоді затримки при роботі DRAM коливалися в межах 120 наносекунд, тоді як більш сучасний модуль SRAM скорочував час затримок до значних на ті часи 10 наносекунд. Орієнтовна картина більш наочно продемонстрована у протистоянні HDD проти SSD.

Спочатку кеш-пам'ять розпаювалася прямо на материнських платах, Зважаючи на рівень техпроцесу того часу. Починаючи з Intel 80486 8 кб пам'яті було впроваджено безпосередньо в кристал процесора, що додатково збільшувало продуктивність та знижувало площу кристала.

Ця технологія розташування залишалася актуальною лише до виходу Pentium MMX, після чого SRAM-пам'ять замінили більш прогресивної SDRAM.
Та й процесори стали набагато меншими, а тому потреба у зовнішніх схемах відпала.

Рівні кеш-пам'яті

На маркуванні сучасних ЦП, крім , можна зустріти таке поняття як розмір кеша 1,2 і 3 рівнів. Як він визначається та на що впливає? Давайте розбиратися простою мовою.

Кеш першого рівня (L1) – найважливіша та швидка мікросхема в архітектурі ЦП. Один процесор може вмістити кількість модулів, рівних кількості ядер. Примітно, що мікросхема може зберігати в пам'яті найбільш потрібні та важливі дані лише зі свого ядра. Обсяг масиву часто обмежений показником 32–64 КБ.
Кеш другого рівня (L2) – падіння швидкості компенсується збільшенням обсягу буфера, що сягає 256, або навіть 512 КБ. Принцип дії такий самий, як і в L1, а ось частота запиту до пам'яті нижче, зважаючи на зберігання в ній менш пріоритетних даних.
Кеш третього рівня (L3) – найповільніший та найоб'ємніший розділ серед усіх перерахованих. І все одно цей масив набагато швидше за оперативну пам'ять. Розмір може досягати 20 і навіть 60 МБ, якщо мова стосується серверних чіпів. Користь від масиву величезна: він є ключовою ланкою обміну даними між усіма ядрами системи. Без L3 всі елементи чіпа були б розрізнені.

У продажу можна зустріти як дво-і трирівневу структуру пам'яті. Яка з них краща? Якщо ви використовуєте процесор лише для офісних програмі казуальних ігор, то жодної різниці не відчуєте. Якщо ж система збирається з прицілом під складні 3D-ігри, архівацію, рендеринг та роботу з графікою, то приріст у деяких випадках коливатиметься від 5 до 10%.
Кеш третього рівня виправданий лише в тому випадку, якщо ви маєте намір регулярно працювати з багатопотоковими програмами, що вимагають регулярні складні розрахунки. Тому в серверних моделях часто використовують кеш L3 великих обсягів. Хоча трапляються випадки, що цього не вистачає, а тому доводиться додатково ставити так звані модулі L4, які виглядають як окрема мікросхема, що підключається до материнської плати.

Як дізнатися кількість рівнів та розмір кешу на своєму процесорі?

Почнемо з того, що зробити це можна 3 способами:

через командний рядок(тільки кеш L2 та L3);
шляхом пошуку специфікацій в Інтернеті;
за допомогою сторонніх утиліт.

Якщо взяти за основу той факт, що більшість процесорів L1 становить 32 КБ, а L2 і L3 можуть коливатися в широких межах, останні 2 значення нам і потрібні. Для їхнього пошуку відкриваємо командний рядок через «Пуск» (вводимо значення «cmd» через рядок пошуку).

Система покаже підозріло велике значення для L2. Необхідно поділити його на кількість ядер процесора та дізнатися підсумковий результат.

Якщо ви збираєтеся шукати дані в мережі, то для початку дізнайтеся точне ім'я ЦП. Натисніть правою кнопкоюна іконці «Мій комп'ютер» та виберіть «Властивості». У графі «Система» буде пункт «Процесор», який нам, власне, потрібний. Переписуєте його назву в той же Google або Yandex та дивіться значення на сайтах. Для достовірної інформації краще обирати офіційні портали виробника (Intel або AMD).
Третій спосіб також не викликає проблем, але вимагає встановлення додаткового софту на кшталт GPU-Z, AIDA64 та інших утиліт для вивчення специфікацій каменю. Варіант для любителів розгону та копошення в деталях.

Підсумки

Тепер ви розумієте, що таке кеш-пам'ять, від чого залежить її обсяг і для яких цілей використовується надшвидкий масив даних. На НаразіНайбільш цікавими рішеннями на ринку в плані великого обсягу кеш-пам'яті, можна назвати пристрої AMD Ryzen 5 і 7 з їх 16 МБ L3.

У наступних статтях висвітлимо такі теми як процесорів, користь від чипів і не лише. і залишайтеся з нами. До нових зустрічей, поки що.

Вітаємо Вас на сайті GECID.com! Добре відомо, що тактова частота та кількість ядер процесора безпосередньо впливають на рівень продуктивності, особливо в оптимізованих під багатопоточність проектах. Ми вирішили перевірити, яку роль у цьому грає кеш-пам'ять рівня L3?

Для дослідження цього питання нам був люб'язно наданий інтернет-магазином pcshop.ua 2-ядерний процесор з номінальною робочою частотою 3,7 ГГц та 3 МБ кеш-пам'яті L3 з 12-ма каналами асоціативності. У ролі опонента виступив 4-ядерний , у якого було відключено два ядра і знижено тактову частоту до 3,7 ГГц. Об'єм кеша L3 у нього становить 8 МБ, і він має 16 каналів асоціативності. Тобто ключова різниця між ними полягає саме в кеш-пам'яті останнього рівня: Core i7 її на 5 МБ більше.

Якщо це відчутно вплине на продуктивність, можна буде провести ще один тест з представником серії Core i5, у яких на борту 6 МБ кеша L3.

Але поки що повернемося до поточного тесту. Допомагатиме учасникам відеокарта та 16 ГБ оперативної пам'яті DDR4-2400 МГц. Порівнювати ці системи будемо в роздільній здатності Full HD.

Для початку почнемо з розсинхронізованих живих геймплев, у яких неможливо однозначно визначити переможця. В Dying Lightна максимальних налаштуваннях якості обидві системи показують комфортний рівень FPS, хоча завантаження процесора та відеокарти в середньому було вищим саме у випадку Intel Core i7.

Arma 3має добре виражену процессорозависимость, отже більший обсяг кеш-пам'яті має зіграти свою позитивну роль навіть за ультрависоких налаштуваннях графіки. Тим більше, що навантаження на відеокарту в обох випадках досягало максимум 60%.

Гра DOOMна ультрависоких налаштуваннях графіки дозволила синхронізувати лише перші кілька кадрів, де перевага Core i7 становить близько 10 FPS. Розсинхронізація подальшого геймплею не дозволяє визначити рівень впливу кеша на швидкість відеоряду. У кожному разі частота трималася вище 120 кадрів/с, тому особливого впливу навіть 10 FPS на комфортність проходження не надають.

Завершує міні-серію живих геймплей Evolve Stage 2. Тут ми, напевно, побачили б різницю між системами, оскільки в обох випадках відеокарта завантажена орієнтовно на половину. Тому суб'єктивно здається, що рівень FPS у випадку Core i7 вищий, але однозначно не можна сказати, оскільки сцени не ідентичні.

Більш інформативну картину пропонують бенчмарки. Наприклад, в GTA Vможна побачити, що за містом перевага 8 МБ кешу досягає 5-6 кадрів/с, а в місті – до 10 FPS завдяки вищому завантаженню відеокарти. При цьому сам прискорювач відео в обох випадках завантажений далеко не на максимум, і все залежить саме від CPU.

Третій відьмакми запустили з граничними налаштуваннями графіки та високим профілем постобробки. В одній із заскриптованих сцен перевага Core i7 місцями досягає 6-8 FPS при різкій зміні ракурсу та необхідності підвантаження нових даних. Коли навантаження на процесор і відеокарту знову досягають 100%, то різниця зменшується до 2-3 кадрів.

Максимальний пресет графічних налаштуваньв XCOM 2не став серйозним випробуванням для обох систем і частота кадрів знаходилася в районі 100 FPS. Але і тут більший обсяг кеш-пам'яті трансформувався на додаток до швидкості від 2 до 12 кадрів/с. І хоча обом процесорам не вдалося максимально завантажити відеокарту, варіант на 8 МБ і в цьому питанні місцями процвітав краще.

Найбільше здивувала гра Dirt RallyМи запустили з пресетом дуже високо. У певні моменти різниця сягала 25 кадрів/с виключно через більший обсяг кеш-пам'яті L3. Це дозволяло на 10-15% краще завантажувати відеокарту. Проте середні показники бенчмарку показали скромнішу перемогу Core i7 - всього 11 FPS.

Цікава ситуація вийшла і з Rainbow Six Siege: на вулиці, у перших кадрах бенчмарку, перевага Core i7 складала 10-15 FPS. Усередині приміщення завантаження процесорів та відеокарти в обох випадках досягло 100%, тому різниця зменшилася до 3-6 FPS. Але наприкінці коли камера вийшла за межі будинку, відставання Core i3 знову місцями перевищувало 10 кадрів/с. Середній показник опинився на рівні 7 FPS на користь 8 МБ кеша.

The Divisionпри максимальній якостіграфіки також добре реагує збільшення обсягу кеш пам'яті. Вже перші кадри бенчмарку повно завантажили всі потоки Core i3, а ось загальне навантаження на Core i7 становило 70-80%. Проте різниця у швидкості у ці моменти становила лише 2-3 FPS. Трохи пізніше навантаження на обидва процесори досягло 100%, а різниця у певні моменти вже була за Core i3, але лише на 1-2 кадри/с. У середньому вона склала близько 1 FPS на користь Core i7.

У свою чергу, бенчмаркRise of Tomb Riderпри високих налаштуваннях графіки у всіх трьох тестових сценах наочно показав перевагу процесора із значно більшим обсягом кеш пам'яті. Середні показники у нього на 5-6 FPS краще, але якщо уважно подивитися на кожну сцену, то місцями відставання Core i3 перевищує 10 кадрів/с.

А ось при виборі пресета з дуже високими налаштуваннями зростає навантаження на відеокарту та процесори, тому здебільшого різниця між системами зменшується до декількох кадрів. І лише короткочасно Core i7 може показувати значніші результати. Середні показники його переваг за підсумками бенчмарку знизилися до 3-4 FPS.

Hitmanтакож менше схильний до впливу кеш-пам'яті L3. Хоча і тут при ультрависокому профілі деталізації додаткові 5 МБ забезпечили найкраще завантаження відеокарти, перетворивши це на додаткові 3-4 кадри/с. Особливо критичного впливу на продуктивність вони не надають, але із суто спортивного інтересу приємно, що є переможець.

Високі налаштування графіки Deus ex: Mankind dividedвідразу ж зажадали максимальної обчислювальної потужності від обох систем, тому різниця в найкращому випадкустановила 1-2 кадри на користь Core i7, потім вказує і середній показник.

Повторний запуск при ультрависокому пресеті ще більше завантажив відеокарту, тому вплив процесора на загальну швидкість став ще меншим. Відповідно, різниця в кеш-пам'яті L3 практично не впливала на ситуацію і середній FPS відрізнявся менш ніж на півкадру.

За підсумками тестування можна відзначити, що вплив кеш-пам'яті L3 на продуктивність в іграх дійсно має місце, але воно проявляється лише тоді, коли відеокарта не завантажена на повну потужність. У таких випадках можна було б отримати приріст у 5-10 FPS, якби кеш збільшився у 2,5 рази. Тобто орієнтовно виходить, що за інших рівних кожен додатковий МБ кеш-пам'яті L3 додає лише 1-2 FPS до швидкості відображення відеоряду.

Так що, якщо порівнювати сусідні лінійки, наприклад, Celeron і Pentium, або моделі з різним об'ємом кеш-пам'яті L3 всередині серії Core i3, то основний приріст продуктивності досягається завдяки більш високим частотам, а потім і наявність додаткових процесорних потоків і ядер. Тому, вибираючи процесор, у першу чергу, все ж таки, потрібно орієнтуватися на основні характеристики, а лише потім звертати увагу на обсяг кеш-пам'яті.

На цьому все. Дякуємо за увагу. Сподіваємось, цей матеріал був корисним та цікавим.

Стаття прочитана 27046 раз(и)

Підписатися на наші канали

Сьогоднішня стаття не є самостійним матеріалом – вона просто продовжує дослідження продуктивності трьох поколінь архітектури Core у рівних умовах (почате наприкінці минулого року та продовжене нещодавно). Щоправда, сьогодні ми зробимо невеликий крок убік - частоти ядер і кеш-пам'яті залишаться тими самими, що й раніше, а ось ємність останньої зменшиться. Навіщо це потрібно? Ми використовували «повний» Core i7 двох останніх поколінь для чистоти експерименту, тестуючи його із включеною та відключеною підтримкою технології Hyper-Threading, Оскільки вже півтора року як Core i5 постачаються не 8, а 6 МіБ L3. Зрозуміло, що вплив ємності кеш-пам'яті на продуктивність не такий вже й великий, як іноді прийнято вважати, але воно є, і нікуди від нього не подітися. До того ж, Core i5 є масовішими продуктами, ніж Core i7, а першому поколінні за цим параметром їх ніхто «не ображав». Зате раніше їх трохи обмежували по-іншому: тактова частота UnCore в i5 першого покоління становила всього 2,13 ГГц, так що наш Nehalem - це не зовсім представник 700-ї лінійки на частоті 2,4 ГГц, а трохи швидший процесор . Проте сильно розширювати список учасників і переробляти умови тестування ми визнали зайвим - все одно, як ми вже не раз попереджали, тестування цієї лінійки жодної нової практичної інформації не несуть: реальні процесори працюють зовсім в інших режимах. А ось охочим досконало розібратися у всіх тонких моментах, як нам здається, таке тестування буде цікавим.

Конфігурація тестових стендів

Ми вирішили обмежитися всього чотирма процесорами, причому головних учасників буде два: обидва чотириядерні Ivy Bridge, але з різною ємністю кеш-пам'яті третього рівня. Третій - "Nehalem HT": минулого разу за підсумковим балом він виявився майже ідентичним "Ivy Bridge просто". І «просто Nehalem» який, як ми вже сказали, трохи швидше за справжнє Core i5 першого покоління, що працює на частоті 2,4 ГГц (через те, нагадаємо, що в 700-й лінійці частота UnCore була трохи нижче), але не надто радикально. Натомість і порівняння цікаве: з одного боку – два кроки покращення мікроархітікутри, з іншого – кеш-пам'ять обмежили. Апріорі можна припустити, що перше в більшості випадків переважить, але ось наскільки і взагалі - як можна порівняти «перші» і «треті» i5 (з поправкою на частоту UnCore, звичайно, хоча якщо буде багато бажаючих побачити абсолютно точне порівняння, ми і його потім зробимо) - вже гарна темадля дослідження.

Тестування

Традиційно, ми розбиваємо всі тести на кілька груп і наводимо на діаграмах середній результат по групі тестів/додатків (детально з методикою тестування ви можете ознайомитися в окремій статті). Результати на діаграмах наведені в балах, за 100 балів прийнято продуктивність референсної тестової системисайт зразка 2011 року. Основується вона на процесорі AMD Athlon II X4 620, ну а обсяг пам'яті (8 ГБ) та відеокарта () є стандартними для всіх тестувань «основної лінійки» і можуть змінюватися лише в рамках спеціальних досліджень. Тим, хто цікавиться більше детальною інформацією, знову-таки традиційно пропонується завантажити таблицю у форматі Microsoft Excel , в якій всі результати наведені як у перетвореному на бали, так і в «натуральному» вигляді.

Інтерактивна робота у тривимірних пакетах

Деякий вплив ємності кеш-пам'яті є, але він не менше 1%. Відповідно, обидва Ivy Bridge можна вважати ідентичними один одному, ну а покращення архітектури дозволяють новим Core i5 спокійно обганяти старі Core i7 так само, як це роблять нові Core i7.

Фінальний рендеринг тривимірних сцен

В даному випадку, природно, ніякі вдосконалення не можуть компенсувати збільшення кількості оброблюваних потоків, але сьогодні для нас найважливішим є не це, а повна відсутністьвпливу ємності кеш-пам'яті на продуктивність Ось Celeron і Pentium різні процесори, так що програми рендерингу чутливі до ємності L3, проте лише тоді, коли останнього мало. А 6 МіБ на чотири ядра, як бачимо, цілком достатньо.

Упаковка та розпакування

Звичайно, ці завдання сприйнятливі до ємності кеш-пам'яті, однак і тут ефект від її збільшення з 6 до 8 МіБ досить скромний: приблизно 3,6%. Цікавіше, насправді, порівняння з першим поколінням - архітектурні покращення дозволяють новим i5 на рівних частотах «громити» навіть старі i7, але це в загальному заліку: завдяки тому, що два тести з чотирьох однопотокових, а ще один двопотоковий. Стиснення даних силами 7-Zip, природно, найшвидше на «Nehalem HT»: вісім потоків завжди швидше чотирьох порівнянної продуктивності. А ось якщо обмежитися всього чотирма, то наш «Ivy Bridge 6М» програє не тільки своєму прабатькові, а й старичку Nehalem: покращення мікроархітектури повністю пасують перед зменшенням ємності кеш-пам'яті.

Кодування аудіо

Дещо несподіваним виявився не розмір різниці між двома Ivy Bridge, а те, що вона взагалі є. Правда настільки копієчна, що її можна і на особливості округлення чи похибки виміру списати.

Компіляція

Важливими є потоки, але важлива і ємність кеш-пам'яті. Однак, як завжди, не дуже - близько 1,5%. Найцікавіше порівняння з першим поколінням Core при відключеному Hyper-Threading: «по окулярах» новий Core i5 навіть на рівній частоті перемагає, але один з трьох компіляторів (виробництва Microsoft, якщо бути точним) відпрацював на обох процесорах за однаковий час. Навіть із перевагою в 5 секунд у старішого - притому, що в цій програмі у «повнокешевого» Ivy Bridge результати на 4 секунди кращі, ніж у Nehalem. Загалом і тут не можна вважати, що зменшення ємності L3 якось сильно вплинуло на Core i5 другого та третього покоління, але є й нюанси.

Математичні та інженерні розрахунки

Знову менше 1% різниці зі «старшим» кристалом і знову переконлива перемога над першим поколінням у всіх його видах. Що скоріше правило, ніж виняток для подібних малопотокових тестів, але чому б у ньому вкотре не переконатися? Особливо в такому ось рафінованому вигляді, коли (на відміну від тестів у штатному режимі) не заважає різниця в частотах («стандартних» або що виникає через роботу Turbo Boost).

Растрова графіка

Але і при повнішій утилізації багатопоточності картина не завжди змінюється. А ємність кеш-пам'яті не дає нічого.

Векторна графіка

І тут аналогічно. Правда і потоків обчислення потрібна лише парочка.

Кодування відео

На відміну від цієї групи, де навіть Hyper-Threading не дозволяє Nehalem боротися на рівних з послідовниками більш нових поколінь. А ось їм не надто заважає зменшення ємності кеш-пам'яті. Точніше практично взагалі не заважає, оскільки різниця знову менше 1%.

Офісне ПЗ

Як і слід очікувати, жодного приросту продуктивності від збільшення ємності кеш-пам'яті (точніше, її падіння від зменшення) немає. Хоча якщо подивитися на докладні результати, то видно, що єдиний багатопотоковий тест цієї групи (а саме розпізнавання тексту FineReader) виконується приблизно на 1,5% швидше при 8 МіБ L3, ніж на 6 МіБ. Здавалося б – що таке 1,5%? З погляду практики – ніщо. А ось з дослідницького погляду вже цікаво: як бачимо, саме багатопотоковим тестам найчастіше не вистачає кеш-пам'яті. В результаті різниця (нехай і невелика) іноді знаходиться навіть там, де її бути, начебто, не повинно. Хоча нічого такого вже незрозумілого в цьому немає - грубо кажучи, у малопотокових тестах ми маємо 3-6 МіБ на потік, а ось у багатопотокових там же виходить 1,5 МіБ. Першого - багато, а ось другого може виявитися не зовсім достатньо.

Java

Втім, Java-машина з такою оцінкою не згодна, але і це зрозуміло: як ми вже не раз писали, вона дуже добре оптимізована зовсім не під х86-процесори, а під телефони та кавоварки, де ядер може бути багато, але ось кеш- пам'яті дуже мало. А іноді і ядер, і кеш-пам'яті мало – дорогі ресурси як за площею кристала, так і з енергоспоживання. І, якщо з ядрами та мегагерцями щось зробити виходить, то ось з кешем все складніше: у чотириядерній Tegra 3 його, наприклад, всього 1 МіБ. Зрозуміло, що JVM може «схрюпати» і більше (як і всі системи з байт-кодом), що ми вже бачили порівнюючи Celeron і Pentium, але більше 1,5 МіБ на потік їй якщо й може стати в нагоді, то не в тих завданнях. які увійшли до SPECjvm 2008.

Ігри

На ігри ми мали великі надії, оскільки до ємності кеш-пам'яті вони нерідко виявляються більш вимогливими, ніж навіть архіватори. Але буває таке тоді, коли її зовсім мало, а 6 МіБ – як бачимо, достатньо. Та й, знову ж таки, процесори рівня чотириядерних Core будь-яких поколінь навіть на частоті 2,4 ГГц дуже потужне рішення для використовуваних ігрових програм, так що тонким місцем очевидно будуть не вони, а інші компоненти системи. Тому ми вирішили струсити пил з режимів з низькою якістю графіки - зрозуміло, що для таких систем він занадто синтетичний, але у нас і все тестування синтетичне:)

Коли не заважають будь-які там відеокарти та інше, різниця між двома Ivy Bridge досягає вже «шалених» 3%: і в цьому випадку можна не звертати уваги на практиці, але для теорії – чимало. Більше вийшло саме в архіваторах.

Багатозадачне оточення

Десь ми вже бачили таке. Ну так – коли тестували шестиядерні процесори під LGA2011. І ось ситуація повторюється: навантаження що не є багатопоточним, частина використовуваних програм до кеш-пам'яті «жадібна», а ось її збільшення тільки знижує середню продуктивність. Чим це можна пояснити? Хіба тим, що ускладнюється арбітраж і збільшується кількість промахів. Причому, зауважимо, відбувається таке лише тоді, коли ємність L3 відносно велика і одночасно працюючих потоків обчислення не менше чотирьох – у бюджетному сегменті зовсім інша картина. Принаймні, як показало наше недавнє тестування Pentium і Celeron, для двоядерних процесорів збільшення L3 з 2 до 3 МіБ додає 6% продуктивності. А ось чотири- і шестиядерним не дає, м'яко кажучи нічого. Навіть менше, ніж нічого.

Разом

Закономірний загальний підсумок: оскільки ніде суттєвої різниці між процесорами з різним обсягом L3 не виявилося, немає її й у «загальному та цілому». Таким чином, засмучуватися щодо зменшення ємності кеш-пам'яті у другому та третьому поколінні Core i5 приводів немає – попередники першого покоління їм все одно не конкуренти. Та й старі Core i7 в середньому також демонструють лише аналогічний рівень продуктивності (зрозуміло, в основному за рахунок відставання в малопотокових додатках - а так є сценарії, з якими в рівних умовах вони справляються швидше). Але, як ми вже говорили, на практиці реальні процесори знаходяться далеко не в рівних умовах за частотами, так що практична різниця між поколіннями більша, ніж можна отримати в таких дослідженнях.

Відкритим залишається лише одне питання: нам довелося сильно знизити тактову частотудля забезпечення рівності умов із першим поколінням Core, але чи збережуться помічені закономірності у ближчих до реальності умовах? Адже з того, що чотири низькошвидкісні потоки обчислень не бачать різниці між 6 і 8 МіБ кеш-пам'яті, не випливає, що вона не виявиться у разі чотирьох високошвидкісних. Щоправда, не слід і зворотного, тому для того, щоб остаточно закрити тему теоретичних досліджень, нам знадобиться ще одна Лабораторна робота, Якою ми і займемося наступного разу.