Comparer la puissance de deux ordinateurs, c’est facile !

Il y a une quinzaine d'années, quand on achetait un nouvel ordinateur, on avait une idée assez précise de sa puissance. Cela permettait aux gamers de comparer facilement leurs machines. De nos jours, c'est beaucoup plus difficile, la puissance de calcul ne peut plus être calculée ou évaluée aussi aisément. Voyons pourquoi.

Puissance et fréquence

Comment définir la puissance d'un ordinateur (ou d'une console de jeu, ou d'un supercalculateur) ? Ce qui nous intéresse, c'est la quantité de travail qu'il est capable de traiter pendant un certain temps. On mesure donc par exemple le nombre d'opérations effectuées par seconde, ce qui ressemble à une vitesse.

Les opérations, qu'on appelle des instructions, peuvent être une addition ou une multiplication, mais aussi une comparaison de deux nombres, une instruction conditionnelle permettant de choisir entre deux traitements à effectuer, un renvoi vers une autre partie du code, et bien d'autres.

Processeur Intel Pentium.
Image : © William Blair, CPU-World.com.

Il y a une quinzaine d'années, on choisissait essentiellement son ordinateur en fonction de la fréquence de son processeur, c'est-à-dire le nombre d'instructions qu'il peut effectuer par seconde. Mon processeur à 100MHz était deux fois plus rapide que le processeur à 50MHz de mon voisin, car il pouvait traiter 100 millions d'opérations par seconde, deux fois plus que celui de mon voisin. La puissance des ordinateurs se résumait souvent à cette fréquence du processeur, approximation certes grossière, mais en général suffisante à cette époque.

puissance = fréquence

Mais la vitesse d'exécution d'un programme donné dépend des opérations qu'il utilise. Elle peut donc varier fortement d'un programme à l'autre, ce qui la distinguera de la puissance maximale théorique du processeur, affichée par le constructeur et quasiment impossible à observer en pratique.

Ça dépend des opérations

En pratique, la vitesse de traitement dépend du type d'opération que l'on confie au processeur. Ainsi, à la fin des années 90, on a vu apparaître sur le marché des processeurs MMX, dont le constructeur vantait les capacités multimédias. En effet, les programmes manipulant des données audio ou vidéo ont besoin de faire de nombreuses fois les mêmes calculs, par exemple sur chacune des images composant une vidéo. On a donc ajouté aux processeurs la faculté d'effectuer plusieurs additions ou plusieurs multiplications en même temps sur des données différentes (on parle de SIMD, Single Instruction Multiple Data). La puissance devient alors la fréquence multipliée par le nombre d'opérations que le processeur peut effectuer en même temps (de l'ordre de 4 ou 8 de nos jours).

puissance = fréquence × nombre d'opérations simultanées

Si on développe un programme de façon à utiliser plusieurs additions ou plusieurs multiplications à peu près au même moment, le compilateur pourra les regrouper afin que le processeur les exécute d'un seul coup, et donc beaucoup plus vite. Si par contre, peu d'additions ou de multiplications sont utilisées, mais que d'autres opérations sont à effectuer au même moment, l'exécution ne sera pas accélérée. On constate en fait une différence de plus en plus grande entre la puissance maximale vantée par les constructeurs et la puissance observée par les utilisateurs, c'est-à-dire la vitesse d'exécution d'un programme donné. Un programme doit être très finement adapté aux capacités du matériel pour espérer en tirer des performances proches de sa puissance maximale.
Une autre façon d'accélérer l'exécution du programme a été d'ajouter des instructions plus complexes. Par exemple, certaines instructions actuelles peuvent calculer (a+b)*c d'un seul coup, deux fois plus vite que si on utilisait une addition puis une multiplication. D'autres instructions peuvent accélérer le chiffrage AES (par exemple pour la protection des réseaux wifi) ou effectuer le calcul des sommes de contrôle CRC (pour savoir si des données transitant sur Internet ont été corrompues) beaucoup plus rapidement que si elles étaient décomposées en opérations de base. En résumé, certains calculs peuvent être accélérés, d'autres peuvent être exécutés en même temps, d'autres non. La puissance de calcul observée dépend donc énormément du programme qu'on exécute (et du compilateur qui l'a traduit en langage machine).

Les processeurs multicœurs

L'avènement des processeurs multicœurs depuis une petite dizaine d'années a apporté un nouvel élément au calcul de leur puissance. En effet, chaque processeur contient désormais plusieurs cœurs dont les puissances sont combinées. La puissance totale d'un processeur devient donc sa fréquence multipliée par le nombre d'opérations pouvant être effectuées en même temps, puis multipliée par le nombre de cœurs.

puissance = fréquence × nombre d'opérations simultanées × nombre de cœurs

Processeur quadricœur AMD Opteron.
Image : © Advanced Micro Devices, Inc. (AMD), Wikimedia Commons.

Les constructeurs ne s'y sont pas trompés, la fréquence est de moins en moins mise en avant de nos jours. Alors que c'était le principal argument de vente il y a une dizaine d'années, elle n'est presque plus affichée dans les publicités actuelles. En effet, elle varie peu d'un processeur à l'autre (entre 2 et 3 GHz en général). Par contre, le nombre de cœurs peut varier d'un facteur 3 ou 4 entre deux processeurs, il devient donc un argument majeur de vente. Par exemple, un processeur à 6 cœurs à 2 GHz est censé être 2 fois plus puissant qu'un processeur à 2 cœurs à 3 GHz.
Mais cela n'est vrai que si le programme est capable de fournir du travail à tous les cœurs. Il y a 15 ans, un programme allait deux fois plus vite lorsqu'on passait d'un processeur 50 MHz à un 100 MHz. Aujourd'hui, passer d'un processeur de 2 à 4 cœurs ne garantit pas que notre programme ira deux fois plus vite. Si on lance quatre programmes en même temps, par exemple un traitement de texte, un navigateur web, un tableur et un lecteur de musique, ils pourront effectivement utiliser quatre cœurs différents en même temps. Par contre, un seul programme ne peut pas spontanément utiliser tous ces cœurs simultanément. Le concepteur devra d'abord le paralléliser, c'est-à-dire découper son algorithme en sous-parties indépendantes qui pourront être exécutées en même temps par différents cœurs. Dans le cas idéal, la répartition de ces parties permet au programme d'aller 4 fois plus vite en utilisant 4 cœurs. Mais en général, certaines portions du programme ne peuvent pas être découpées ainsi, elles ne seront donc pas du tout accélérées par la présence de plusieurs cœurs. La loi d'Amdahl, énoncée en 1967, clarifie ce phénomène. Elle montre que l'accélération apportée par les processeurs multicœurs est fortement limitée par la taille de ces portions non-parallélisables.
L'apport des processeurs multicœurs est donc clair en ce qui concerne la puissance théorique (elle est multipliée par le nombre de cœurs) mais ne garantit pas du tout un gain semblable pour la vitesse d'exécution d'un programme donné.

Une fréquence pas vraiment stable

Une autre raison d'accorder moins d'importance à la fréquence dans le calcul de la puissance est qu'elle varie fortement à l'intérieur d'un même processeur. C'est la consommation d'énergie qui est actuellement devenue le critère majeur décidant de la fréquence des processeurs. Selon la quantité de travail qu'on lui confie, le processeur va éventuellement se mettre en veille pour économiser de l'énergie. Il pourra notamment réduire fortement sa fréquence, parfois jusqu'à un facteur 3. En effet, la consommation d'énergie est proportionnelle à la fréquence. Heureusement, quand on lui confie à nouveau beaucoup de travail, il revient progressivement à sa fréquence maximale. On peut donc espérer que la fréquence reste maximale tant qu'on lui donne suffisamment de travail de faire.
Là où cela se complique, c'est quand l'activité de certains cœurs joue sur la fréquence d'un autre. Si 3 des 4 cœurs sont en veille car ils n'ont pas de travail à faire, le quatrième pourra dépasser sa fréquence nominale et profiter de l'énergie que ses voisins n'utilisent pas (technologies comme TurboBoost ou TurboCore). Un cœur prévu pour fonctionner à 3 GHz pourra ainsi fonctionner entre 3 et 3,5 GHz selon l'activité de ses voisins. Ce phénomène ne compense cependant que légèrement la loi d'Amdahl, puisque 4 cœurs à 3GHz restent théoriquement beaucoup plus puissants qu'un seul à 3,5 GHz. Mais il contribue à rendre la puissance disponible difficile à mesurer.
En définitive, la puissance de calcul observée lors de l'exécution d'un programme dépend donc de sa façon d'utiliser le processeur, mais aussi des autres programmes s'exécutant sur cet ordinateur.

L'accès aux données, le maillon faible

Si la puissance est si difficile à mesurer en termes d'opérations effectuées, une autre solution consiste à mesurer la quantité de données que le processeur a traitées. Malheureusement, cette approche se heurte à la difficulté de calculer les temps d'accès aux données, qui dépendent eux aussi de nombreux facteurs.
Les programmes manipulent des données qui sont stockées dans des fichiers sur le disque dur. Mais les processeurs ne peuvent pas directement les utiliser, ils doivent d'abord les charger en mémoire centrale (RAM), puis les mettre dans leurs propres cases mémoire, appelées des registres. Ces registres étant très coûteux, les processeurs n'en ont pas beaucoup. Les programmes doivent donc constamment transférer des données de la mémoire vers les registres, faire les calculs sur ces données, puis remettre celles-ci en mémoire.
La lenteur de la mémoire risque donc de ralentir considérablement les calculs, rendant la puissance du processeur inexploitable en pratique, car celui-ci doit attendre les données en provenance de la mémoire avant de pouvoir les utiliser dans ses calculs. Pour masquer ce problème, les processeurs récents sont capables de faire des calculs et des accès mémoire en même temps. On dit que les accès à la mémoire ne sont plus bloquants : le processeur peut demander le chargement d'une donnée en mémoire, exécuter les instructions suivantes (à condition qu'elles ne manipulent pas cette même donnée), puis revenir à l'instruction précédente quand la donnée demandée sera effectivement arrivée. Un changement d'ordre d'exécution des instructions permet donc au processeur de continuer à calculer à sa vitesse maximale pendant que d'autres instructions sont ralenties par la lenteur de la mémoire.

Machine bi-processeur bi-cœur. Chaque processeur contient un cache global et un cache par cœur.

Pour éviter encore plus l'impact de la lenteur de la mémoire sur les performances des processeurs, on a ajouté un cache entre la mémoire et le processeur. Il s'agit de mémoires plus petites mais plus rapides que la mémoire centrale de l'ordinateur (il y a d'ailleurs plusieurs niveaux de cache de taille et vitesse différente, comme illustré sur la figure ci-contre et détaillé dans le document Interstices Et plus vite si affinités...). Si on arrive à garder dans le cache les données dont on a souvent besoin, on y a accès plus rapidement que si on allait jusqu'à la mémoire centrale. Les processeurs font en sorte d'avoir dans le cache les données qui leur seront probablement utiles.
Ainsi, le prefetcher observe les accès réalisés par vos programmes pour en déduire les prochains accès et donc aller chercher à l'avance les données. Par exemple, si un programme accède aux cases mémoire 3, 13 puis 23, le prefetcher va automatiquement rapatrier la case mémoire 33 dans le cache.
Tous ces mécanismes permettent au processeur de calculer sans avoir à trop souvent attendre les données en provenance de la mémoire, mais ce n'est pas infaillible.

Contention et effets de cache

Les caches permettent d'augmenter l'utilisation du processeur en lui évitant d'attendre la mémoire centrale (RAM), mais cela rend le comportement des machines difficile à prédire. Par exemple, si on veut savoir dans combien de temps un calcul va se terminer, il faut savoir quelles quantités de données il va lire dans le cache et dans la mémoire centrale. Si toutes ces données restent dans le cache, il se terminera bien plus vite que si elles sont toutes en mémoire centrale. Mais il est difficile pour un programmeur de savoir à l'avance quelle donnée le matériel va décider de garder dans ses caches.
Pire, ce comportement varie d'une exécution à l'autre. La première exécution d'un programme devra aller chercher des données dans la mémoire centrale, elle sera donc lente. Par contre, si on relance le même programme peu après, les données ayant été chargées dans le cache par la première exécution peuvent encore s'y trouver. La deuxième exécution est donc plus rapide ! Cependant, si la deuxième exécution n'a pas lieu sur le même cœur, les données ne seront pas dans le bon cache. Le programme devra alors encore une fois aller les chercher jusqu'en mémoire centrale.
Encore pire, si deux programmes différents manipulent les mêmes données, elles peuvent êtres présentes dans les caches de deux cœurs distincts. En fonction des données utilisées par les autres programmes, la vitesse des accès aux données peut changer. En effet, si un premier programme modifie des données utilisées par un second, le processeur doit veiller à ce que les modifications du premier soient bien répercutées dans le cache du second. En pratique, le second devra attendre avant de pouvoir les utiliser, et les programmes s'exécutent alors tour à tour au lieu de simultanément, ce qui réduit l'intérêt des processeurs multicœurs.

Un domaine de recherche

Le temps où on connaissait précisément la vitesse d'exécution des programmes est révolu. Il n'existe plus de formule simple pour estimer la performance réelle d'un ordinateur. Multiplier le nombre de cœurs par la fréquence n'est pas une bonne approximation. La vitesse d'exécution s'éloigne de plus en plus de la puissance théorique annoncée par les constructeurs, car elle dépend des instructions que ce programme utilise, de la façon dont il a été compilé en code machine, et des programmes exécutés en même temps sur les cœurs voisins.
Pour utiliser au mieux les ressources d'un ordinateur et espérer en exploiter au mieux les performances, le programmeur doit en connaître les capacités et y adapter son programme. Cela consiste notamment à paralléliser son programme pour utiliser les différents cœurs. Malheureusement, la parallélisation reste un problème difficile, car le découpage en parties indépendantes se heurte aux dépendances entre ces sous-parties. Impossible par exemple d'exécuter sur un second cœur un traitement qui utilise un résultat encore en cours de calcul sur le premier cœur. La parallélisation automatique est espérée depuis longtemps mais reste encore aujourd'hui un sujet de recherche. Les développeurs doivent toujours mettre la main à la pâte.
Une autre solution consiste à modifier la façon dont on programme les calculs, pour ne pas les paralléliser directement, mais simplement expliciter les dépendances entre les différentes sous-tâches. Une fois les dépendances déterminées, un logiciel pourrait alors automatiquement distribuer les sous-tâches parmi les cœurs. De nombreuses recherches sont actuellement menées pour définir les futurs langages de programmation pour ce modèle, les algorithmes utilisés pour la répartition des tâches, et les logiciels les implémentant. Cependant, cette approche impose d'avoir à l'avance une idée approximative de la durée d'exécution des tâches afin d'anticiper leur répartition, à la manière d'un diagramme de Gantt pour la gestion de projet. Elle se heurte donc au problème exposé ici : connaître la vitesse d'exécution des différentes tâches est devenu un vrai casse-tête !
-------------------------------------------------------------------------------------------------------------
Configuration Workstation Bi processor Nvidia maximus AMÉLIORER
_______________________________________________________________________________



Products Systems 4U [ 7047GR-TRF ]

Integrated Board

Super X9DRG-QF

Key Features
1. Dual socket R (LGA 2011) supports
    Intel® Xeon® processor E5-2600
    and E5-2600 v2 family^† 2. Up to 1TB ECC DDR3, up to
    1866MHz; 16x DIMM sockets 3. Expansion slots:
    4 PCI-E 3.0 x16 (support 4x double-
    width GPU cards),
    2 PCI-E 3.0 x8 (1 in x16),
    1 PCI-E 2.0 x4 (in x8) 4. Intel® i350 Dual port Gigabit Ethernet 5. 2x SATA3 and 8x SATA2 ports 6. 8x Hot-swap 3.5" HDD Bays 7. 1620W Redundant Power Supplies
    Platinum Level (94%) 8. Tower or Rackmount

Available Colors:

Dark Gray

Drivers & Utilities

BIOS

IPMI

Tested MEM

Tested HDD

Manuals

OS Certification Matrix

Compatible GPU List


Product SKUs

SYS-7047GR-TRF	SuperServer 7047GR-TRF (Black)


Motherboard

Super X9DRG-QF


Processor/Cache

CPU	Intel® Xeon® processor E5-2600 (up to 150W TDP) Dual Socket R (LGA 2011)
Cache	Up to 20MB
System Bus	QPI up to 8 GT/s

GPU	Supports C2075, up to 150W CPU at 35°C K20C (Kepler), up to 150W CPU at 35°C


System Memory

Memory Capacity	16x 240-pin DDR3 DIMM sockets Up to 1TB DDR3 ECC LRDIMM Up to 512GB DDR3 ECC Registered memory (RDIMM) Up to 192GB DDR3 ECC Un-Buffered memory (UDIMM)
Memory Type	1866/1600/1333/1066/800MHz ECC DDR3 SDRAM 72-bit, 240-pin gold-plated DIMMs
DIMM Sizes	32GB, 16GB, 8GB, 4GB, 2GB, 1GB
Memory Voltage	1.5 V, 1.35 V
Error Detection	Corrects single-bit errors Detects double-bit errors (using ECC memory)


On-Board Devices

Chipset	Intel® C602 Chipset
SATA	SATA 2.0 3Gbps with RAID 0, 1, 5, 10 SATA 3.0 6Gbps with RAID 0, 1
IPMI	Support for Intelligent Platform Management Interface v.2.0 IPMI 2.0 with virtual media over LAN and KVM-over-LAN support Renesas SH7757 BMC
Network Controllers	Intel® i350 Dual Port Gigabit Ethernet Virtual Machine Device Queues reduce I/O overhead Supports 10BASE-T, 100BASE-TX, and 1000BASE-T, RJ45 output 1x Realtek RTL8201N PHY (dedicated IPMI)
Video	G200 (Renesas SH7757 BMC with graphic controller)
Super I/O	Nuvoton W83527


Input / Output

SATA	2x SATA 3.0 ports (6Gbps) 8x SATA 2.0 ports (3Gbps)
LAN	2x RJ45 Gigabit Ethernet LAN ports 1x RJ45 Dedicated IPMI LAN port
USB	9x USB 2.0 ports total (4x rear + 4x via header + 1x Type A)
Video	1x VGA port
Serial Port / Header	1x Fast UART 16550 port / 1 Header


Expansion Slots

PCI-Express	4 PCI-E 3.0 x16 (double-width) 2 PCI-E 3.0 x8 (1 in x16 slot) 1 PCI-E 2.0 x4 (in x8)


System BIOS

BIOS Type	128Mb SPI Flash EEPROM with AMI® BIOS
BIOS Features	Plug and Play (PnP) APM 1.2 DMI 2.2 ACPI 1.0 / 2.0 USB Keyboard support SMBIOS 2.3 UEFI


Chassis

Form Factor	4U Rackmountable / Tower Optional Rackmount Kit
Model	CSE-747TQ-R1620B


Dimensions

Height	18.2" (462mm)
Width	7.0" (178mm)
Depth	26.5" (673mm)
Gross Weight	62 lbs (28.1kg)
Available Colors	Dark Gray


Front Panel

Buttons	Power On/Off button System Reset button
LEDs	Power status LED Hard drive activity LED 2x Network activity LEDs System Overheat & Power Fail LED
Ports	2x Front USB 2.0 Ports


Drive Bays

Hot-swap	8x Hot-swap 3.5" SAS/SATA Drive Trays
Peripheral Bay(s)	3x 5.25" drive bays in storage module - rotates 90° for Rackmount 1x 3.5" fixed drive bay


SAS / SATA Backplane

SAS / SATA Hard Drive Backplane with SES2


System Cooling

Fans	4x 92x38mm 4-pin PWM Middle Cooling Fans 2x 80x38mm 4-pin PWM Rear Exhaust Fans


Power Supply
1620W high-efficiency redundant power supply w/ PMBus
AC Input	1000W Output @ 100-120V, 12-10A, 50-60Hz 1200W Output @ 120-140V, 12-10A, 50-60Hz 1620W Output @ 180-240V, 10.5-8A, 50-60Hz
DC Output	1000W: +12V/84A; +5Vsb/4A 1200W: +12V/100A; +5Vsb/4A 1620W: +12V/150A; +5Vsb/4A
Certification	Platinum Certified [ Test Report ]


PC Health Monitoring

CPU	Monitors for CPU Cores, +1.8V, +3.3V, +5V, +12V, +3.3V Standby, +5V Standby, VBAT, Memory, Chipset Voltages. 6-Phase-switching voltage regulator
FAN	Total of eight fan headers supporting up to 8 fans 8x fans with tachometer status monitoring Status monitor for speed control Pulse Width Modulated (PWM) fan connectors
Temperature	Monitoring for CPU and chassis environment CPU thermal trip support Thermal Control for 8x fan connectors Thermal Monitor 2 (TM2) support PECI
LED	CPU / System Overheat LED Suspend static indicator LED UID/Remote LED
Other Features	Chassis intrusion detection Chassis intrusion header


Operating Environment / Compliance

RoHS	RoHS Compliant
Environmental Spec.	Operating Temperature: 10°C to 35°C (50°F to 95°F) Non-operating Temperature: -40°C to 70°C (-40°F to 158°F) Operating Relative Humidity: 8% to 90% (non-condensing) Non-operating Relative Humidity: 5% to 95% (non-condensing)

PROTO 3D

Pages

mardi 26 novembre 2013