Calculer plus,
               Consommer moins d'énergie
                   (et gagner plus...;-)

                     J-F. Méhaut (UJF-INRIA, LIG, PILSI)




Plan : Processeurs multi-coeurs, many-coeurs (Terascale, SCC-Single-Chip Cloud Computer),
Intelligence logicielle et maîtrise de la
             consommation énergétique
• Optimisation des rendements énergétiques des grands
  parcs de PC (intranets, data centers, HPC centers)
   – PC utilisé 1/3 du temps (8heures par jour)
   – Mise en veille et arrêt automatique des machines hors des périodes
     d'utilisation interactive
   – PC, imprimante, réseau: 53% de la consommation électrique du
     système d'information

• Programmation efficace, sûre et écologique des
  processeurs multicoeurs
   – Multicoeurs: Placer sur un même composant plusieurs coeurs à fréquence
     d'horloge « modérée »
   – Parallélisme intégré, nouveaux modèles de programmation et
     environnements d'exécution adaptés
   – Instructions pour contrôler le fonctionnement du processeur et la
     consommation énergétique
Technology Trends: Microprocessor Capacity




                      Moore’s Law




2X transistors/Chip Every 1.5 years
Called “Moore’s Law”                  Gordon Moore (co-founder of Intel)
                                      predicted in 1965 that the
                                      transistor density of
  Microprocessors have                semiconductor chips would
                                      double roughly every 18 months.
  become smaller, denser,
  and more powerful.
Limit #1: Power density
  Scaling clock speed will not work!



                10000                                                                Sun’s
                                                                                    Surface
                                                                Rocket
Power Density (W/cm )




                        1000
                                                                Nozzle

                                                     Nuclear
                         100
                                                     Reactor

                                      8086
                                                    Hot Plate
                          10   4004                              P6
                   2




                                8008 8085     386             Pentium®
                                          286           486
                                 8080                                            Source: Patrick
                           1                                                     Gelsinger, Intel®
                           1970         1980          1990         2000   2010
                                                      Year
Pourquoi des processeurs multicores?


                  Performance
                  Performance
                 Performance
                  Performance
                 Consommation



               1.0x




         Fréquence nominale
Over-clocking

                          Performance
                          Performance
                         Performance
        1.73x
                          Performance
                         Consommation


1.13x
                       1.0x




Over-clocked     Fréquence nominale
   +20%
Under-clocking

          Performance
           Performance
          Performance
           Performance
          Consommation



       1.0x              0.87x



                                 0.50x




  Fréquence nominale     Under-clocked
                            -20%
Dual-Core
            Energy-Efficient Performance


        1.73x              Performance
                            Performance
                           Performance
                            Performance
                           Consommation   1.73x

1.13x
                        1.0x                      1.02x




Over-clocked       Fréquence nominale     Under-clocked
   +20%                                      -20%
Gordon Moore a toujours raison…
Multicores processors

All Large Core

                          Mixed Large
                          and
                          Small Core



Intel Westmere,
 AMD Opteron                                                 All Small Core




             Intel Larabee, IBM CELL                  Intel Terascale, SCC, GPU


           Goal: Energy Efficient Petascale with Multicores processors
                                                                10
11
Intel Teraflops Research Chip
 100 Million Transistors ● 80 Tiles ● 275mm2




          First tera-scale programmable silicon:
             – Teraflops performance
             – Tile design approach
             – On-die 2D mesh network
             – Novel clocking
             – Power-aware capability
             – Supports 3D-stacked memory
14

Overview of the chip

• Purpose: High speed floating point calculations (research chip)

• Tile based

• Network-On-Chip: 2D-Mesh

• Low power consumption
Intel Terascale: Fine Grain Power Management

                                   21 sleep regions per tile (not all shown)
                                      Data Memory                   FP
                                        Sleeping:                 Engine 1
                                       57% less power
Dynamic sleep
                                                                  Sleeping:
STANDBY:                                         Instruction      90% less
• Memory retains                                   Memory
                                                   Sleeping:        power
data                                             56% less power

• 50% less                                                          FP
power/tile                                                        Engine 2
                                         Router
                                         Router
FULL SLEEP:
•Memories fully                         Sleeping:                 Sleeping:
                                      10% less power              90% less
off                                        (stays on to
•80% less                                  pass traffic)
                                                                    power
power/tile
                Scalable power to match workload demands
A6 couchelogicielle jfm
A6 couchelogicielle jfm
A6 couchelogicielle jfm
A6 couchelogicielle jfm
A6 couchelogicielle jfm
A6 couchelogicielle jfm
A6 couchelogicielle jfm
A6 couchelogicielle jfm
A6 couchelogicielle jfm
A6 couchelogicielle jfm
A6 couchelogicielle jfm

A6 couchelogicielle jfm

  • 1.
    Calculer plus, Consommer moins d'énergie (et gagner plus...;-) J-F. Méhaut (UJF-INRIA, LIG, PILSI) Plan : Processeurs multi-coeurs, many-coeurs (Terascale, SCC-Single-Chip Cloud Computer),
  • 2.
    Intelligence logicielle etmaîtrise de la consommation énergétique • Optimisation des rendements énergétiques des grands parcs de PC (intranets, data centers, HPC centers) – PC utilisé 1/3 du temps (8heures par jour) – Mise en veille et arrêt automatique des machines hors des périodes d'utilisation interactive – PC, imprimante, réseau: 53% de la consommation électrique du système d'information • Programmation efficace, sûre et écologique des processeurs multicoeurs – Multicoeurs: Placer sur un même composant plusieurs coeurs à fréquence d'horloge « modérée » – Parallélisme intégré, nouveaux modèles de programmation et environnements d'exécution adaptés – Instructions pour contrôler le fonctionnement du processeur et la consommation énergétique
  • 3.
    Technology Trends: MicroprocessorCapacity Moore’s Law 2X transistors/Chip Every 1.5 years Called “Moore’s Law” Gordon Moore (co-founder of Intel) predicted in 1965 that the transistor density of Microprocessors have semiconductor chips would double roughly every 18 months. become smaller, denser, and more powerful.
  • 4.
    Limit #1: Powerdensity Scaling clock speed will not work! 10000 Sun’s Surface Rocket Power Density (W/cm ) 1000 Nozzle Nuclear 100 Reactor 8086 Hot Plate 10 4004 P6 2 8008 8085 386 Pentium® 286 486 8080 Source: Patrick 1 Gelsinger, Intel® 1970 1980 1990 2000 2010 Year
  • 5.
    Pourquoi des processeursmulticores? Performance Performance Performance Performance Consommation 1.0x Fréquence nominale
  • 6.
    Over-clocking Performance Performance Performance 1.73x Performance Consommation 1.13x 1.0x Over-clocked Fréquence nominale +20%
  • 7.
    Under-clocking Performance Performance Performance Performance Consommation 1.0x 0.87x 0.50x Fréquence nominale Under-clocked -20%
  • 8.
    Dual-Core Energy-Efficient Performance 1.73x Performance Performance Performance Performance Consommation 1.73x 1.13x 1.0x 1.02x Over-clocked Fréquence nominale Under-clocked +20% -20%
  • 9.
    Gordon Moore atoujours raison…
  • 10.
    Multicores processors All LargeCore Mixed Large and Small Core Intel Westmere, AMD Opteron All Small Core Intel Larabee, IBM CELL Intel Terascale, SCC, GPU Goal: Energy Efficient Petascale with Multicores processors 10
  • 11.
  • 13.
    Intel Teraflops ResearchChip 100 Million Transistors ● 80 Tiles ● 275mm2 First tera-scale programmable silicon: – Teraflops performance – Tile design approach – On-die 2D mesh network – Novel clocking – Power-aware capability – Supports 3D-stacked memory
  • 14.
    14 Overview of thechip • Purpose: High speed floating point calculations (research chip) • Tile based • Network-On-Chip: 2D-Mesh • Low power consumption
  • 15.
    Intel Terascale: FineGrain Power Management 21 sleep regions per tile (not all shown) Data Memory FP Sleeping: Engine 1 57% less power Dynamic sleep Sleeping: STANDBY: Instruction 90% less • Memory retains Memory Sleeping: power data 56% less power • 50% less FP power/tile Engine 2 Router Router FULL SLEEP: •Memories fully Sleeping: Sleeping: 10% less power 90% less off (stays on to •80% less pass traffic) power power/tile Scalable power to match workload demands