2. Agenda
• Jak wygląda nasza sieć dzisiaj?
• Skalowanie sieci L2 i związane z tym wyzwania
technologiczne oraz finansowe
• Co to jest Open Compute Project i Open Networking?
• Dysagregacja - hardware i software jako osobne bloki do
budowy sieci
• Open Networking w LINX
PLNOG18
3. $whoami
• 15 lat praktyki z zagadnieniami około-sieciowymi
– Sysadmin w Centrum Informatycznym UWM
– NetEng w MAN Olsztyn (PIONIER) i Ultraspeed UK
– Architekt Sieci w London Internet Exchange (LINX)
• Prywatnie kucharz hobbysta, a wieczorami junior sous
chef w jednej z londyńskich restauracji
• Kandydat do Rady Programowej PLNOG - zagłosuj na
mnie!
PLNOG18
4. LINX w liczbach
• Dwie sieci (10 lokalizacji) w Londynie:
– LON1: VPLS na Juniper (PTX/MX)
– LON2: EAPS na Extreme (BDX8/x670)
• Porty: 82x 100G, ~1000x 10G i ~1000x 1G
• Szkielet: do 16x 100G
• Ruch: 3,3 Tb/s (LON1) i 650Gb/s (LON2)
• 750 uczestników z 72 krajów i ~800 ASN
• Sieci lokalne w UK i USA
PLNOG18
5. Problemy skali
• Dlaczego w ogóle myślimy o zmianie architektury?
• Problemy technologiczne w dużej sieci L2:
– Ilość ruchu typu broadcast i unknown-unicast
– Czas konwergencji
• Adaptacja do oczekiwań uczestników IXP:
– Nowe usługi
• Koszty, koszty, koszty...
PLNOG18
6. Broadcast & unknown-unicast
• Nauka adresów MAC w trybie flood-and-learn powoduje
problemy w sieci L2 z tysiącem uczestników
• Nawet ARP w tej skali stwarza wyzwanie (10,000 pps)
• Problem z asymetrią - porty 100M i 100G na wspólnej
platformie (dysproporcja 1:1000)
• 1% broadcastu dla uczestnika z portem 100G to
"nieistotny szum" - ten sam ruch wysyca port uczestnika
podłączonego via 1G (efektywnie DoS)
• BUM rate-limiting pomaga zniwelować problem, ale nie
eliminuje go całkowicie (bursts)
PLNOG18
7. Konwergencja
• Stabilność sieci IXP jest coraz bardziej istotna z punktu
widzenia uczestnika i uptime na poziomie 99,99%
(4 minuty/rok) to minimum
• Konwergencja w EAPS to około 1 sekundy
• Nasz cel to ~200ms - protekcja sesji BGP
• Konwergencja sieci wpływa też na nasze route-serwery
• Nie jest to aktualnie największy problem w sieciach IXP,
ale lepsze jest wrogiem dobrego ;-)
PLNOG18
8. Nowe usługi
• Chociaż rynek ISP/ICP/CDN etc. wciąż rośnie,
to zmniejsza się liczba graczy (przejęcia, fuzje)
• Do IXP dołącza coraz więcej sieci typu enterprise
• Czego oczekują użytkownicy:
– Peering prywatny (closed user groups)
– Dostęp do dostawców chmury publicznej
– Multi-homing, zwłaszcza typu active/active
– Self provisioning
PLNOG18
9. Koszty
• Koszt tranzytu (nasz główny benchmark) wciąż spada
• Ciągła presja dużych graczy na obniżanie ceny portów
• Budowa sieci do przełączania ramek w warstwie drugiej na
urządzeniach typu multiservice IP jest bardzo kosztowna
(kto kupuje Excel'a do robienia listy zakupów?)
• Przy aktualnych cenach portów w IXP nie jesteśmy w
stanie wydawać milionów funtów na budowę nowej
platformy - musimy szukać alternatywy do rozwiązań
oferowanych przez "klasycznych" vendorów
PLNOG18
10. Quo vadis IXP?
• Podsumowując: więcej, szybciej i taniej - czy jest
technologia, która zaadresuje powyższe wymagania?
• Jak to robią operatorzy mega-scale typu Facebook,
Google, Microsoft czy Amazon?
• Jest rozwiązanie!
– EVPN (adresuje problemy technologiczne)
– merchant silicon (obniża koszt budowy sieci)
– rozdzielenie warstwy sprzętowej i programowej (bonus!)
• Open Compute Project Networking!
PLNOG18
11. Open Compute Project
• Open Compute Project został zapoczątkowany przez
Facebook'a, później dołączyły inne organizacje
• Początkowo udostępnione zostały projekty serwerów i szaf
używanych przez FB w nowych DC
• Open Compute Project Networking to pod-grupa zajmująca
się pracą nad otwarciem specyfikacji przełączników
ethernet opartych na merchant silicon
• Z czasem projekt został poszerzony o nowe komponenty -
open optical monitoring etc.
PLNOG18
12. OCP - hardware
• Praktycznie każdy duży gracz ODM (original design
manufacturer) ma w ofercie switche Open Network
• EdgeCore, Alpha, Quanta, Mellanox, Facebook etc.
• Każdy może wybrać coś do swoich potrzeb:
– 48x 1G + Nx 10G uplink
– 48x 10G + Nx 40/100G uplink
– 32x 100G
• Bardzo szczegółowe specyfikacje dostępne są na stronie
projektu - sprzęt można nawet zbudować samemu!
PLNOG18
13. OCP - software
• Kompatybilność z hardware zapewniona jest przez
uniwersalną warstwę abstrakcji, projektant NOS (Network
Operating System) nie musi martwić się o kompatybilność
z konkretną platformą sprzętową
• ONIE (Open Network Install Environment) pozwala na
wygodną instalację różnych NOS - odpowiednik Grub
• W zależności od wymaganej funkcjonalności możemy
wybrać najlepszy NOS, a także zmienić go w dowolnym
momencie na inny bez wymiany bazy sprzętowej
• OcNOS, Cumulus, BigSwitch, Pica8 etc.
PLNOG18
14. Co wybrał LINX
• Po dogłębnej analizie dostępnych opcji, zdecydowaliśmy
się na współpracę z dwoma partnerami:
– EdgeCore
– IP Infusion
• EdgeCore dostarczy nam switche 10/40/100G bazujące na
chipsecie Broadcom (5812 i 7712)
• IP Infusion zapewnia warstwę programową ze swoim
OcNOS i wsparciem dla EVPN
• Obydwaj partnerzy są obecni na rynku od wielu lat i mają
bardzo dużo doświadczenia
PLNOG18
15. Architektura
• Zamiast dużych monolitycznych chassis, zdecydowaliśmy
się na bardziej skalowalną architekturę typu "leaf and
spine" popularną w dużych DC
• Szkielet oparty na 6x 100G, linki leaf to spine w zależności
od potrzeb Nx 40G albo Nx 100G
• Transmisję w szkielecie zapewni nam platforma optyczna
Ciena Waveserver (data center interconnect) z transmisją
koherentną (16QAM - 200G per lambda)
PLNOG18
16. VxLAN EVPN
• EVPN - dedykowane rozwiązanie dla sieci L2
– ARP-proxy na brzegu (+statyczne MAC) i rozgłaszanie adresów
MAC w control plane, zamiast klasycznego flood-and-learn
– Multi-homing typu active/active
– Działa z różnymi technologiami data-plane min. VxLAN, MPLS
• Ze względu na ograniczenia w obsłudze MPLS przez
aktualnie dostępne chipsety Broadcom zdecydowaliśmy się
na VxLAN - wadą jest mniejsza kontrola nad TE, zaletą
uproszczony stos protokołów w sieci
PLNOG18
17. Automatyzacja
• W 2017 nikt nie powinien logować się na urządzenia w celu
zmiany konfiguracji
• 75% awarii to błędy operatora - u nas dwa przypadki w
ciągu ostatnich 12 miesięcy
• Konfiguracja generowana automatycznie na bazie
abstrakcyjnego modelu sieci - wszelkie zmiany
bezpośrednio w CLI będą nadpisane przez system
• Konfiguracja portów brzegowych poprzez user portal
• Oszczędność czasu (i pieniędzy) oraz minimalizacja awarii
PLNOG18
18. Oszczędności
• Typowy open switch 32x100G to $10,000 w list price
• Licencja na NOS to koszt rzędu $1,000-2,000
(w zależności od wspieranej funkcjonalności)
• Co możesz kupić u swojego vendora za $10,000? ;)
• Polecam blog arpaware.com - ciekawe porównanie cen
• Nowa platforma pozwoli nam obniżyć ceny portów o 40%
• Port 10G - £424, port 100G - £2,679 (13 groszy za Mbps)
• Przy tych cenach switchy, główny koszt budowy sieci IXP
w skali metro to transmisja optyczna i wkładki 100G!
PLNOG18
19. Wyzwania
• Jesteśmy pierwszym IXP, który zdecydował się na
adaptację open networking w takiej skali
• Kwestia wsparcia MPLS w merchant silicon
• Wydajność bez optymalizacji NOS pod konkretny chipset
niestety czasami rozczarowuje
• Mała dywersyfikacja dostępnych komponentów - Broadcom
dominuje (jak na razie) rynek
• Potencjalny problem ze wsparciem i rozwiązywaniem
problemów w modelu dysagregacji (certyfikacja)
PLNOG18
20. Timeline
• Finalna wersja OcNOS z EVPN - kwiecień
• Proof of Concept testing w labie EdgeCore - maj
• Budowa nowej sieci (wykorzystujemy te same włókna i
alien wavelengths na potrzeby nowego szkieletu) -
czerwiec - sierpień
• Oddanie do użytku i przełączenie użytkowników LON2
przed końcem trzeciego kwartału
• Co dalej?
PLNOG18
22. Slajd zapasowy numer 1
• Broadcom i Brocade - jak to wpłynie na sytuację na rynku
open networking?
– Avago kupuje Broadcom
– Nowa połączona firma przejmuje Brocade
• Barefoot i P4
– drugie podejście do OpenFlow i bardzo interesująca propozycja
prawdziwie programowalnej sieci
– kolejne oszczędności związane z optymalizacją warstwy
programowej
PLNOG18
23. Slajd zapasowy numer 2
• Inne IXP, które testują bądź wdrażają architekturę open
networking:
• IX Leeds https://ixleeds.net
– Cumulus na switchach Quanta i EdgeCore
– pojedyńczy POP
• SOX (Serbian Open Exchange) http://www.sox.rs/en/
– Pica8 na EdgeCore
– większa sieć oparta na spanning tree
PLNOG18