Sivuston luotettavuustekniikka - kurssi 65 000 hieroa. Slurmilta, koulutus, päivämäärä 1.1.2024.
Miscellanea / / November 29, 2023
IHMISILLE
SRE-insinööri voi olla joko käyttöinsinööri tai kehittäjä. Intensiivikurssilla harjoittelet paljon ja saadut taidot ja tiedot ovat sopeutettavat ja toteutettavissa millä tahansa alalla.
LIIKETOIMINTA
SRE ratkaisee samat ongelmat kuin DevOps: se nopeuttaa uusien ominaisuuksien julkaisemista ja parantaa tiimin prosesseja. Mutta SRE: n päätehtävänä on varmistaa palveluiden vakaus ja luotettavuus, pois lukien tilanteet, joissa käyttäjät valittavat vioista ja insinööreillä on vihreät aikataulut.
Rakennamme:
Koulutussivustomme koostuu useista mikropalveluista. Se yhdistää tiedot esityksistä, hinnoista ja saatavilla olevista paikoista kaikista elokuvateattereista, näyttää elokuvatiedotteita, voit valita elokuvateatterin, esityksen, salin ja paikan, varata ja maksaa liput.
Muotoilemme tälle sivustolle SLO-, SLI-, SLA-indikaattorit, kehitämme niitä tukevan arkkitehtuurin ja infrastruktuurin, asetamme valvonnan ja hälytyksen.
Kehittäjävirheet, infrastruktuurihäiriöt, vierailijoiden virta ja DoS-hyökkäykset johtavat SLO: iden pahenemiseen.
Analysoimme vakautta, virhebudjettia, testauskäytäntöjä, keskeytysten hallintaa ja käyttökuormitusta.
Tapahtui onnettomuus. Maksunkäsittelypalvelu on poissa käytöstä. Kuinka toimia toiminnan palauttamiseksi mahdollisimman lyhyessä ajassa?
Järjestämme hätätyöryhmän työtä: kollegoiden mukaan ottaminen, sidosryhmien ilmoittaminen, prioriteettien asettaminen. Koulutamme työskentelemään paineen alla erittäin rajoitetuissa olosuhteissa.
Katsotaanpa sivuston lähestymistapaa SRE: n näkökulmasta. Analysoimme tapauksia (tapahtumien syyt, eliminoinnin edistyminen). Teemme päätöksiä estääksemme niitä edelleen: parannamme seurantaa, muutamme arkkitehtuuria, lähestymistapaa kehitykseen ja toimintaan sekä määräyksiä. Automatisoimme prosesseja.
— Meillä on kymmeniä rakennettuja infrastruktuureja ja satoja kirjoitettuja CI/CD-putkia,
— Sertifioitu Kubernetes-järjestelmänvalvoja,
— useiden Kubernetes- ja DevOps-kurssien kirjoittaja,
— Säännöllinen puhuja venäläisissä ja kansainvälisissä IT-konferensseissa.
PÄIVÄ 1: AMA: n aloitusistunto
Keskustelemme kurssin tavoitteista ja tavoitteista, kerromme myös mitä SRE on ja jaamme sen tiimeihin.
Kahden teoreettisen aiheen avaus:
Aihe 1: Valvonta
- Miksi seurantaa tarvitaan?
- Persentiilit
- Varoittaa
- Havaittavuus
Aihe 2: SRE-teoria
- SLO, SLI, SLA
- Kestävyys
- Virhe budjetti
PÄIVÄ 2: käytäntöjen ja tapausten analysointi
Harjoitella: Peruskojelaudan tekeminen ja tarvittavien hälytysten asettaminen
Harjoitella: SLO/SLI + -hälytysten lisääminen kojelautaan
Harjoitella: Ensimmäinen järjestelmän lataus
Tapauksen 1 ratkaisu: loppupään riippuvuus.
Suuressa järjestelmässä on monia toisistaan riippuvaisia palveluita, eivätkä ne aina toimi yhtä hyvin. Se on erityisen ärsyttävää, kun palvelusi on kunnossa, mutta naapuri, josta olet riippuvainen, menee ajoittain alas.
Koulutusprojekti löytää itsensä juuri tällaisissa olosuhteissa ja varmistat, että se tuottaa edelleen laatua korkeimmalla mahdollisella tasolla.
PÄIVÄ 3: AMA-istunto, kysymyksiin vastattu
Pääsy 2. teoreettiseen moduuliin avautuu:
Ympäristö- ja arkkitehtuuriongelmien ratkaiseminen
Toinen moduuli on rakennettu kahden tapauksen ratkaisemisen ympärille: alkupään riippuvuus ja arkkitehtoniset ongelmat. Puhujat puhuvat tapausten hallinnasta, palokunnan säännöistä ja työskentelystä post mortemien kanssa sekä tarjoavat malleja, joita voit käyttää tiimissäsi.
Aihe 3: Tapahtumahallinta
- Resilience Engineering
- Kuinka palokunta muodostuu
- Kuinka tehokas tiimisi on tapahtumassa?
- 7 sääntöä tapahtuman johtajalle
- 5 sääntöä palomiehelle
- HiPPO - eniten palkatun henkilön mielipide. Viestintäjohtaja
TTeema 4: Varrum-työkalut ja hälytysten hallinta.
Muiden yritysten paras käytäntö tapahtumahallinnan järjestämisessä.
PÄIVÄ 4: käytäntöjen ja tapausten analysointi
Ratkaisu tapaukseen 2: ylävirran riippuvuus.
Se on yksi asia, kun olet riippuvainen palvelusta, jolla on alhainen SLO. Se on toinen asia, jos palvelusi on sama järjestelmän muissa osissa. Näin tapahtuu, jos arviointikriteerit eivät ole johdonmukaisia: esimerkiksi vastaat pyyntöön sekunnissa ja pidät sitä onnistuneena, mutta riippuvainen palvelu odottaa vain 500 Moskovan aikaa ja lähtee virheellä.
Tapauksessa pohditaan mittareiden harmonisoinnin tärkeyttä ja opitaan katsomaan laatua asiakkaan silmin.
Ratkaisu tapaukseen 3: ongelmat tietokannassa.
Tietokanta voi myös aiheuttaa ongelmia. Jos et esimerkiksi valvo replikaation välitystä, replika vanhenee ja sovellus palauttaa vanhat tiedot. Lisäksi tällaisten tapausten virheenkorjaus on erityisen vaikeaa: nyt tiedot ovat epäjohdonmukaisia, mutta muutaman sekunnin kuluttua ne eivät ole enää johdonmukaisia, eikä ole selvää, mikä ongelman syy on.
Tapauksen kautta tunnet kaiken virheenkorjauksen aiheuttaman kivun ja opit estämään tällaiset ongelmat.
Harjoitella: Kirjoitamme post mortemin edellisestä tapauksesta ja keskustelemme siitä puhujien kanssa.
PÄIVÄ 5: AMA-istunto, kysymyksiin vastattu
AMA-istunto ja vastauksia aiempia aiheita koskeviin kysymyksiin.
Pääsy 3. teoreettiseen moduuliin avautuu:
Liikenteen suojaus ja kanarianvapautukset
Kolmannessa moduulissa analysoimme tapausta, joka on omistettu ympäristöongelmalle (Terveys on yksityiskohtainen analyysi Tarkastus), ja analysoimme myös vaiheittain, kuinka SRE otetaan käyttöön yrityksissä ja opimme kokemuksia niistä yrityksistä, joissa puhujat työskentelevät. intensiivinen
Aihe 5: Terveystarkastus
- Terveystarkastus Kubernetesissa
- Onko palvelumme vielä elossa?
- Exec koettimet
- InitialDelaySeconds
- Toissijainen terveysportti
- Sivuvaunun terveyspalvelin
- Päätön anturi
- Hardware Probe
Aihe 6: Käyttöönottotavat
Aihe 7: SRE-projektiin perehtyminen
Suuret yritykset muodostavat usein erillisen SRE-tiimin, joka ottaa tukeakseen muiden osastojen palvelut. Mutta kaikki palvelut eivät ole valmiita ottamaan vastaan tukea. Kerromme sinulle, mitä vaatimuksia sen tulee täyttää. Puhujat kertovat myös kokemuksistaan, kuinka he toteuttivat SRE: n ja mitä virheitä he tekivät.
PÄIVÄ 6: käytäntöjen ja tapausten analysointi
Ratkaisu tapaukseen 4: ympäristössä on ongelma, lippujen ostaminen on mahdotonta.
Healthcheckin tehtävänä on havaita rikkinäinen palvelu ja estää liikenne siihen. Ja jos luulet, että tätä varten riittää, että teet pyynnön palvelulle juurilla ja saat vastauksen, niin sinä olet väärässä: vaikka palvelu vastaisi, tämä ei takaa sen toimintaa - ongelmia voi ilmetä ympäristö.
Tämän tapauksen avulla opit määrittämään oikean Healthcheckin etkä päästä liikennettä sinne, missä sitä ei voida käsitellä.
Yhteenveto