• uutisbanneri

Palvelu

Spark Streaming -tietojen puhdistusmekanismi
(I) DStream ja RDD
Kuten tiedämme, Spark Streamingin laskenta perustuu Spark Coreen ja Spark Coren ydin on RDD, joten Spark Streamingin täytyy liittyä myös RDD:hen.Spark Streaming ei kuitenkaan anna käyttäjien käyttää RDD:tä suoraan, vaan tiivistää joukon DStream-käsitteitä, DStream ja RDD ovat inklusiivisia suhteita, voit ymmärtää sen Javassa koristekuviona, eli DStream on RDD:n parannus, mutta käyttäytyminen on samanlaista kuin RDD.
DStreamilla ja RDD:llä on useita ehtoja.
(1) sisältää samankaltaisia ​​muunnostoimintoja, kuten kartta, reductionByKey jne., mutta myös joitain ainutlaatuisia, kuten Window, mapWithStated jne.
(2) kaikissa on Action-toiminnot, kuten foreachRDD, count jne.
Ohjelmointimalli on johdonmukainen.
(B) DStreamin käyttöönotto Spark Streamingissa
DStream sisältää useita luokkia.
(1) Tietolähdeluokat, kuten InputDStream, kuten DirectKafkaInputStream jne.
(2) Muunnosluokat, tyypillisesti MappedDStream, ShuffledDStream
(3) lähtöluokat, tyypillisesti kuten ForEachDStream
Yllä olevasta datan alusta (syöte) loppuun (tulostus) tekee DStream-järjestelmä, mikä tarkoittaa, että käyttäjä ei normaalisti voi suoraan luoda ja käsitellä RDD-tiedostoja, mikä tarkoittaa, että DStreamilla on mahdollisuus ja velvollisuus olla vastuussa RDD:n elinkaaresta.
Toisin sanoen Spark Streamingilla onautomaattinen puhdistustoiminto.
(iii) RDD:n luontiprosessi Spark Streamingissa
RDD:n elämänkulku Spark Streamingissa on karkea seuraavasti.
(1) InputDStreamissa vastaanotetut tiedot muunnetaan RDD:ksi, kuten DirectKafkaInputStream, joka luo KafkaRDD:n.
(2) sitten MappedDStreamin ja muun tiedon muuntamisen kautta tätä aikaa kutsutaan suoraan RDD:ksi, joka vastaa muuntamisen karttamenetelmää
(3) Lähtöluokkatoiminnossa voit antaa käyttäjän suorittaa vastaavat tallennus-, muut laskelmat ja muut toiminnot vain, kun RDD on esillä.