Adatvezeték

Az adatvezeték adatfeldolgozási lépések sorozata. Ha az adatok jelenleg nincsenek betöltve az adatplatformba, akkor a csővezeték elején történik az adatbevitel. Ezután lépések sorozata következik, amelyben minden egyes lépés olyan kimenetet szolgáltat, amely a következő lépés bemenete. Ez addig folytatódik, amíg a csővezeték be nem fejeződik. Bizonyos esetekben független lépések párhuzamosan is futtathatók.

Az adatvezetékek három fő elemből állnak: egy forrásból, egy vagy több feldolgozási lépésből és egy célállomásból. Bizonyos adatvezetékekben a célállomás nevezhető elnyelőnek is. Az adatvezetékek lehetővé teszik az adatok áramlását például egy alkalmazásból egy adattárházba, egy adattóból egy analitikai adatbázisba vagy egy fizetési feldolgozó rendszerbe. Az adatcsatornáknak lehet azonos forrása és nyelője is, így a csővezeték pusztán az adathalmaz módosítására szolgál. Bármikor, amikor az A és a B pont (vagy a B, C és D pont) között adatfeldolgozás történik, e pontok között adatvezeték van.

Mivel a szervezetek kis kódbázisú, nagyon speciális célt szolgáló alkalmazásokat kívánnak létrehozni (az ilyen típusú alkalmazásokat “mikroszolgáltatásoknak” nevezik), egyre több alkalmazás között mozgatják az adatokat, így az adatvezetékek hatékonysága kritikus szempont a tervezés és fejlesztés során. Az egy forrásrendszerben vagy alkalmazásban generált adatok több adatvezetéket is táplálhatnak, és ezeknek a vezetékeknek több más vezeték vagy alkalmazás is függhet a kimenetüktől.

Gondoljunk csak egyetlen kommentre a közösségi médiában. Ez az esemény adatokat generálhat egy valós idejű, a közösségi média említéseit számoló jelentés, egy pozitív, negatív vagy semleges eredményt kiadó hangulatelemző alkalmazás, vagy egy olyan alkalmazás táplálására, amely az egyes említéseket egy világtérképen ábrázolja. Bár az adatok minden esetben ugyanabból a forrásból származnak, ezek az alkalmazások mindegyike egyedi adatvezetékekre épül, amelyeket zökkenőmentesen kell befejezni, mielőtt a végfelhasználó látja az eredményt.

Az adatvezetékek általános lépései közé tartozik az adatok átalakítása, bővítése, dúsítása, szűrése, csoportosítása, összesítése és az algoritmusok futtatása az adatokon.

Mi a nagy adatvezeték?

Mivel az adatok mennyisége, változatossága és sebessége drámaian megnőtt az elmúlt években, az építészeknek és a fejlesztőknek alkalmazkodniuk kellett a “nagy adatokhoz”. A “nagy adat” kifejezés azt sugallja, hogy hatalmas mennyiséggel kell foglalkozni. Ez az adatmennyiség olyan felhasználási esetek számára nyithat lehetőségeket, mint például a prediktív analitika, a valós idejű jelentéskészítés és a riasztás, sok más példa mellett.

Az adatarchitektúra számos összetevőjéhez hasonlóan az adatvezetékek is a nagy adatok támogatására fejlődtek. A big data pipelines olyan adatvezetékek, amelyek a big data három jellemzőjének egy vagy több tulajdonságának befogadására épülnek. A nagy adatok sebessége vonzóvá teszi a nagy adatokhoz áramló adatvezetékek építését. Ekkor az adatok valós időben rögzíthetők és feldolgozhatók, hogy aztán valamilyen cselekvésre kerülhessen sor. A nagy adatok mennyisége megköveteli, hogy az adatvezetékeknek skálázhatónak kell lenniük, mivel a mennyiség idővel változhat. A gyakorlatban valószínűleg sok olyan big data esemény lesz, amely egyszerre vagy nagyon közel egymáshoz történik, ezért a big data csővezetéknek képesnek kell lennie a jelentős mennyiségű adat egyidejű feldolgozására. A big data változatossága megköveteli, hogy a big data pipeline-ok képesek legyenek felismerni és feldolgozni a sok különböző formátumú adatot – strukturált, strukturálatlan és félig strukturált.

Adatvezeték vs. ETL

Az ETL az adatvezeték egy speciális típusára utal. Az ETL az “extract, transform, load” (kivonás, átalakítás, betöltés) rövidítése. Ez az a folyamat, amelynek során az adatokat egy forrásból, például egy alkalmazásból, egy célba, általában egy adattárházba mozgatjuk. Az “extrakció” az adatok forrásból történő kinyerésére utal; a “transzformáció” az adatok módosítását jelenti, hogy azok betölthetők legyenek a célállomásba, a “betöltés” pedig az adatok célállomásra történő beillesztését jelenti.

Az ETL-t hagyományosan kötegelt munkamenetekhez használták, különösen nagy léptékben. De a streaming ETL-eszközök új fajtája a valós idejű streaming eseményadatok csővezetékének részeként jelenik meg.

Adatcsővezetékkel kapcsolatos megfontolások

Az adatcsővezeték architektúrák számos megfontolást igényelnek. Például, szükség van-e a csővezetéknek streaming adatok kezelésére? Milyen adatátviteli sebességre számít? Mennyi és milyen típusú feldolgozásra van szükség az adatvezetékben? Az adatokat a felhőben vagy helyben generálják, és hová kell eljuttatni őket? Tervezi, hogy a csővezetéket mikroszolgáltatásokkal építi fel? Vannak olyan konkrét technológiák, amelyekben a csapata már jártas a programozásban és a karbantartásban?

Építészeti példák

Az adatvezetékeket többféleképpen lehet architektúrázni. Az egyik gyakori példa a kötegelt adatcsővezeték. Ebben a példában lehet egy olyan alkalmazás, például egy értékesítési pontrendszer, amely nagyszámú adatpontot generál, amelyeket egy adattárházba és egy analitikai adatbázisba kell továbbítani. Íme egy példa arra, hogy ez hogyan nézhet ki:

Adatvezeték-példa
Az adatvezeték alapvető példája.

Egy másik példa a streaming adatvezeték. Egy streaming adatcsővezetékben az értékesítési pontrendszerből származó adatokat a keletkezésükkor feldolgoznák. Az adatfolyam-feldolgozó motor a csővezeték kimeneteit többek között adattárolókba, marketingalkalmazásokba és CRM-ekbe, valamint vissza magába az értékesítési pontrendszerbe táplálhatná.

Áramló adatvezeték diagram
Ez az ábra egy áramló adatvezetéket modellez. Az adatfolyamot az adatfolyam-feldolgozó keretrendszer kezeli, ahol feldolgozható és továbbítható az alkalmazások és/vagy megoldások számára.

A harmadik példa az adatvezetékre a Lambda-architektúra, amely a kötegelt és az adatfolyam-csatornákat egyetlen architektúrában egyesíti. A Lambda-architektúra azért népszerű a nagy adatkörnyezetekben, mert lehetővé teszi a fejlesztők számára, hogy mind a valós idejű streaming felhasználási eseteket, mind a historikus kötegelt elemzést figyelembe vegyék. Ennek az architektúrának az egyik legfontosabb szempontja, hogy ösztönzi az adatok nyers formátumban történő tárolását, így folyamatosan új adatvezetékeket futtathat a korábbi vezetékek esetleges kódhibáinak kijavítására, vagy olyan új adatcélok létrehozására, amelyek új típusú lekérdezéseket tesznek lehetővé.

Lambda-architektúra diagram
A Lambda-architektúra egyaránt figyelembe veszi a hagyományos kötegelt adatvezetéket és a valós idejű adatfolyamvezetéket. Emellett rendelkezik egy kiszolgáló réteggel is, amely válaszol a lekérdezésekre.

Kapcsolódó témakörök

Streaming ETL

Lambda architektúra

Stream Processing

Szólj hozzá!