Wat is een datameer? Definitie, voordelen, architectuur en best practices

Heb je een sessie op de Data Summit gemist? Bekijk hier on-demand.

Inhoudsopgave

Wat is een datameer?

Een datameer wordt gedefinieerd als een gecentraliseerde en schaalbare opslagplaats die grote hoeveelheden ruwe big data uit meerdere bronnen en systemen in zijn oorspronkelijke formaat bevat.

Om te begrijpen wat een datameer is, moet u een datameer beschouwen als een echt meer, waar het water bestaat uit onbewerkte gegevens die vanuit meerdere bronnen van gegevensverzameling binnenstromen en vervolgens naar buiten kunnen stromen om te worden gebruikt voor een reeks interne en klantgerichte doeleinden . Dit is veel breder dan een datawarehouse, dat meer op een huishoudelijke tank zou lijken, een die schoon water opslaat (gestructureerde gegevens), maar alleen voor gebruik van één bepaald huis en niet iets anders.

Data lakes kunnen worden uitgevoerd met behulp van in-house gebouwde tools of software en services van externe leveranciers. Volgens Markets and Markets zal de wereldwijde markt voor data lake-software en -diensten naar verwachting groeien van $ 7,9 miljard in 2019 tot $ 20,1 miljard in 2024. Een aantal leveranciers zal naar verwachting deze groei stimuleren, waaronder Databricks, AWS, Dremio, Qubole en MongoDB . Veel organisaties zijn zelfs begonnen met het aanbieden van het zogenaamde lakehouse-aanbod, waarbij de voordelen van zowel datameren als magazijnen worden gecombineerd via één enkel product.

Datameren werken met het concept van eerst laden en later gebruiken, wat betekent dat de gegevens die in de repository zijn opgeslagen niet per se onmiddellijk voor een specifiek doel hoeven te worden gebruikt. Het kan worden gedumpt zoals het is en in een later stadium samen (of in delen) worden gebruikt als er zakelijke behoeften ontstaan. Deze flexibiliteit, gecombineerd met de enorme verscheidenheid en hoeveelheid opgeslagen gegevens, maakt datameren ideaal voor data-experimenten, machine learning en geavanceerde analysetoepassingen binnen een onderneming.

Data lake versus datawarehouse

In tegenstelling tot datawarehouses, waarin alleen verwerkte gestructureerde gegevens (geordend in rijen en kolommen) worden opgeslagen voor sommige vooraf gedefinieerde business intelligence-/rapportagetoepassingen, bieden datameren de mogelijkheid om alles onbeperkt op te slaan. Dit kunnen gestructureerde gegevens zijn, semi-gestructureerde gegevens of zelfs ongestructureerde gegevens zoals afbeeldingen (.jpg) en video’s (.mp4).

Belangrijkste voordelen en uitdagingen

Voordelen van data lake voor ondernemingen

Uitgebreide data-types voor opslag: aangezien data lakes de mogelijkheid bieden om alle data-types op te slaan, inclusief die welke essentieel zijn voor het uitvoeren van geavanceerde vormen van analyse, kunnen organisaties deze gebruiken om kansen en bruikbare inzichten te identificeren die kunnen helpen bij het verbeteren van de operationele efficiëntie, het verhogen van de omzet, geld besparen en risico’s verminderen. Inkomstengroei door uitgebreide data-analyse: volgens een onderzoek in Aberdeen presteerden organisaties die een datameer implementeerden met 9% beter dan vergelijkbare bedrijven in termen van organische omzetgroei. Deze bedrijven waren in staat om nieuwe soorten analyses uit te voeren op voorheen ongebruikte gegevens – logbestanden, gegevens van klikstreams, sociale media en op internet aangesloten apparaten – die zijn opgeslagen in het datameer. Uniforme gegevens uit silo’s: datameren kunnen ook informatie centraliseren van ongelijksoortige afdelingssilo’s, mainframes en legacy-systemen, waardoor hun individuele capaciteit wordt ontlast, problemen zoals gegevensduplicatie worden voorkomen en de gebruikers een 360-gradenbeeld krijgen. Tegelijkertijd houden ze de kosten van het opslaan van gegevens voor toekomstig gebruik aan de lage kant. Verbeterde gegevensvastlegging, inclusief IoT: een organisatie kan een datameer implementeren om gegevens uit meerdere bronnen op te nemen, waaronder sensoren voor IoT-apparatuur in fabrieken en magazijnen. Deze bronnen kunnen intern en/of klantgericht zijn voor een datameer van uniforme gegevens. Klantgerichte gegevens helpen marketing-, verkoop- en accountbeheerteams om omnichannel-campagnes te orkestreren met behulp van de meest bijgewerkte en uniforme informatie die beschikbaar is voor elke klant, terwijl interne gegevens worden gebruikt voor holistische strategieën voor personeels- en financieel beheer.

Uitdagingen van een datameer

In de loop der jaren hebben cloud data lake en warehousing-architecturen ondernemingen geholpen om hun inspanningen op het gebied van databeheer op te schalen en tegelijkertijd de kosten te verlagen. De huidige opzet kent echter enkele uitdagingen, zoals:

Gebrek aan consistentie met magazijnen: bedrijven vinden het vaak moeilijk om hun data lake en datawarehouse-architectuur consistent te houden. Het is niet alleen een kostbare aangelegenheid, maar teams moeten ook continue data-engineeringtactieken toepassen op ETL/ELT-gegevens tussen de twee systemen. Elke stap kan fouten en ongewenste bugs introduceren die de algehele gegevenskwaliteit beïnvloeden. Leveranciersvergrendeling: het verplaatsen van grote hoeveelheden gegevens naar een gecentraliseerde EDW wordt een behoorlijke uitdaging voor bedrijven, niet alleen vanwege de tijd en middelen die nodig zijn om een ​​dergelijke taak uit te voeren, maar ook omdat deze architectuur zorgt voor een gesloten lus, waardoor leveranciers worden vastgehouden. Gegevensbeheer: hoewel de gegevens in het datameer meestal in verschillende bestandsgebaseerde formaten zijn, is een datawarehouse meestal in databaseformaat, en het draagt ​​bij aan de complexiteit in termen van gegevensbeheer en afstammingsbeheer tussen de twee opslagtypes. Gegevenskopieën en bijbehorende kosten: Gegevens die beschikbaar zijn in datameren en datawarehouses leiden tot een mate van gegevenskopieën en hebben bijbehorende kosten. Bovendien verhogen commerciële magazijngegevens in propriëtaire formaten de kosten van het migreren van gegevens. Een data lake-huis lost deze typische beperkingen van een data lake, evenals datawarehouse-architectuur, op door de beste elementen van zowel datawarehouses als datameren te combineren om organisaties een aanzienlijke waarde te bieden.0

Architectuur van een datameer: ​​5 belangrijke componenten

Datameren gebruiken een platte architectuur en kunnen vele lagen hebben, afhankelijk van technische en zakelijke vereisten. Geen twee datameren zijn precies hetzelfde gebouwd. Er zijn echter enkele belangrijke zones waar de algemene gegevensstromen doorheen gaan: opnamezone, landingszone, verwerkingszone, verfijnde gegevenszone en verbruikszone.

1. Gegevensopname

Dit onderdeel verbindt, zoals de naam al doet vermoeden, een datameer met externe relationele en niet-relationele bronnen – zoals sociale mediaplatforms en draagbare apparaten – en laadt ruwe gestructureerde, semi-gestructureerde en ongestructureerde gegevens in het platform. Opname wordt in batches of in realtime uitgevoerd, maar er moet worden opgemerkt dat een gebruiker mogelijk verschillende technologieën nodig heeft om verschillende soorten gegevens op te nemen.

Momenteel bieden alle grote cloudopslagproviders oplossingen voor gegevensopname met lage latentie. Dit omvat Amazon S3, Amazon Glue, Amazon Kinesis, Amazon Athena, Google Dataflow, Google BigQuery, Azure Data Factory, Azure Databricks en Azure Functions.

2. Gegevenslanding

Zodra de opname is voltooid, worden alle gegevens ongewijzigd opgeslagen met metadatatags en unieke identificatiegegevens in de landingszone. Volgens Gartner is dit tegenwoordig meestal de grootste zone in een datameer (in termen van volume) en dient het als een altijd beschikbare opslagplaats van gedetailleerde brongegevens, die indien en wanneer kunnen worden gebruikt/hergebruikt voor analytische en operationele use-cases de behoefte ontstaat. De aanwezigheid van onbewerkte brongegevens maakt deze zone ook tot een eerste speelplaats voor datawetenschappers en analisten, die experimenteren om het doel van de gegevens te definiëren.

3. Gegevensverwerking

Wanneer het doel of de doelen van de gegevens bekend zijn, gaan de kopieën van de landingsfase naar de verwerkingsfase, waar de verfijning, optimalisatie, aggregatie en kwaliteitsstandaardisatie plaatsvindt door een aantal schema’s op te leggen. Deze zone maakt de data-analyse geschikt voor verschillende zakelijke use-cases en rapportagebehoeften.

Met name gegevenskopieën worden naar deze fase verplaatst om ervoor te zorgen dat de oorspronkelijke aankomststatus van de gegevens in de landingszone wordt bewaard voor toekomstig gebruik. Als er zich bijvoorbeeld nieuwe zakelijke vragen of gebruiksscenario’s voordoen, kunnen de brongegevens op verschillende manieren worden verkend en hergebruikt, zonder de vooringenomenheid van eerdere optimalisaties.

4. Verfijnde gegevenszone

Wanneer de gegevens worden verwerkt, gaat het naar de verfijnde datazone, waar datawetenschappers en analisten hun eigen datawetenschap en staging-zones opzetten om te dienen als sandboxen voor specifieke analytische projecten. Hier controleren ze de verwerking van de gegevens om onbewerkte gegevens opnieuw te gebruiken in structuren en kwaliteitstoestanden die analyse of feature-engineering mogelijk zouden kunnen maken.

5. Verbruikszone

De verbruikszone is de laatste fase van de algemene gegevensstroom binnen een datameerarchitectuur. In deze laag worden de resultaten en zakelijke inzichten van analytische projecten beschikbaar gesteld aan de beoogde gebruikers, of het nu een technische beslisser of een bedrijfsanalist is, via de analytische verbruikstools en SQL- en niet-SQL-querymogelijkheden.

Top 6 best practices voor een effectief en beveiligd datameer in 2022

1. Identificeer datadoelen

Om te voorkomen dat uw data lake een datameer wordt, is het raadzaam om de datadoelen van uw organisatie – de bedrijfsresultaten – te identificeren en een interne of externe datacurator aan te stellen die nieuwe bronnen/datasets kan beoordelen en bepalen wat er in het datameer terechtkomt op basis van dat doel. Duidelijkheid over het soort gegevens dat moet worden verzameld, kan een organisatie helpen het probleem van gegevensredundantie te omzeilen, wat vaak de analyse vertekent.

2. Document inkomende gegevens

Alle binnenkomende gegevens moeten worden gedocumenteerd wanneer ze in het meer worden opgenomen. De documentatie neemt meestal de vorm aan van technische metadata en zakelijke metadata, hoewel er ook nieuwe vormen van documentatie in opkomst zijn. Zonder de juiste documentatie verslechtert een datameer in een datamoeras dat moeilijk te gebruiken, te besturen, te optimaliseren en te vertrouwen is. Gebruikers kunnen de vereiste gegevens niet ontdekken.

3. Zorg voor een snelle opnametijd

Het innameproces moet zo snel mogelijk verlopen. Het elimineren van eerdere gegevensverbeteringen en -transformaties verhoogt de opnamesnelheid, net als het toepassen van nieuwe methoden voor gegevensintegratie voor pipelining en orkestratie. Dit zou helpen om de gegevens zo snel mogelijk beschikbaar te maken nadat gegevens zijn gemaakt of bijgewerkt, zodat sommige vormen van rapportage en analyse erop kunnen worden toegepast.

4. Verwerk gegevens met mate

Het belangrijkste doel van een datameer is om gedetailleerde brongegevens te leveren voor gegevensverkenning, -ontdekking en -analyse. Als een onderneming de opgenomen gegevens met zware aggregatie, standaardisatie en transformatie verwerkt, zullen veel van de details die met de originele gegevens zijn vastgelegd, verloren gaan, waardoor het hele doel van het datameer teniet wordt gedaan. Een onderneming moet er dus voor zorgen dat de herstelmaatregelen voor gegevenskwaliteit met mate worden toegepast tijdens de verwerking.

5. Focus op subzones

Individuele datazones in het meer kunnen worden georganiseerd door interne subzones te creëren. Een landingszone kan bijvoorbeeld twee of meer subzones hebben, afhankelijk van de gegevensbron (batch/streaming). Evenzo kan de datawetenschapszone onder de verfijnde datasets-laag subzones bevatten voor analyse-sandboxen, datalaboratoria, testdatasets, leerdata en training, terwijl de staging-zone voor datawarehousing subzones kan hebben die verwijzen naar datastructuren of onderwerpgebieden in de doeldata. magazijn (bijv. dimensies, statistieken en rijen voor rapportagetabellen, enzovoort).

6. Geef prioriteit aan gegevensbeveiliging

Beveiliging moet worden gehandhaafd in alle zones van het datameer, vanaf de landing tot aan het verbruik. Neem hiervoor contact op met uw leveranciers en kijk wat ze doen op deze vier gebieden: gebruikersauthenticatie, gebruikersautorisatie, data-in-motion-codering en data-at-rest-codering. Met deze elementen kan een onderneming haar data lake actief en veilig beheren, zonder het risico van externe of interne lekken (door verkeerd geconfigureerde machtigingen en andere factoren).

De missie van VentureBeat is om een ​​digitaal stadsplein te zijn voor technische besluitvormers om kennis op te doen over transformatieve bedrijfstechnologie en transacties. Leer meer

This post Wat is een datameer? Definitie, voordelen, architectuur en best practices
was original published at “https://venturebeat.com/2022/03/10/what-is-a-data-lake-definition-benefits-architecture-and-best-practices/”