Zo helpt Dell ClarityNow je ongestructureerde data in kaart te brengen

90% van al onze data is in de afgelopen twee jaar gegenereerd. De opkomst van het Internet of Things (IoT) heeft de hoeveelheid data flink doen toenemen. Het IDC voorspelt dat er in 2024 maar liefst 163 zettabyte aan informatie zal zijn, waarvan een groot deel unstructured data is: losse files waarbij het aan heldere indeling, structuur, overzicht en inzicht ontbreekt. Bedrijven kunnen er niet meer omheen: het is tijd voor een schoonmaak, maar rapportages maken over unstructured data is lastig. Het zorgt vaak voor meer vragen dan antwoorden: ‘Wat is duplicaat? Hoe oud is mijn data? Hoe relevant is het? En wat kost het nou eigenlijk?’. Met ClarityNow is dat verleden tijd. We leggen uit hoe deze nieuwe tool jouw organisatie verder kan helpen.

In augustus 2018 heeft Dell Technologies Data Frameworks toegevoegd aan de familie. Data Frameworks is in februari 2009 door Paul Honrud opgericht en in de afgelopen jaren uitgegroeid tot een grote speler op het gebied van datamanagement. Met ClarityNow speelt Data Frameworks direct in op een van de grootste uitdagingen in de markt: de explosieve toename van unstructured data. Dit zijn de drie grootste uitdagingen waar Clarity Now op inspeelt:

1. Data Silo’s

Door de komst van het IoT genereren steeds meer oplossingen data waardoor wildgroei ontstaat. Te vaak worden onder druk van de ‘business’ overhaaste keuzes gemaakt om deze explosieve groei te faciliteren, met als gevolg een overvloed aan oplossingen en technologie die allesbehalve optimaal met elkaar samenwerken. Hierdoor schieten zogenaamde ‘data silo’s’ als paddenstoelen uit de grond.

2. Efficiency

Dankzij die extreme groei wordt het moeilijk om data beheersbaar te houden. Kostbare storage-platformen lopen vol met data en niemand durft er aan te komen, waardoor het alleen maar ruimte inneemt en verder geen enkele waarde heeft voor de business.

Vaak is het mogelijk om te achterhalen waar de duplicate data zich bevindt, of hoe oud het is. Maar vervolgens is het lastig voor IT om in te schatten wat ze met de data kunnen doen.

3. Data uitwisselen en delen

Het is lastig data uit te wisselen, als je niet weet waar je het kan vinden. Dit zorgt ervoor dat we data vaak meerdere keren opslaan of genereren wat natuurlijk voor nog meer wildgroei en vertraging zorgt.

Dell ClarityNow

ClarityNow is een high speed indexing database die in staat is om de meest voorkomende vormen van unstructured data in kaart te brengen: SMB, NFS, on prem object storage, public cloud en zelfs lokaal ge-mounte volumes. Het is de index en het kompas van uw data. Alleen al het zoeken naar de juiste data kun je hiermee terugbrengen naar een x aantal seconden of minuten. ClarityNow brengt een holistische laag aan over versnipperde data, en behoudt en bewaakt het overzicht. Data is het nieuwe goud van je organisatie, mits je er informatie en inzichten uithaalt en daar je voordeel mee doet.

Waar traditionele tooling er dagen over doet ongestructureerde data in kaart te brengen, doet ClarityNow dit vaak in uren. Interne tests op een Isilon cluster toonde aan dat via standaard Unix commando’s het scannen van 103.000.000 files uit meer dan 10.000 folders rond de 20 uur duurde. ClarityNow deed dit in 3 uur! Ook al is de data verspreid over meerdere silo’s on-prem of off-prem, ClarityNow vindt het en brengt het in kaart.

Fig1: schematisch overzicht Claritynow

Maar is die snelheid wel nodig? Vergis je niet, het in kaart brengen van al die data is geen eenmalig karwei! Er zullen rescans gedaan moeten worden, waar weer een hoop tijd in gaat zitten.

ClarityNow heeft een handige interface die content creators, content owners, management en IT hetzelfde uniform zicht biedt op het unstructured data-landschap van een organisatie. Waar standaard verkenners stoppen, gaat ClarityNow verder. Hoe oud is de data? Wanneer is de data voor het laatste gebruikt? Wat kost de opslag van data op het huidige medium?

Fig2: de interface

Context

ClarityNow contextualiseert de ongestructureerde data van organisaties. Het stelt degene die de data heeft gecreëerd in staat om data te ‘taggen’. Tag data met bijvoorbeeld een projectnummer, en iedereen – de business en IT – kan zoeken aan de hand van die tags. Is een project succesvol afgerond, dan heeft het weinig zin om de data op beschikbare storage-oplossingen stof te laten vangen.

Wat ons brengt op het volgende punt: het archiveren van data. Archiveren van data gaat vaak door middel van geautomatiseerde processen. Software kijkt naar de laatste access time van een file of een block aan data, en zal door vooraf opgezette policies de data ‘tieren’ naar een efficiëntere manier van opslag.

Het probleem is echter dat een content owner of content creator vaak beter kan inschatten hoe beschikbaar data moet zijn. Is het automatisch gearchiveerd, dan kan het soms lastig zijn om het terug te halen. Dankzij de handige DataMover plug-in geeft ClarityNow content creators and content owners de mogelijkheid om zelf te bepalen wanneer de data gearchiveerd kan worden. Dankzij de tool weet iedereen ook waar die data is, en wat het kost.

Redundantie

Sluiten we af met duplicate data. Zoals we al aangaven is het gros van alle unstructured data duplicate data. Dit is voor de meeste organisaties niet anders. Vaak slaan mensen hun belangrijke bestanden meerdere keren op. Wellicht weten ze niet dat het storage medium waar ze het opslaan dit al voor ze doet. Hoe dan ook, duplicate data is in de meeste gevallen een makkelijke manier om een flinke besparing te maken op uw storage landschap.

Dus: wil je meer inzicht verkrijgen in je unstructured data, waar dat zich ook maar bevindt, of de business de mogelijkheid geven om op eigen initiatief data te archiveren naar een storage medium naar keuze? Dan is ClarityNow iets voor jou!

De blog is gezamenlijk geschreven door:

Justin Rik en Ruud Mulder beide werkzaam als Account Systems Engineers bij Dell Technologies

Blog