O μεγάλος αυτός όγκος δεδομένων θα αλλάξει δραματικά τον τρόπο που βλέπουμε τον κόσμο γύρω μας, συμπεριλαμβανομένου του τρόπου ανάπτυξης νέων εργαλείων και τεχνολογιών, καθώς και το πώς οι άνθρωποι θα καταφέρουν να τα συνδυάσουν όλα αυτά μαζί.
Είναι γεγονός ότι ζούμε σε έναν κόσμο που αριθμεί όλο και περισσότερα δεδομένα, όπου η δυνατότητα για πρόσβαση σε αυτά και στην εξαγωγή εξελιγμένων αξιόλογων αναλύσεων των δεδομένων αυτών, ανοίγει μυριάδες συναρπαστικές δυνατότητες σταδιοδρομίας. Αυτή η τάση είναι ασταμάτητη. Επιπλέον, η παγκόσμια ζήτηση για ειδικευμένους αναλογιστές αναμένεται να αυξηθεί με γεωμετρική πρόοδο, με δεδομένη τη συνεχή και σημαντική παγκόσμια ανάπτυξη των ασφαλιστικών και χρηματοοικονομικών υπηρεσιών / βιομηχανιών – δύο τομέων που βασίζονται σε μεγάλο βαθμό σε αυτούς (αναλογιστές) για τη μέτρηση και την αξιολόγηση του κινδύνου των βιομηχανιών αυτών.
Η αποθήκευση των δεδομένων (data warehousing) διανύει την πιο ριζική μεταμόρφωση από τότε που για πρώτη φορά σχεδιάστηκε η τεχνολογία αυτή, τη δεκαετία του 1970. Οι “αποθήκες” δεδομένων θα παραμείνουν ένα βασικό συστατικό (και πιθανώς το πιο βασικό) της υποδομής της πληροφορικής (Πηγή: Gartner 2011). Έτσι, για τις εταιρείες δεν υπάρχει μόνο η ανάγκη να διαχειρίζονται και να αποθηκεύουν πολύ μεγάλο όγκο δεδομένων (Big Data), αλλά επίσης υπάρχει η ανάγκη να βρουν τρόπους για να αποσπούν τη μέγιστη αξία από τον όγκο αυτό. Εξάλλου, διάφορες τεχνολογικές τάσεις υπάρχουν και θα υπάρχουν κατά καιρούς. Το πώς αυτές επηρεάζουν την ισορροπία κόστους – οφέλους της τεχνολογίας που αναπτύσσεται για την παροχή επιχειρηματικής αξίας, είναι αυτό που έχει τη μεγαλύτερη σημασία. Η ίδια έρευνα του Gartner παρουσιάζει σε σειρά σημαντικότητας επιχειρηματικών τεχνολογιών τη διαχείριση και αποθήκευση δεδομένων και εγγράφων, ως τρίτη στη σειρά, που ήδη προηγείται των τεχνολογιών κινητής τηλεφωνίας, του cloud computing και των τεχνολογιών κοινωνικής δικτύωσης (Social Media).
Τι όμως είναι Big Data;
Είναι απλά ένας μεγάλος όγκος δεδομένων ή κάτι παραπάνω;
Όλοι μιλούν για Big Data, συνήθως σε συνδυασμό με κάποιο είδος προηγμένων αναλυτικών εφαρμογών. Τελικά όμως πρόκειται για ένα δημοφιλή όρο, που χρησιμοποιείται για να περιγράψει την εκθετική αύξηση και τη διαθεσιμότητα των δεδομένων – τόσο δομημένων όσο και μη δομημένων. Και ο όγκος των δεδομένων μπορεί να είναι εξίσου σημαντικός για τις επιχειρήσεις – και την κοινωνία – όπως είναι και το Διαδίκτυο. Γιατί; Περισσότερα δεδομένα μπορεί να οδηγήσουν σε πιο ακριβείς αναλύσεις, πιο ακριβείς αναλύσεις μπορεί να οδηγήσουν σε καλύτερη και σωστότερη λήψη αποφάσεων και, τέλος, σωστότερη λήψη αποφάσεων μπορεί να συμβάλλει σε επιχειρησιακή αποτελεσματικότητα, μείωση του κόστους και φυσικά μείωση του κινδύνου. Ο διεθνής Οργανισμός ISACAR σε μία πρόσφατη μελέτη (ISACA White Paper March 2013 – Big Data Impacts & Benefits), προσέγγισε μεταξύ άλλων και την περιοχή αυτή, καταγράφοντας το προαναφερόμενο («σωστότερη λήψη αποφάσεων») ως πρωταρχικό στόχο της ανάλυσης μεγάλων
δεδομένων.
Ας μιλήσουν όμως λίγο και οι αριθμοί:
- 600 δολάρια απαιτούνται για να αγοράσει κανείς ένα δίσκο και να αποθηκεύσει το σύνολο των μουσικών όλου του κόσμου.
- 5 δισεκατομμύρια κινητά τηλέφωνα βρίσκονταν σε χρήση το 2010.
- 30 δισεκατομμύρια κομμάτια (φωτογραφίες, video κτλ) με περιεχόμενο, υπάρχουν σε κοινή χρήση στο Facebook κάθε μήνα.
Όπως μπορεί να παρατηρήσει κανείς εύκολα, ο όρος δεν αφορά στο μέγεθος, τον τύπο ή το είδος των δεδομένων, αλλά σε ένα σύνολο διαδικασιών που απαιτούν γνώσεις πληροφορικής, στατιστικής, μηχανικής εκμάθησης και διοίκησης επιχειρήσεων, που απλά εμπλέκουν και χρησιμοποιούν δεδομένα. Πολλές φορές ο όρος Big Data χαρακτηρίζεται από τα 3V: Volume (όγκος), Variety (ποικιλία), Velocity (ταχύτητα). Ο μεγάλος όγκος δεδομένων χαρακτηρίζει τις μοντέρνες εφαρμογές, ενώ τα δεδομένα έρχονται σε διάφορες μορφές, όπως σχεσιακά δεδομένα, εικόνα, ήχος, βίντεο. Η παραγωγή των δεδομένων μπορεί να γίνεται σε πολύ μεγάλους ρυθμούς και η εξαγωγή συμπερασμάτων να πρέπει να γίνει σε πραγματικό χρόνο. Η ανάγκη διαχείρισης των δεδομένων σε εφαρμογές Big Data οδήγησε στην ανάπτυξη μίας νέας γενιάς συστημάτων, μοντέλων και προγραμματιστικών εργαλείων και, ταυτόχρονα, η αξιοποίηση αυτών των δεδομένων για την παραγωγή αναλύσεων (a.k.a. «analytics») απαιτεί ικανότητες και γνώσεις από ένα ευρύ πεδίο αντικειμένων, όπως η στατιστική, η τεχνητή νοημοσύνη, η επιχειρησιακή έρευνα, η διοίκηση επιχειρήσεων.
Γιατί ο μεγάλος όγκος δεδομένων έχει σημασία για εμάς;
Το πραγματικό πρόβλημα δεν είναι η απόκτηση μεγάλων ποσοτήτων δεδομένων. Είναι ο τρόπος με τον οποίο πρέπει αυτές να τις διαχειριστούμε. Οι Οργανισμοί θα είναι σε θέση να λάβουν στοιχεία από οποιαδήποτε πηγή, να αξιοποιήσουν τα σχετικά δεδομένα και να τα αναλύσουν, ώστε να βρουν τις απαντήσεις που δίνουν τη δυνατότητα για: α) μείωση του κόστους, β) μείωση του χρόνου απόκρισης, γ) ανάπτυξη νέων προϊόντων και βελτιστοποιημένων προσφορών και δ) πιο έξυπνης ή καλύτερα σωστότερης λήψης επιχειρηματικών αποφάσεων. Για παράδειγμα, με το συνδυασμό του μεγάλου όγκου των δεδομένων και υψηλής γνώσης Analytics, είναι δυνατόν:
- Να καθοριστούν οι βαθύτερες αιτίες των αποτυχιών, προβλημάτων και ατελειών, σε σχεδόν πραγματικό χρόνο, ενδεχομένως εξοικονομώντας δισεκατομμύρια δολάρια (ευρώ) ετησίως.
- Να βελτιωθούν οι διαδρομές για πολλές χιλιάδες οχήματα παράδοσης δεμάτων, ενώ βρίσκονται στο δρόμο.
- Να γίνει ανάλυση μεγάλων αποθηκευτικών μονάδων για να καθοριστούν οι τιμές που μεγιστοποιούν το κέρδος και να δημιουργηθεί εξαρχής σαφής κατάλογος για τον πελάτη.
- Οι εταιρείες να δημιουργήσουν κουπόνια λιανικής στα σημεία πώλησης, με βάση τις τρέχουσες και προηγούμενες αγορές του πελάτη.
- Να αποσταλούν προσαρμοσμένες συστάσεις για π.χ. κινητές συσκευές, ενώ ο πελάτης είναι στο σωστό χώρο, ώστε να επωφεληθεί από τις προσφορές.
- Να επαναϋπολογιστεί ολόκληρο το χαρτοφυλάκιο των κινδύνων, μέσα σε λίγα λεπτά (για τις επιχειρήσεις).
- Να χρησιμοποιηθεί η ανάλυση clickstream και να εξορυχτούν δεδομένα για την ανίχνευση δόλιας συμπεριφοράς (fraud).
Για τον κόσμο της τεχνολογίας οι συσκευές μικραίνουν, αλλά τα δεδομένα συνεχίζουν να αυξάνουν («μεγαλώνουν»). Όταν μια νέα τεχνολογική ιδέα όπως το Big Data ετοιμάζεται να απογειωθεί, έχουμε το δικαίωμα να είμαστε επιφυλακτικοί. Υπάρχει κάτι πραγματικά νέο και σημαντικό ή είναι απλώς διαφημιστική εκστρατεία; Είναι αυτό που πρόκειται να αλλάξει τον τρόπο που κάνουμε τα πράγματα για τα επόμενα χρόνια ή είναι απλώς μια απόσπαση της προσοχής μας; Πώς μπορούμε πραγματικά να το χρησιμοποιήσουμε; Στη σημερινή ψηφιακή εποχή υπάρχει μια έκρηξη και κατακόρυφη αύξηση των δεδομένων σε όλο τον κόσμο. Η Google επεξεργάζεται περισσότερα από 24 petabytes δεδομένων ανά ημέρα. Ας σκεφτούμε μόνο τα bytes δεδομένων που δημιουργούνται κάθε λεπτό από μία κλήση σε ένα αγαπημένο μας πρόσωπο στο τέλος της ημέρας. Πώς χρησιμοποιούνται αυτά τα δεδομένα; Μερικές από τις κορυφαίες εταιρείες στον κόσμο καθώς και νεοσύστατες επιχειρήσεις κάνουν καλή χρήση αυτών των δεδομένων.
Θα λέγαμε ότι μέχρι τώρα οι επιχειρήσεις είχαν «τυφλωθεί» από ένα ζευγάρι περιορισμών κατά τη λήψη αποφάσεων: Μη διαθεσιμότητα (non-availability) των δεδομένων και έλλειψη υπολογιστικής ισχύος που να επεξεργάζεται μεγάλες ποσότητες δεδομένων. Με την αυξανόμενη ψηφιοποίηση, τη μείωση του κόστους της υπολογιστικής ισχύος και την ανάπτυξη εργαλείων ικανών να οργανώσουν μεγάλες ποσότητες δεδομένων, μια νέα εντελώς διαφορετική αντίληψη είναι διαθέσιμη για τη λήψη αποφάσεων.
Ωστόσο, κάποιες παλιές ιδέες και αντιλήψεις θα πρέπει να αλλάξουν για να κάνουν αποτελεσματική τη χρήση των μεγάλων δεδομένων. Η συσχέτιση είναι ακριβώς μια τέτοια ιδέα. Το μυαλό μας είναι συντονισμένο για να καθορίσει το αποτέλεσμα με βάση τη συνάφεια.
Οι προβλέψεις και οι ιδέες που βασίζονται στην ανάλυση των τεράστιων ποσοτήτων δεδομένων είναι όντως εκπληκτικές. Όλα αυτά τα δεδομένα δεν μοιράστηκαν ή δεν προορίζονται να χρησιμοποιηθούν για τους σκοπούς αυτούς που τελικά χρησιμοποιούνται. Έτσι, η έννοια του μεγάλου όγκου δεδομένων οδηγεί στο ζήτημα της προστασίας των προσωπικών δεδομένων. Η ψηφιακή ζωή ενός ατόμου έχει δώσει ένα παράθυρο στον έξω κόσμο να εισχωρήσει στη ζωή του. Η δύναμη των μεγάλων δεδομένων συσχετίζοντας αυτήν τη ζωή με πολλά άλλα στοιχεία, έχει ως αποτέλεσμα την πιθανή θέαση του εσωτερικού του κόσμου, όπως σκέψεων που πιθανώς κανείς δεν θέλει να μοιραστεί. Ο κίνδυνος αυτός πρέπει να εξεταστεί με προσοχή και το περιβάλλον ελέγχου πρέπει να προσαρμοστεί σε αυτόν.
Περισσότερες πληροφορίες σχετικά με την εξόρυξη και εκμετάλλευση του μεγάλου όγκου δεδομένων, μπορεί κανείς να λάβει από τη μελέτη της McKinsey (“Big data: The next frontier for innovation, competition, and productivity”), έρευνες που έχει κάνει η SAS στο πεδίο αυτό ή απλά αναζητώντας τη φράση “Big Data” στο διαδίκτυο, καθώς πρόκειται για το hype του καιρού μας.
Big Data και Audit
Και φτάνουμε στο σημείο όπου αναλογιζόμαστε τι σχέση μπορεί να υπάρξει μεταξύ Big Data και Audit (ελεγκτικής). Τη χρονιά που πέρασε, στο 3ο τεύχος του ISACA Journal – o Kumar Setty, CISA και ο Rohit Bakhshi περιέγραφαν την έννοια big data ως ένα μεγάλο «διυλιστήριο» δεδομένων που αποτελεί ένα νέο σύστημα το οποίο μπορεί να αποθηκεύσει, να συγκεντρώσει και να μετατρέψει ένα ευρύ φάσμα πολλαπλά δομημένων πηγών δεδομένων, σε μορφή εύχρηστη και να βοηθήσει μία επιχείρηση στη λήψη νέων ιδεών, αλλά κυρίως αποφάσεων. Το μεγάλο «διυλιστήριο» δεδομένων παρέχει μια οικονομικά αποδοτική πλατφόρμα για την απελευθέρωση σημαντικής αξίας που παρέχεται από τα δεδομένα. Ένα δημοφιλές παράδειγμα των μεγάλων «διυλιστηρίων» δεδομένων είναι η επεξεργασία των blogs, των κοινωνικών feeds και άλλων πηγών και η παράλληλη δημιουργία πιο ακριβών εκτιμήσεων / πιο αποτελεσματικών εξατομικευμένων προσφορών.
Υπάρχουν πολλοί τρόποι για τους ελεγκτές να χρησιμοποιήσουν το μεγάλο «διυλιστήριο» δεδομένων. Ένα παράδειγμα είναι η ανάλυση των αρχείων καταγραφής που δημιουργούνται από firewalls ή άλλες συσκευές ασφαλείας. Τα firewalls και οι συσκευές ασφαλείας συνήθως παράγουν χιλιάδες σήματα / προειδοποιήσεις (alerts) κάθε ημέρα. Είναι απίθανο για μια ομάδα ατόμων να είναι σε θέση – χωρίς εργαλεία (manually) – να επανεξετάσει όλες αυτές τις προειδοποιήσεις και να σχηματίσει ουσιαστικά συμπεράσματα από αυτόν τον όγκο των δεδομένων. Οι ελεγκτές μπορούν – και οφείλουν να συνεργαστούν με την πληροφορική, για να καθορίσουν τα όρια για την επισήμανση ορισμένων τύπων των γεγονότων (events) και ακόμη και να διατυπώσουν / σχεδιάσουν δράσεις για την αντιμετώπιση τέτοιων συμβάντων. Μια κεντροποιημένη μονάδα καταγραφής που να συλλαμβάνει όλα τα συμβάντα ασφαλείας, θα μπορούσε επίσης να χρησιμοποιηθεί για το συσχετισμό ορισμένων ειδών των γεγονότων / συμβάντων μεταξύ τους και να βοηθήσει στην εξαγωγή συμπερασμάτων ώστε να καθοριστούν οι κατάλληλες δράσεις για την επιχειρησιακή συνέχεια.
Μια άλλη πιθανή χρήση του μεγάλου «διυλιστηρίου» δεδομένων είναι η ανάλυση μεγάλων όγκων δεδομένων συναλλαγών, που αφορούν σε απάτη. Με χρήση προκαθορισμένων κριτηρίων που καθορίζονται σε συνεργασία με άλλα τμήματα, το μεγάλο «διυλιστήριο» δεδομένων θα μπορούσε να προειδοποιήσει και να μαρκάρει συγκεκριμένες συναλλαγές από ένα μεγάλο πλήθος δεδομένων, για τη διερεύνηση των πιθανών περιπτώσεων απάτης. Αναδυόμενες τεχνικές επιτρέπουν στους ελεγκτές να αντλήσουν βασικά συμπεράσματα από ένα ευρύ φάσμα δεδομένων. Όλα αυτά αντικατοπτρίζουν αλλαγές στο συνολικό σημερινό προφίλ επικινδυνότητας ή ρίσκου, νέους παράγοντες κινδύνου για την επιχείρηση, όσο και ειδικές παραμέτρους εσωτερικού κινδύνου, όπως ουσιώδη ανακρίβεια στην χρηματοοικονομική πληροφόρηση, στον κίνδυνο απάτης και στον κίνδυνο για την ασφάλεια.
Ο μεγάλος όγκος δεδομένων δεν αποτέλεσε, δεν αποτελεί και ούτε θα αποτελέσει απλώς μια νέα γενιά δεδομένων, αφού σχετίζεται άμεσα με τα οφέλη και τους κινδύνους περιοχής ευρέως διαδεδομένης εντός της πληροφορικής, εγείροντας βασικά θέματα εταιρικής διακυβέρνησης (ISACA White Paper August 2013 – Privacy & Big Data). Τα ίδια δεδομένα που μπορούν να χρησιμοποιηθούν για τη δημιουργία αξίας, μπορούν κάλλιστα να χρησιμοποιηθούν για να δημιουργήσουν ενοχλητικά και επιζήμια αποτελέσματα για τις επιχειρήσεις.
Η επιτυχία των επιχειρήσεων θα εξαρτηθεί από το πώς αυτές θα ανταποκριθούν και θα ασχοληθούν με τις διάφορες μεγάλες προκλήσεις των δεδομένων και τις επιπτώσεις, συμπεριλαμβανομένης της προστασίας της ιδιωτικής ζωής. Εν τέλει, για να αξιοποιηθούν τα δεδομένα και για να παραχθούν ταχύτερα λύσεις, οι επιχειρήσεις πρέπει να εφαρμόσουν όλα εκείνα τα απαραίτητα μέτρα όπως διαδικασίες σε συνδυασμό με ένα καλό πλαίσιο διαχείρισης κινδύνων και διακυβέρνησης. Έτσι θα είναι σε θέση να διαχειριστούν αποτελεσματικά τους κινδύνους που ελλοχεύουν.
Εν κατακλείδι, στο περιοδικό Wired, το 2008 διατυπώθηκαν οι παρακάτω φράσεις: «Η αναζήτηση της γνώσης άρχιζε με ‘μεγάλες’ θεωρίες. Πλέον ξεκινά με τεράστιους όγκους δεδομένων».
Επομένως; Big Data = Επανάσταση; Ή μήπως ακόμα μία ευκαιρία τεχνολογικής προόδου;
Τα συμπεράσματα δικά σας.
Του Σταμάτη Πασσά
Εθνοντάτα Α.Ε. – Μονάδα Συμμόρφωσης SOX @ Εθνική Ασφαλιστική
ISACA Athens Chapter Social Media Coordinator