Μια αποκαλυπτική συνέντευξη για το μέλλον της τεχνολογίας με έναν από τους πιο παραγωγικούς εφευρέτες της Xerox.
Αξιοποιώντας τη δύναμη της υπολογιστικής όρασης
Ο Raja Bala είναι ο πρωτεύων επιστήμονας Υπολογιστικής Όρασης του περίφημου ερευνητικού κέντρου της Xerox, PARC. Η έμφυτη αίσθηση της περιέργειάς του για «το πώς λειτουργούν τα πράγματα», τον οδήγησε στις δύο του θητείες στη Xerox να γίνει ένας από τους πιο παραγωγικούς εφευρέτες της. Του χάρισε επίσης μια μοναδική αίσθηση διορατικότητας για το πώς η υπολογιστική όραση θα άλλαζε τον τρόπο με τον οποίο ζούμε.
Τι θα λέγατε αν μια selfie ήταν το μόνο που χρειαζόταν για να διαγνωσθεί μια ασθένεια; Αν μπορούσατε να οδηγήσετε μέχρι την εργασία σας και να επιστρέψετε χωρίς να αγγίξετε ποτέ το τιμόνι; Αν μπορούσατε να μπείτε σε ένα κατάστημα, να πάρετε τα προϊόντα που χρειάζεστε και να φύγετε χωρίς να περιμένετε να πληρώσετε – να αφαιρείται δηλαδή το σύνολο των αγορών σας αυτόματα από τον τραπεζικό λογαριασμό σας;
Δεν πρόκειται για επιστημονική φαντασία. Είναι ο κόσμος που ο Raja Bala βοηθά να οικοδομηθεί. Ένας κόσμος όπου οι υπολογιστές μπορούν να «δουν», να ερμηνεύσουν και να αναλύσουν τα δεδομένα γύρω τους και στη συνέχεια να χρησιμοποιήσουν αυτές τις πληροφορίες, για να λαμβάνουν αποφάσεις σε πραγματικό χρόνο, βοηθώντας στην επίλυση πραγματικών προβλημάτων. Μείνετε μαζί μας καθώς αποκαλύπτουμε τον άνθρωπο πίσω από την τεχνολογία.
Πώς αρχίσατε να ενδιαφέρεστε για την υπολογιστική όραση;
Μεγαλώνοντας, στο σπίτι μου δινόταν πολύ μεγάλη έμφαση στα μαθηματικά και τις φυσικές επιστήμες. Η μητέρα μου ήταν δασκάλα φυσικών επιστημών και ο πατέρας μου ήταν μηχανικός. Αλλά ενώ είχα πάντα μια ιδιαίτερη αγάπη και κάποιο ταλέντο στα μαθηματικά, δεν ήμουν ποτέ ένας άνθρωπος που λειτουργούσε με το αριστερό κομμάτι του εγκεφάλου του, δηλαδή αναλυτικός και μεθοδικός. Είμαι μουσικός. Λατρεύω την τέχνη. Έτσι, όταν ξεκίνησα να αποφασίζω για την καριέρα μου, ήθελα να βρω κάτι που θα μπορούσε να ικανοποιήσει όλο το φάσμα των ενδιαφερόντων μου.
Δεν ασχολήθηκα από την αρχή με την υπολογιστική όραση. Όταν ήρθα για πρώτη φορά στη Xerox το 1993, εργαζόμουν ως επιστήμονας στην έγχρωμη απεικόνιση. Εκείνη την εποχή, η Xerox πραγματοποιούσε τη μετάβαση από την ασπρόμαυρη στην έγχρωμη εκτύπωση. Ηγήθηκα αρκετών συναρπαστικών projects ανάπτυξης λύσεων διαχείρισης χρωμάτων για εκτυπωτές και σαρωτές της Xerox. Μόνο το 2011 και μετά από μια εξαγορά, αντιλήφθηκα την ευκαιρία και τη δυναμική της υπολογιστικής όρασης. Έκανα τη μετάβαση και τα υπόλοιπα ανήκουν στην ιστορία.
Μπορείτε να μας μιλήσετε για το τί είναι η υπολογιστική όραση και γιατί είναι σημαντική για τον κόσμο σήμερα;
Η υπολογιστική όραση είναι η επιστήμη με την οποία τα μηχανήματα αναλύουν, ερμηνεύουν και εξάγουν χρήσιμες πληροφορίες από εικόνες και βίντεο και στη συνέχεια χρησιμοποιούν αυτές τις πληροφορίες για να επιλύσουν πραγματικά προβλήματα. Στο δικό μου έργο και της ομάδας μου προσπαθούμε να βγάλουμε μια ψηφιακή εικόνα ή ένα βίντεο, να την μετατρέψουμε σε μαθηματική αναπαράσταση που καταλαβαίνει ένας υπολογιστής και στη συνέχεια, μαθαίνουμε στον υπολογιστή να εκτελεί μια εργασία χρησιμοποιώντας αυτήν την αναπαράσταση – όπως να ανιχνεύει εάν υπάρχει ή όχι ένα πρόσωπο σε μια εικόνα.
Ενώ η υπολογιστική όραση ήταν διαδεδομένη από τη δεκαετία του ’60, στα πρώτα χρόνια περιοριζόταν από την έλλειψη διαθεσιμότητας και πρόσβασης σε ψηφιακές εικόνες. Η ανάλυση εικόνας περιοριζόταν σε ειδικές χρήσεις, όπως στον ιατρικό τομέα και ποτέ δεν γνώρισε μαζική έκθεση. Αλλά με την εμφάνιση των smartphones και το γεγονός, ότι εταιρείες όπως η Google και το Facebook κατέστησαν ευκολότερη την πρόσβαση σε εικόνες, δημιουργώντας μεγάλες βάσεις δεδομένων με δυνατότητα αναζήτησης, εκτινάχθηκε το μέγεθος, η συνάφεια και η διείσδυση της υπολογιστικής όρασης σε μαζικές καταναλωτικές αγορές. Η αφθονία των δεδομένων εικόνας και βίντεο που παράγονται σήμερα από τους καταναλωτές, σε συνδυασμό με τους προηγμένους αλγόριθμους και τον υπολογιστικό εξοπλισμό που είναι διαθέσιμος για την επεξεργασία τους, αλλάζουν τον τρόπο που σκεφτόμαστε για τον συγκεκριμένο τομέα.
Σήμερα, στην υπολογιστική όραση υπάρχουν ακόμα προκλήσεις που πρέπει να ξεπεραστούν, ακόμη και με την πρόοδο που έχει σημειωθεί;
Αυτή τη στιγμή, υπάρχει πολύς ενθουσιασμός για τη λεγόμενη «βαθιά εκμάθηση» και πώς αυτή εφαρμόζεται στην υπολογιστική όραση. Το deep learning είναι ένας πραγματικά αποτελεσματικός τρόπος για να εξάγονται χρήσιμα μοτίβα από εικόνες. Λειτουργεί τροφοδοτώντας ένα νευρωνικό δίκτυο με πολλά παραδείγματα εικόνων μαζί με ένα σχετικό μοτίβο ή μια δεδομένη «αλήθεια» για τις εικόνες αυτές. Στη συνέχεια, το δίκτυο μαθαίνει ένα σύνολο συνδέσεων που του επιτρέπει να αναγνωρίσει τον ίδιο τύπο μοτίβου ή αλήθειας σε νέες εικόνες.
Ένα δίκτυο βαθιάς εκμάθησης μπορεί να κατανοήσει εξαιρετικά πολύπλοκα σχέδια και σχέσεις ανάμεσα στις εικόνες και είναι πολύ αποτελεσματικό στα καθήκοντα που έχει εκπαιδευτεί να κάνει. Ωστόσο, ένα βασικό πρόβλημα είναι πως, για να είναι επιτυχής η βαθιά εκμάθηση, βασίζεται στη διαθεσιμότητα των συνόλων δεδομένων (datasets) που περιλαμβάνουν εκατομμύρια εικόνες μαζί με τα βασικά δεδομένα–«αλήθειες» τους. Έτσι, πολλές εφαρμογές δεν έχουν πρόσβαση σε τόσες πολλές εικόνες και δεδομένα.
Στον ιατρικό τομέα για παράδειγμα, μπορεί κάποιος να θελήσει να χρησιμοποιήσει το deep learning για να βοηθηθεί στη διάγνωση μιας συγκεκριμένης ασθένειας. Αυτό συνεπάγεται ότι το βαθύ δίκτυο πρέπει να εκπαιδευτεί σε εκατομμύρια εικόνες οργάνων που επισημαίνουν τα διαφορετικά επίπεδα βαρύτητας της νόσου. Αυτός ο όγκος δεδομένων, απλά δεν υπάρχει. Ακόμα κι αν υπήρχε, δεν θα είχε κανείς ποτέ τη δυνατότητα να διαθέτει μια ομάδα κλινικών εμπειρογνωμόνων που θα καθίσει να αποδώσει χαρακτηρισμούς σε όλες αυτές τις εικόνες.
Επομένως, το βασικό ερώτημα είναι πώς θα γίνουμε δημιουργικοί με αυτά τα δεδομένα. Πώς μπορούμε να τροποποιήσουμε τη βαθιά εκμάθηση για να λαμβάνει έξυπνες αποφάσεις που βασίζονται σε περιορισμένη εκπαίδευση;
Αυτό που κάναμε, είναι να επανεξετάσουμε ορισμένα από τα μοντέλα βασικών αρχών με τα οποία εργαζόμασταν πριν από την εποχή του deep learning και να τα χρησιμοποιήσουμε μέσα σε ένα δίκτυο βαθιάς εκμάθησης για να χτίσουμε μια «προηγούμενη» γνώση και ευφυΐα σχετικά με ένα δεδομένο έργο ή περιβάλλον. Για παράδειγμα, για να εκπαιδεύσουμε ένα δίκτυο βαθιάς εκμάθησης να αναγνωρίζει τα αιμοφόρα αγγεία στις εικόνες του αμφιβληστροειδούς, το τροφοδοτούμε με στοιχεία ώστε να αναζητήσει λεπτές καμπυλωτές δομές που διακλαδώνονται όπως ένα δέντρο. Με αυτά τα στοιχεία, το δίκτυο όχι μόνο απαιτεί πολύ λιγότερες εκπαιδευτικές εικόνες, αλλά στην πραγματικότητα υπερέχει των κορυφαίων σημερινών μεθόδων βαθιάς εκμάθησης.
Δεν εργαζόσασταν πάντα για τη Xerox, σωστά;
Σωστά. Μετά από 22 χρόνια στη Xerox, αποφάσισα να δοκιμάσω τον εαυτό μου σε ένα νέο περιβάλλον – εργαζόμουν στην ομάδα απεικόνισης των φωτογραφικών μηχανών κινητών της Samsung για την ανάπτυξη υπολογιστικών τεχνικών απεικόνισης.
Τί αποκομίσατε από αυτή την εμπειρία;
Μια νέα αναγνώριση της αξίας που έχει η απλότητα. Τα περισσότερα προϊόντα της Xerox χρησιμοποιούνται σε περιβάλλον γραφείου, όπου μπορείς να βασιστείς, ότι οι χρήστες θα διαθέτουν τουλάχιστον κάποια μικρή εξοικείωση με την τεχνολογία. Αλλά σχεδόν όλοι οι άνθρωποι στον κόσμο έχουν ένα smartphone στην τσέπη τους. Το να εργάζεσαι για ένα καταναλωτικό προϊόν σαν αυτό, σημαίνει ότι θα πρέπει να μεριμνήσεις για κάθε επίπεδο τεχνολογικής εμπειρίας. Να δημιουργήσεις κάτι που να είναι εύκολο στη χρήση είτε είσαι ειδικός είτε αρχάριος. Για να επιτευχθεί αυτό το επίπεδο απλότητας απαιτούνται χιλιάδες ώρες. Ένας απίστευτος όγκος εργασιών αφιερώνεται στο να είμαστε σίγουροι ότι κάθε κλικ κάνει ακριβώς αυτό που οφείλει να κάνει.
Επιστρέφοντας σε ένα ερευνητικό περιβάλλον στη Xerox, γνωρίζω τί χρειάζεται για να μετατραπεί η εξαιρετική επιστήμη σε ένα προϊόν με απήχηση. Το να είσαι σε θέση να δημοσιεύσεις μια επιστημονική εργασία για την έρευνά σου είναι ένα πράγμα. Αλλά αν θέλεις η έρευνά σου να οδηγήσει στη δημιουργία ενός προϊόντος που να μπορεί να χρησιμοποιηθεί επιτυχημένα από τον τελικό καταναλωτή, χρειάζεται να είναι όσο πιο αλάνθαστο, απλό και ευκολονόητο γίνεται.
Ας υποθέσουμε ότι κάποιος εργάζεται πάνω σε μια εφαρμογή για κινητά για την έξυπνη σάρωση εγγράφων. Η υπολογιστική όραση παραδοσιακά απαιτεί μεγάλη ισχύ επεξεργασίας – κάτι που σε μια κινητή συσκευή δεν είναι διαθέσιμο σε αφθονία. Έτσι εάν θέλετε η λύση σας να είναι κάτι περισσότερο από μια άσκηση ακαδημαϊκού περιεχομένου, θα πρέπει να φερθείτε έξυπνα ώστε να την κάνετε όχι μόνο συγκεκριμένη, αλλά γρήγορη και ενεργειακά αποδοτική. Διαφορετικά οι άνθρωποι δεν θα τη χρησιμοποιήσουν.
Σκεπτόμενος το μέλλον, ποιος τομέας της υπολογιστικής όρασης σας ενθουσιάζει περισσότερο;
Σήμερα, η Υπολογιστική Όραση και ο ευρύτερος τομέας της Τεχνητής Νοημοσύνης είναι ένα εξαιρετικό πεδίο για να ασχολείσαι. Μόλις πρόσφατα, αυτός ο τομέας έγινε αρκετά ώριμος για να αρχίσει να έχει πραγματικό, ουσιαστικό και διαδεδομένο αντίκτυπο στον κόσμο. Ξεκινώντας από καθημερινές δραστηριότητες όπως η αυτόματη κατάθεση, μέχρι μεγάλες εφαρμογές όπως η αυτόνομη οδήγηση και η έγκαιρη διάγνωση ασθενειών, οι εφαρμογές είναι άφθονες και συνεχίζουν να αυξάνονται. Και υπάρχουν πολλές επιστημονικές και μηχανικές προκλήσεις για να καταστούν αυτές οι εφαρμογές ακριβείς και αξιόπιστες.
Αλλά, προσωπικά, αυτό που με ενθουσιάζει περισσότερο είναι να συνεχίσουμε το έργο μας, να οικοδομούμε μεθόδους υπολογιστικής όρασης που αντλούν συμπεράσματα τόσο από προηγούμενα μοντέλα του κόσμου όσο και από παραδείγματα δεδομένων. Τα μοντέλα κυμαίνονται από τη δουλειά μας με τα αιμοφόρα αγγεία του αμφιβληστροειδούς, μέχρι τη κοινή γνώση σχετικά με τα καθημερινά αντικείμενα, τους ανθρώπους και τους νόμους της φύσης.
Χάρη στο πλούσιο και φιλόξενο προς τη καινοτομία περιβάλλον που παρέχει η Xerox, είμαστε στην αιχμή του να μετατρέψουμε αυτά τα μοντέλα πραγματικού κόσμου σε μεθόδους εκμάθησης μηχανών με βάση τα δεδομένα, ώστε να δημιουργήσουμε μια μορφή υβριδικής εκμάθησης. Δεν μπορώ να φανταστώ ένα πιο συναρπαστικό μέρος για να βρίσκομαι