Το Βραβείο Turing, γνωστό και ως το «Νόμπελ της Πληροφορικής», απονεμήθηκε για το έτος 2024 στους Andrew Barto και Richard Sutton, πρωτοπόρους στον τομέα της ενισχυτικής μάθησης (reinforcement learning).
Η εργασία τους αποτέλεσε θεμέλιο για την ανάπτυξη της σύγχρονης τεχνητής νοημοσύνης, επηρεάζοντας σημαντικά εταιρείες όπως η OpenAI και η Google.
Το Βραβείο Τούρινγκ, γνωστό και ως “Νόμπελ της Πληροφορικής”, που απονέμεται ετησίως στη Νέα Υόρκη από την Ένωση Υπολογιστικών Μηχανών (Association for Computing Machinery), συνοδεύεται από χρηματικό έπαθλο 1 εκατομμυρίου δολαρίων με οικονομική υποστήριξη από την Google, Inc. Ονομάστηκε προς τιμήν του Alan M. Turing, του Βρετανού μαθηματικού που διατύπωσε τα μαθηματικά θεμέλια της πληροφορικής, και αυτή η διάκριση αναγνωρίζεται ευρέως ως η υψηλότερη τιμή στην επιστήμη των υπολογιστών.
Η ενισχυτική μάθηση (RL: Reinforcement Learning) είναι μια θεμελιώδης αρχή στην Τεχνητή Νοημοσύνη που επικεντρώνεται στη δημιουργία ευφυών πρακτόρων (agents) ικανών να μαθαίνουν μέσω αλληλεπίδρασης με το περιβάλλον τους. Εστιάζει στην έννοια των σημάτων ανταμοιβής (reward), τα οποία καθοδηγούν έναν πράκτορα να βελτιώνει τη συμπεριφορά του με την πάροδο του χρόνου. Ο Barto και ο Sutton πρωτοστάτησαν σε αυτόν τον τομέα αναπτύσσοντας τις εννοιολογικές και αλγοριθμικές βάσεις του, εισάγοντας βασικές ιδέες που έχουν γίνει ακρογωνιαίοι λίθοι της σύγχρονης τεχνητής νοημοσύνης.
Οι συνεισφορές τους περιλαμβάνουν τη διαμόρφωση του μαθηματικού πλαισίου για την RL, τη δημιουργία βασικών αλγορίθμων και τη θεμελίωση των θεωρητικών βάσεων που συνδέουν την RL με άλλες προσεγγίσεις μηχανικής μάθησης. Η εργασία τους έχει επιτρέψει την ανάπτυξη συστημάτων τεχνητής νοημοσύνης που μπορούν να μαθαίνουν σύνθετες εργασίες, από το να παίζουν παιχνίδια μέχρι τον έλεγχο ρομπότ, βελτιστοποιώντας τις ενέργειές τους με βάση την ανατροφοδότηση από το περιβάλλον τους. Αυτή η πρωτοποριακή έρευνα δεν έχει μόνο προωθήσει την τεχνητή νοημοσύνη αλλά έχει επίσης προσφέρει γνώσεις για το πώς μαθαίνουν τα βιολογικά συστήματα, γεφυρώνοντας το χάσμα μεταξύ τεχνητής και φυσικής νοημοσύνης.
Το πιο χαρακτηριστικό παράδειγμα του RL ήταν η νίκη του προγράμματος υπολογιστή AlphaGo επί των καλύτερων ανθρώπων παικτών Go το 2016 και το 2017. Ένα άλλο σημαντικό επίτευγμα πρόσφατα ήταν η ανάπτυξη του chatbot ChatGPT. Το ChatGPT είναι ένα μεγάλο γλωσσικό μοντέλο (LLM) που εκπαιδεύεται σε δύο φάσεις, το δεύτερο εκ των οποίων χρησιμοποιεί μια τεχνική που ονομάζεται ενισχυτική μάθηση από την ανθρώπινη ανάδραση (RLHF), για να συλλάβει τις ανθρώπινες προσδοκίες.
Άλλοι τομείς περιλαμβάνουν τον έλεγχο συμφόρησης δικτύου, τη σχεδίαση τσιπ, τη διαφήμιση στο Διαδίκτυο, τη βελτιστοποίηση, τη βελτιστοποίηση της παγκόσμιας αλυσίδας εφοδιασμού, τη βελτίωση της συμπεριφοράς και των συλλογιστικών ικανοτήτων των chatbot, ακόμη και τη βελτίωση αλγορίθμων για ένα από τα παλαιότερα προβλήματα στην επιστήμη των υπολογιστών, τον πολλαπλασιασμό μητρών (matrix multiplication).
Barto και Sutton εξέφρασαν ανησυχίες σχετικά με την ταχεία ανάπτυξη και διάθεση των μοντέλων Τεχνητής Νοημοσύνης χωρίς επαρκείς δοκιμές ασφαλείας, επισημαίνοντας ότι τέτοιες πρακτικές αντιβαίνουν στις καθιερωμένες αρχές της μηχανικής. Παρομοίασαν την απελευθέρωση λογισμικού χωρίς κατάλληλες δικλείδες ασφαλείας με την κατασκευή μιας γέφυρας και τη δοκιμή της μέσω της άμεσης χρήσης από το κοινό, χωρίς προηγούμενους ελέγχους.
Barto και ο Sutton είναι συν-συγγραφείς του “Reinforcement Learning: An Introduction” ενός θεμελιώδους εγχειριδίου που παραμένει ακρογωνιαίος λίθος στην εκπαίδευση της τεχνητής νοημοσύνης. Το βιβλίο είναι διαθέσιμο σε pdf δωρεάν από το Stanford University (πρώτη έκδοση) και το Carnegie Mellon University (δεύτερη έκδοση).