Εκμάθηση ενίσχυσης ρομπότ: ασφάλεια σε εφαρμογές πραγματικού κόσμου


πολλαπλό διάγραμμα
Πώς μπορούμε να κάνουμε ένα ρομπότ να μάθει στον πραγματικό κόσμο, διασφαλίζοντας ταυτόχρονα την ασφάλεια; Σε αυτή η δουλειά, δείχνουμε πώς είναι δυνατόν να αντιμετωπίσουμε αυτό το πρόβλημα. Η βασική ιδέα για την εκμετάλλευση της γνώσης τομέα και τη χρήση του ορισμού περιορισμών προς όφελός μας. Ακολουθώντας την προσέγγισή μας, είναι δυνατό να εφαρμοστούν εκπαιδευτικοί ρομποτικοί πράκτορες που μπορούν να εξερευνήσουν και να μάθουν σε ένα αυθαίρετο περιβάλλον διασφαλίζοντας ταυτόχρονα την ασφάλεια.

Ασφάλεια και μάθηση στα ρομπότ

Η ασφάλεια είναι ένα θεμελιώδες χαρακτηριστικό στις εφαρμογές ρομποτικής του πραγματικού κόσμου: τα ρομπότ δεν πρέπει να προκαλούν ζημιά στο περιβάλλον, στον εαυτό τους και πρέπει να διασφαλίζουν την ασφάλεια των ανθρώπων που λειτουργούν γύρω τους. Για να διασφαλίσουμε την ασφάλεια κατά την ανάπτυξη μιας νέας εφαρμογής, θέλουμε να αποφύγουμε την παραβίαση περιορισμών ανά πάσα στιγμή. Αυτοί οι αυστηροί περιορισμοί ασφαλείας είναι δύσκολο να επιβληθούν σε ένα περιβάλλον ενισχυτικής μάθησης. Αυτός είναι ο λόγος για τον οποίο είναι δύσκολο να αναπτυχθούν εκπαιδευτικοί πράκτορες στον πραγματικό κόσμο. Οι κλασσικοί πράκτορες μάθησης ενίσχυσης χρησιμοποιούν τυχαία εξερεύνηση, όπως οι πολιτικές Gaussian, για να δράσουν στο περιβάλλον και να εξάγουν χρήσιμες γνώσεις για τη βελτίωση της απόδοσης των εργασιών. Ωστόσο, η τυχαία εξερεύνηση μπορεί να προκαλέσει παραβιάσεις περιορισμών. Αυτές οι παραβιάσεις περιορισμών πρέπει να αποφεύγονται πάση θυσία σε ρομποτικές πλατφόρμες, καθώς συχνά οδηγούν σε μεγάλη αποτυχία του συστήματος.

Ενώ το ρομποτικό πλαίσιο είναι προκλητικό, είναι επίσης ένα πολύ γνωστό και καλά μελετημένο πρόβλημα: έτσι, μπορούμε να εκμεταλλευτούμε ορισμένα βασικά αποτελέσματα και γνώσεις από το πεδίο. Πράγματι, συχνά η κινηματική και η δυναμική ενός ρομπότ είναι γνωστές και μπορούν να αξιοποιηθούν από τα συστήματα εκμάθησης. Επίσης, οι φυσικοί περιορισμοί, π.χ. αποφυγή συγκρούσεων και επιβολή ορίων αρθρώσεων, μπορούν να γραφτούν σε αναλυτική μορφή. Όλες αυτές οι πληροφορίες μπορούν να αξιοποιηθούν από το ρομπότ εκμάθησης.

Η προσέγγιση μας


Πολλές προσεγγίσεις ενισχυτικής μάθησης προσπαθούν να λύσουν το πρόβλημα ασφάλειας ενσωματώνοντας τις πληροφορίες περιορισμών στη διαδικασία μάθησης. Αυτή η προσέγγιση οδηγεί συχνά σε πιο αργές μαθησιακές επιδόσεις, ενώ δεν είναι σε θέση να διασφαλίσει την ασφάλεια κατά τη διάρκεια ολόκληρης της μαθησιακής διαδικασίας. Αντίθετα, παρουσιάζουμε μια νέα άποψη για το πρόβλημα, εισάγοντας το ATACOM (Δρώντας στον εφαπτομενικό χώρο της πολλαπλής περιορισμού). Διαφορετικά από άλλες προσεγγίσεις τελευταίας τεχνολογίας, η ATACOM προσπαθεί να δημιουργήσει έναν ασφαλή χώρο δράσης στον οποίο κάθε ενέργεια είναι εγγενώς ασφαλής. Για να γίνει αυτό, πρέπει να κατασκευάσουμε την πολλαπλότητα περιορισμού και να εκμεταλλευτούμε τη βασική γνώση τομέα του πράκτορα. Μόλις έχουμε την πολλαπλότητα περιορισμού, ορίζουμε τον χώρο δράσης μας ως τον εφαπτομενικό χώρο στην πολλαπλότητα περιορισμού.

Μπορούμε να κατασκευάσουμε την πολλαπλότητα περιορισμών χρησιμοποιώντας αυθαίρετους διαφοροποιήσιμους περιορισμούς. Η μόνη απαίτηση είναι ότι η συνάρτηση περιορισμού πρέπει να εξαρτάται μόνο από ελεγχόμενες μεταβλητές, δηλαδή τις μεταβλητές που μπορούμε να ελέγξουμε άμεσα με την ενέργεια ελέγχου μας. Ένα παράδειγμα θα μπορούσε να είναι οι θέσεις και οι ταχύτητες των αρθρώσεων του ρομπότ.

Μπορούμε να υποστηρίξουμε και περιορισμούς ισότητας και ανισότητας. Οι περιορισμοί ανισότητας είναι ιδιαίτερα σημαντικοί καθώς μπορούν να χρησιμοποιηθούν για την αποφυγή συγκεκριμένων περιοχών του χώρου κατάστασης ή για την επιβολή των κοινών ορίων. Ωστόσο, δεν ορίζουν μια πολλαπλότητα. Για να λάβουμε μια πολλαπλότητα, μετατρέπουμε τους περιορισμούς ανισότητας σε περιορισμούς ισότητας εισάγοντας μεταβλητές slack.

Με την ATACOM, μπορούμε να διασφαλίσουμε την ασφάλεια αναλαμβάνοντας δράση στον εφαπτομενικό χώρο της πολλαπλής περιορισμού. Ένας διαισθητικός τρόπος για να δούμε γιατί αυτό ισχύει είναι να εξετάσουμε την κίνηση στην επιφάνεια μιας σφαίρας: οποιοδήποτε σημείο με ταχύτητα εφαπτομένη στην ίδια τη σφαίρα θα συνεχίσει να κινείται στην επιφάνεια της σφαίρας. Η ίδια ιδέα μπορεί να επεκταθεί σε πιο σύνθετα ρομποτικά συστήματα, λαμβάνοντας υπόψη την επιτάχυνση των μεταβλητών του συστήματος (ή τις γενικευμένες συντεταγμένες, όταν εξετάζουμε ένα μηχανικό σύστημα) αντί των ταχυτήτων.

Το προαναφερθέν πλαίσιο λειτουργεί μόνο εάν λάβουμε υπόψη τα συστήματα συνεχούς χρόνου, όταν η δράση ελέγχου είναι η στιγμιαία ταχύτητα ή επιτάχυνση. Δυστυχώς, η συντριπτική πλειοψηφία των ρομποτικών ελεγκτών και των προσεγγίσεων ενισχυτικής μάθησης είναι ψηφιακοί ελεγκτές διακριτού χρόνου. Έτσι, ακόμη και η λήψη της εφαπτομένης κατεύθυνσης της πολλαπλής περιορισμού θα έχει ως αποτέλεσμα παραβίαση περιορισμού. Είναι πάντα δυνατό να μειωθούν οι παραβιάσεις αυξάνοντας τη συχνότητα ελέγχου. Ωστόσο, το σφάλμα συσσωρεύεται με την πάροδο του χρόνου, προκαλώντας μετατόπιση από την πολλαπλή περιορισμού. Για να λύσουμε αυτό το ζήτημα, εισάγουμε έναν όρο διόρθωσης σφαλμάτων που διασφαλίζει ότι το σύστημα παραμένει στην πολλαπλή ανταμοιβή. Στην εργασία μας, εφαρμόζουμε αυτόν τον όρο ως απλός αναλογικός ελεγκτής.
σχήμα 4
Τέλος, πολλά ρομποτικά συστήματα δεν μπορούν να ελεγχθούν άμεσα από την ταχύτητα ή τις επιταχύνσεις. Ωστόσο, εάν είναι διαθέσιμο ένα μοντέλο αντίστροφης δυναμικής ή ένας ελεγκτής παρακολούθησης, μπορούμε να το χρησιμοποιήσουμε και να υπολογίσουμε τη σωστή ενέργεια ελέγχου.

Αποτελέσματα

Δοκιμάσαμε την ATACOM σε μια προσομοίωση εναέριου χόκεϊ. Χρησιμοποιούμε δύο διαφορετικούς τύπους ρομπότ. Το πρώτο είναι ένα επίπεδο ρομπότ. Σε αυτήν την εργασία, επιβάλλουμε κοινές ταχύτητες και αποφεύγουμε τη σύγκρουση του τελικού τελεστή με τα όρια του πίνακα.

Το δεύτερο ρομπότ είναι ένας βραχίονας Kuka Iiwa 14. Σε αυτό το σενάριο, περιορίσαμε τον τελικό τελεστή να κινείται στην επίπεδη επιφάνεια και διασφαλίζουμε ότι δεν θα συμβεί σύγκρουση μεταξύ του βραχίονα ρομπότ και του τραπεζιού.

Και στα δύο πειράματα, μπορούμε να μάθουμε μια ασφαλή πολιτική χρησιμοποιώντας τον αλγόριθμο Soft Actor-Critic ως αλγόριθμο εκμάθησης σε συνδυασμό με το πλαίσιο ATACOM. Με την προσέγγισή μας, είμαστε σε θέση να μαθαίνουμε γρήγορα καλές πολιτικές και μπορούμε να διασφαλίσουμε παραβιάσεις χαμηλών περιορισμών ανά πάσα στιγμή. Δυστυχώς, η παραβίαση περιορισμών δεν μπορεί να είναι μηδενική λόγω διακριτοποίησης, αλλά μπορεί να μειωθεί ώστε να είναι αυθαίρετα μικρή. Αυτό δεν είναι ένα σημαντικό ζήτημα στα συστήματα του πραγματικού κόσμου, καθώς επηρεάζονται από θορυβώδεις μετρήσεις και μη ιδανική ενεργοποίηση.

Λύθηκε τώρα το πρόβλημα ασφάλειας;

Το βασικό ερώτημα που πρέπει να τεθεί είναι εάν μπορούμε να διασφαλίσουμε οποιεσδήποτε εγγυήσεις ασφαλείας με την ATACOM. Δυστυχώς, αυτό δεν ισχύει γενικά. Αυτό που μπορούμε να επιβάλουμε είναι οι κρατικοί περιορισμοί σε κάθε χρονικό βήμα. Αυτό περιλαμβάνει μια ευρεία κατηγορία περιορισμών, όπως σταθερή αποφυγή εμποδίων, όρια αρθρώσεων, περιορισμούς επιφάνειας. Μπορούμε να επεκτείνουμε τη μέθοδό μας σε περιορισμούς λαμβάνοντας υπόψη μη (άμεσα) ελεγχόμενες μεταβλητές. Ενώ μπορούμε να διασφαλίσουμε την ασφάλεια σε κάποιο βαθμό και σε αυτό το σενάριο, δεν μπορούμε να διασφαλίσουμε ότι η παραβίαση του περιορισμού δεν θα παραβιαστεί σε όλη την τροχιά. Πράγματι, εάν οι μη ελεγχόμενες μεταβλητές δρουν με αντίπαλο τρόπο, μπορεί να βρουν μια μακροπρόθεσμη στρατηγική για να προκαλέσουν παραβίαση περιορισμών μακροπρόθεσμα. Ένα εύκολο παράδειγμα είναι ένα σενάριο θήραμα-αρπακτικού: ακόμα κι αν διασφαλίσουμε ότι το θήραμα αποφεύγει κάθε θηρευτή, μια ομάδα αρπακτικών μπορεί να εκτελέσει μια στρατηγική υψηλού επιπέδου και να παγιδεύσει τον πράκτορα μακροπρόθεσμα.

Έτσι, με την ATACOM μπορούμε να διασφαλίσουμε την ασφάλεια σε βαθμιαίο επίπεδο, αλλά δεν είμαστε σε θέση να διασφαλίσουμε μακροπρόθεσμη ασφάλεια, η οποία απαιτεί λογική σε επίπεδο τροχιάς. Για να διασφαλιστεί αυτό το είδος ασφάλειας, θα χρειαστούν πιο προηγμένες τεχνικές.


Μάθετε περισσότερα

Οι συγγραφείς ήταν φιναλίστ των καλύτερων βραβείων χαρτιού στο CoRL φέτος, για το έργο τους: Εκμάθηση ενίσχυσης ρομπότ στην πολλαπλή περιορισμού.

  • Διάβασε το χαρτί.
  • Η σελίδα GitHub για την εργασία είναι εδώ.
  • Διαβάστε περισσότερα σχετικά με τις νικητήριες και τις επιλεγμένες εργασίες για τα βραβεία CoRL εδώ.

ετικέτες:



Puze Liu
είναι διδακτορικός φοιτητής στον Όμιλο Ευφυών Αυτόνομων Συστημάτων του Τεχνικού Πανεπιστημίου Ντάρμσταντ

Η Puze Liu είναι διδακτορική φοιτήτρια στην Ομάδα Ευφυών Αυτόνομων Συστημάτων του Τεχνικού Πανεπιστημίου Darmstadt



Νταβίντε Τατέο
είναι Μεταδιδακτορικός Ερευνητής στο Εργαστήριο Ευφυών Αυτόνομων Συστημάτων στο Τμήμα Επιστήμης Υπολογιστών του Τεχνικού Πανεπιστημίου του Ντάρμσταντ

Ο Davide Tateo είναι μεταδιδακτορικός ερευνητής στο Εργαστήριο Ευφυών Αυτόνομων Συστημάτων στο Τμήμα Επιστήμης Υπολογιστών του Τεχνικού Πανεπιστημίου του Ντάρμσταντ



Χαϊτάμ Μπου-Αμάρ
ηγείται της ομάδας ενίσχυσης εκμάθησης στην Huawei Technology Research & Development UK και είναι Επίτιμος Λέκτορας στο UCL

Ο Haitham Bou-Ammar ηγείται της ομάδας ενισχυτικής μάθησης στην Huawei Technology Research & Development UK και είναι Επίτιμος Λέκτορας στο UCL



Γιαν Πίτερς
είναι τακτικός καθηγητής Ευφυών Αυτόνομων Συστημάτων στο Technische Universitaet Darmstadt και ανώτερος ερευνητής στο MPI for Intelligent Systems

Ο Jan Peters είναι τακτικός καθηγητής για Ευφυή Αυτόνομα Συστήματα στο Technische Universitaet Darmstadt και ανώτερος ερευνητής στο MPI for Intelligent Systems



Source link

By koutsobolis

koutsobolis.com

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *