Συνέντευξη με τους Tao Chen, Jie Xu και Pulkit Agrawal: νικητές του βραβείου καλύτερου χαρτιού CoRL 2021


Συγχαρητήρια σε Τάο Τσεν, Jie Xu και Pulkit Agrawal που έχουν κερδίσει το Βραβείο καλύτερου χαρτιού Corl 2021!

Η δουλειά τους, Ένα σύστημα για γενικό αναπροσανατολισμό αντικειμένων στο χέρι, εγκωμιάστηκε ιδιαίτερα από την κριτική επιτροπή που το σχολίασε «Το απόλυτο εύρος και η ποικιλία μεταξύ των αντικειμένων που δοκιμάστηκαν με αυτήν τη μέθοδο και το εύρος των διαφορετικών αρχιτεκτονικών και προσεγγίσεων πολιτικής που δοκιμάστηκαν καθιστούν αυτό το έγγραφο εξαιρετικά εμπεριστατωμένο στην ανάλυση αυτής της εργασίας αναπροσανατολισμού»..

Παρακάτω, οι συγγραφείς μας λένε περισσότερα για τη δουλειά τους, τη μεθοδολογία και τι σχεδιάζουν στη συνέχεια.

Ποιο είναι το θέμα της έρευνας στην εργασία σας;

Παρουσιάζουμε ένα σύστημα για τον επαναπροσανατολισμό νέων αντικειμένων χρησιμοποιώντας ένα ανθρωπόμορφο ρομποτικό χέρι με οποιαδήποτε διαμόρφωση, με το χέρι στραμμένο προς τα πάνω και προς τα κάτω. Επιδεικνύουμε την ικανότητα επαναπροσανατολισμού πάνω από 2000 γεωμετρικά διαφορετικών αντικειμένων και στις δύο περιπτώσεις. Ο μαθημένος ελεγκτής μπορεί επίσης να επαναπροσανατολίσει νέα αόρατα αντικείμενα.

Θα μπορούσατε να μας πείτε για τις επιπτώσεις της έρευνάς σας και γιατί είναι ένας ενδιαφέρον τομέας για μελέτη;

Η μαθημένη μας δεξιότητα (επαναπροσανατολισμός αντικειμένων στο χέρι) μπορεί να επιτρέψει τη γρήγορη επιλογή και τοποθέτηση αντικειμένων στους επιθυμητούς προσανατολισμούς και τοποθεσίες. Για παράδειγμα, στα logistics και την κατασκευή, είναι κοινή απαίτηση να συσκευάζονται αντικείμενα σε υποδοχές για κιτ. Επί του παρόντος, αυτό επιτυγχάνεται συνήθως μέσω μιας διαδικασίας δύο σταδίων που περιλαμβάνει την εκ νέου σύλληψη. Το σύστημά μας θα είναι σε θέση να το επιτύχει σε ένα βήμα, το οποίο μπορεί να βελτιώσει ουσιαστικά την ταχύτητα συσκευασίας και να ενισχύσει την απόδοση κατασκευής.

Μια άλλη εφαρμογή δίνει τη δυνατότητα στα ρομπότ να χειρίζονται μια ευρύτερη ποικιλία εργαλείων. Ο πιο συνηθισμένος τελικός τελεστής στα βιομηχανικά ρομπότ είναι μια λαβή με παράλληλη σιαγόνα, εν μέρει λόγω της απλότητάς της στον έλεγχο. Ωστόσο, ένας τέτοιος τελικός τελεστής είναι φυσικά ανίκανος να χειριστεί πολλά εργαλεία που βλέπουμε στην καθημερινή μας ζωή. Για παράδειγμα, ακόμη και η χρήση πένσας είναι δύσκολη για μια τέτοια λαβή, καθώς δεν μπορεί να μετακινήσει επιδέξια τη μία λαβή μπρος-πίσω. Το σύστημά μας θα επιτρέψει σε ένα χέρι με πολλά δάχτυλα να χειρίζεται επιδέξια τέτοια εργαλεία, γεγονός που ανοίγει μια νέα περιοχή για εφαρμογές ρομποτικής.

Θα μπορούσατε να εξηγήσετε τη μεθοδολογία σας;

Χρησιμοποιούμε έναν αλγόριθμο μάθησης ενίσχυσης χωρίς μοντέλα για να εκπαιδεύσουμε τον ελεγκτή για τον επαναπροσανατολισμό αντικειμένων. Ο επαναπροσανατολισμός αντικειμένων στο χέρι είναι μια απαιτητική εργασία πλούσια σε επαφές. Απαιτεί μια τεράστια ποσότητα εκπαίδευσης. Για να επιταχύνουμε τη διαδικασία εκμάθησης, πρώτα εκπαιδεύουμε την πολιτική με πληροφορίες προνομιούχων καταστάσεων, όπως οι ταχύτητες αντικειμένων. Η χρήση των πληροφοριών προνομιακής κατάστασης βελτιώνει δραστικά την ταχύτητα εκμάθησης. Εκτός από αυτό, διαπιστώσαμε επίσης ότι η παροχή μιας καλής προετοιμασίας στη στάση του χεριού και του αντικειμένου είναι κρίσιμη για την εκπαίδευση του ελεγκτή να επαναπροσανατολίζει τα αντικείμενα όταν το χέρι είναι στραμμένο προς τα κάτω. Επιπλέον, αναπτύσσουμε μια τεχνική για τη διευκόλυνση της εκπαίδευσης δημιουργώντας ένα πρόγραμμα σπουδών για τη βαρυτική επιτάχυνση. Ονομάζουμε αυτή την τεχνική «πρόγραμμα σπουδών βαρύτητας».

Με αυτές τις τεχνικές, είμαστε σε θέση να εκπαιδεύσουμε έναν ελεγκτή που μπορεί να επαναπροσανατολίσει πολλά αντικείμενα ακόμη και με ένα χέρι στραμμένο προς τα κάτω. Ωστόσο, μια πρακτική ανησυχία του μαθημένου ελεγκτή είναι ότι κάνει χρήση πληροφοριών προνομιούχων καταστάσεων, οι οποίες μπορεί να είναι μη τετριμμένες για να ληφθούν στον πραγματικό κόσμο. Για παράδειγμα, είναι δύσκολο να μετρηθεί η ταχύτητα του αντικειμένου στον πραγματικό κόσμο. Για να διασφαλίσουμε ότι μπορούμε να αναπτύξουμε έναν ελεγκτή αξιόπιστα στον πραγματικό κόσμο, χρησιμοποιούμε εκπαίδευση δασκάλων-μαθητών. Ως δάσκαλο χρησιμοποιούμε τον ελεγκτή που έχει εκπαιδευτεί με τις προνομιακές πληροφορίες κατάστασης. Στη συνέχεια εκπαιδεύουμε έναν δεύτερο ελεγκτή (μαθητή) που δεν βασίζεται σε προνομιακές πληροφορίες κατάστασης και ως εκ τούτου έχει τη δυνατότητα να αναπτυχθεί αξιόπιστα στον πραγματικό κόσμο. Αυτός ο ελεγκτής μαθητή έχει εκπαιδευτεί να μιμείται τον ελεγκτή καθηγητή χρησιμοποιώντας μίμηση μάθησης. Η εκπαίδευση του ελεγκτή μαθητή γίνεται ένα εποπτευόμενο μαθησιακό πρόβλημα και επομένως είναι αποτελεσματική ως προς το δείγμα. Στον χρόνο ανάπτυξης χρειαζόμαστε μόνο τον ελεγκτή μαθητή.

Ποια ήταν τα κύρια ευρήματά σας;

Αναπτύξαμε ένα γενικό σύστημα που μπορεί να χρησιμοποιηθεί για την εκπαίδευση ελεγκτών που μπορούν να επαναπροσανατολίσουν αντικείμενα είτε με το ρομποτικό χέρι στραμμένο προς τα πάνω ή προς τα κάτω. Το ίδιο σύστημα μπορεί επίσης να χρησιμοποιηθεί για την εκπαίδευση ελεγκτών που χρησιμοποιούν εξωτερική υποστήριξη, όπως μια επιφάνεια στήριξης για τον επαναπροσανατολισμό των αντικειμένων. Τέτοιοι ελεγκτές που μαθαίνουμε στο σύστημά μας είναι ισχυροί και μπορούν επίσης να επαναπροσανατολίσουν αόρατα νέα αντικείμενα. Προσδιορίσαμε επίσης αρκετές τεχνικές που είναι σημαντικές για την εκπαίδευση ενός ελεγκτή ώστε να επαναπροσανατολίζει αντικείμενα με ένα χέρι στραμμένο προς τα κάτω.

Εκ των προτέρων Θα μπορούσε κανείς να πιστέψει ότι είναι σημαντικό για το ρομπότ να γνωρίζει το σχήμα των αντικειμένων προκειμένου να χειριστεί νέα σχήματα. Παραδόξως, διαπιστώνουμε ότι το ρομπότ μπορεί να χειριστεί νέα αντικείμενα χωρίς να γνωρίζει το σχήμα τους. Υποδηλώνει ότι οι ισχυρές στρατηγικές ελέγχου μετριάζουν την ανάγκη για πολύπλοκη αντιληπτική επεξεργασία. Με άλλα λόγια, μπορεί να χρειαζόμαστε πολύ απλούστερες στρατηγικές αντιληπτικής επεξεργασίας από ό,τι πιστεύαμε προηγουμένως για πολύπλοκες εργασίες χειρισμού.

Τι περαιτέρω εργασίες σχεδιάζετε σε αυτόν τον τομέα;

Το άμεσο επόμενο βήμα μας είναι να επιτύχουμε τέτοιες δεξιότητες χειρισμού σε ένα πραγματικό ρομποτικό χέρι. Για να το πετύχουμε αυτό, θα χρειαστεί να αντιμετωπίσουμε πολλές προκλήσεις. Θα διερευνήσουμε την υπέρβαση του κενού sim-to-real έτσι ώστε τα αποτελέσματα της προσομοίωσης να μπορούν να μεταφερθούν στον πραγματικό κόσμο. Σχεδιάζουμε επίσης να σχεδιάσουμε νέο ρομποτικό εξοπλισμό χειρός μέσω συνεργασίας, έτσι ώστε ολόκληρο το ρομποτικό σύστημα να είναι επιδέξιο και χαμηλού κόστους.


Σχετικά με τους συγγραφείς

Τάο ΤσενΤάο Τσεν είναι Ph.D. φοιτητής στο Improbable AI Lab στο MIT CSAIL, με συμβουλή του καθηγητή Pulkit Agrawal. Τα ερευνητικά του ενδιαφέροντα περιστρέφονται γύρω από τη διασταύρωση της μάθησης ρομπότ, του χειρισμού, της μετακίνησης και της πλοήγησης. Πιο πρόσφατα, έχει επικεντρωθεί σε επιδέξιους χειρισμούς. Οι ερευνητικές του εργασίες έχουν δημοσιευθεί σε κορυφαία συνέδρια AI και ρομποτικής. Έλαβε το μεταπτυχιακό του, με τη συμβουλή του καθηγητή Abhinav Gupta, από το Ινστιτούτο Ρομποτικής στο CMU, και το πτυχίο του από το Πανεπιστήμιο Jiao Tong της Σαγκάης.

Jie XuJie Xu είναι Ph.D. φοιτητής στο MIT CSAIL, με συμβουλές από τον καθηγητή Wojciech Matusik στην Ομάδα Υπολογιστικού Σχεδιασμού και Κατασκευής (CDFG). Απέκτησε πτυχίο από το Τμήμα Επιστήμης και Τεχνολογίας Υπολογιστών στο Πανεπιστήμιο Tsinghua με άριστα το 2016. Κατά τη διάρκεια της προπτυχιακής του περιόδου, εργάστηκε με τον καθηγητή Shi-Min Hu στο Tsinghua Graphics & Geometric Computing Group. Η έρευνά του επικεντρώνεται κυρίως στη διασταύρωση της Ρομποτικής, της Προσομοίωσης και της Μηχανικής Μάθησης. Συγκεκριμένα, ενδιαφέρεται για τα ακόλουθα θέματα: έλεγχος ρομποτικής, ενισχυτική μάθηση, διαφοροποιήσιμη προσομοίωση με βάση τη φυσική, έλεγχος ρομποτικής και συν-βελτιστοποίηση σχεδίασης και sim-to-real.

Pulkit AgrawalΔρ Pulkit Agrawal είναι ο Steven and Renee Finn Chair Professor στο Τμήμα Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών στο MIT. Απέκτησε το διδακτορικό του. από το UC Berkeley και συνιδρυτής της SafelyYou Inc. Τα ερευνητικά του ενδιαφέροντα αφορούν τη ρομποτική, τη βαθιά μάθηση, την όραση υπολογιστών και την ενισχυτική μάθηση. Ο Pulkit ολοκλήρωσε το πτυχίο του στο IIT Kanpur και του απονεμήθηκε το Χρυσό Μετάλλιο του Διευθυντή. Είναι αποδέκτης του Sony Faculty Research Award, του Salesforce Research Award, του Amazon Machine Learning Research Award, του Signatures Fellow Award, του Fulbright Science and Technology Award, του Goldman Sachs Global Leadership Award, του OPJEMS και του Sridhar Memorial Prize, μεταξύ άλλων.


Μάθετε περισσότερα

  • Διαβάστε την εφημερίδα στο arXiv.
  • Τα βίντεο των μαθησιακών πολιτικών είναι διαθέσιμα εδώ, όπως είναι ένα βίντεο από την παρουσίαση των συγγραφέων στο CoRL.
  • Διαβάστε περισσότερα σχετικά με τις νικητήριες και τις επιλεγμένες εργασίες για τα βραβεία CoRL εδώ.

ετικέτες: ,


Η Lucy Smith είναι Managing Editor για το AIhub.



Source link

By koutsobolis

koutsobolis.com

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται.