डीप 'रेनफोर्समेंट लर्निंग' टीचिंग रोबोट्स न्यू स्किल्स फास्टर थान एवर

$config[ads_kvadrat] not found
Anonim

रोबोट सीख रहे हैं कि कैसे आभासी दुनिया में काम पूरा करना है, कुछ घंटों में कौशल विकसित करना जो अन्यथा महीनों लग सकते हैं। डीप रिइनफोर्समेंट लर्निंग (या डीप आरएल) का मतलब एक ऐसा कौशल है जो आमतौर पर ए.आई. के लिए 55 दिन का समय लेता है। वास्तविक दुनिया में सीखने के लिए हाइपर-त्वरित कक्षा में केवल एक दिन लगता है।

Google DeepMind के एक शोध वैज्ञानिक, Raia Hadsell ने गुरुवार को लंदन में री-वर्क डीप लर्निंग समिट में कहा, "यह वास्तव में क्रांति लाने की क्षमता है जो हम रोबोटिक्स डोमेन में कर सकते हैं।" "हम मानव स्तर के कौशल सीख सकते हैं।"

यह काउंटर-सहज ज्ञान युक्त लग सकता है, क्योंकि निश्चित रूप से रोबोट के पूरे बिंदु प्रोग्रामर हैं जो उन्हें चीजें करना सिखा सकते हैं, है ना? वास्तविक दुनिया में काम करने वाली मशीन को डिजाइन करते समय, हालांकि, रोबोट को एक अपरिचित स्थिति में कार्य करने के तरीके को समझने के लिए संपूर्ण डेटा की आवश्यकता होती है। A.I. पहले से आए सभी उदाहरणों के आधार पर एक कौशल को "जानने" के लिए इस डेटा का उपयोग कर सकते हैं।

डीप रीइन्फोर्समेंट लर्निंग उस डेटा को एक समान तरीके से इकट्ठा करता है कि मनुष्य कैसे सीखते हैं: एक रोबोट बार-बार एक कार्य को पूरा करेगा, जैसे एक गेंद को पकड़ना, और एक नई स्थिति में एक गेंद को पकड़ने के लिए सबसे अच्छा चित्र बनाने के लिए डेटा रिकॉर्ड करना। 2013 में जब डीपमाइंड ने एक रोबोट को सिखाने के लिए मॉडल का इस्तेमाल किया, तो उसने अटारी गेम को कैसे मास्टर किया, बस इसे स्क्रीन के सामने बैठकर इसे अंतिम लक्ष्य बताया, वैज्ञानिक समुदाय ने इसे पसंद किया।

समस्या यह है, यह हमेशा के लिए लेता है। आपको बार-बार रोबोट पर गेंदों को फेंकने की ज़रूरत है, या अटारी मामले में, रोबोट को अपने बेडरूम में थोड़ी देर के लिए अकेला छोड़ दें। एक प्रोग्रेसिव न्यूरल नेटवर्क के साथ एक म्यूजिको सिमुलेशन चलाते हुए, ट्रेनर एक प्रोग्राम चला सकते हैं जो रोबोट की नकल करता है, रोबोट के लिए सीखे हुए व्यवहारों को स्थानांतरित करता है और वास्तविक दुनिया में आभासी आंदोलनों को मैप करता है।

"हम पूरे दिन और पूरी रात उन सिमुलेटरों को चला सकते हैं," हाडसेल ने कहा।

परिणाम खुद अपनी कहानी कहते हैं। यह रोबोट, जिसने पकड़ने में अपना डिप्लोमा प्राप्त किया था, अब आभासी गेंदों का पालन कर सकता है जैसे कि वे वास्तविक थे, बड़े दिन के लिए इसे प्राइमिंग करते हैं जब इसे असली गेंद पकड़ने के लिए कहा जाता है:

$config[ads_kvadrat] not found