एल्गोरिथ्म दैट मस्टर्ड 'पोंग' नाउ एक्सिलेंट एट 'फ्लैपी बर्ड', स्टिल सिंगल

$config[ads_kvadrat] not found

पृथà¥?वी पर सà¥?थित à¤à¤¯à¤¾à¤¨à¤• नरक मंदिर | Amazing H

पृथà¥?वी पर सà¥?थित à¤à¤¯à¤¾à¤¨à¤• नरक मंदिर | Amazing H
Anonim

एक गहरी शिक्षा पद्धति में सुधार के लिए बीड़ा उठाया है पोंग, अंतरिक्ष आक्रमणकारी, और अन्य अटारी खेल, स्टैनफोर्ड विश्वविद्यालय के कंप्यूटर विज्ञान के छात्र केविन चेन ने एक एल्गोरिथ्म बनाया है जो क्लासिक 2014 साइड-स्क्रोलर में काफी अच्छा है। फ्लैपी चिड़ियां । चेन ने "क्यू-लर्निंग" के रूप में जाना जाता है एक अवधारणा का लाभ उठाया है, जिसमें एक एजेंट का उद्देश्य लगभग असंभव और असंभव नशे की लत खेल को सही करने के लिए, खेल के प्रत्येक पुनरावृत्ति के साथ अपने इनाम के स्कोर में सुधार करना है।

चेन ने एक ऐसी प्रणाली बनाई जिसमें उनके एल्गोरिथ्म को तीन पुरस्कारों के लिए अनुकूलित किया गया था: प्रत्येक फ्रेम के लिए एक छोटा सा सकारात्मक इनाम, यह जीवित रहा, एक पाइप से गुजरने के लिए एक बड़ा इनाम, और मरने के लिए एक समान रूप से बड़ा (लेकिन नकारात्मक) इनाम। इस प्रकार प्रेरित, तथाकथित गहरी-क्यू नेटवर्क मानव को आगे बढ़ा सकता है, रिपोर्ट के अनुसार चेन लेखक: “हम खेल को सफलतापूर्वक करने में सक्षम थे फ्लैपी चिड़ियां पिक्सेल और स्कोर से सीधे सीखकर, सुपर-मानव परिणाम प्राप्त करना।"

मूल अटारी पेपर, 2015 में प्रकाशित हुआ प्रकृति, Google के स्वामित्व वाली DeepMind कंपनी (अब प्राचीन चीनी बोर्ड गेम गो की महारत के लिए प्रसिद्ध है) से आया है। डीपमाइंड की उपलब्धि एक सफलता थी कि इसमें दृश्य - या पिक्सेल लिया गया, कम से कम - जानकारी, और, न्यूनतम इनपुट के साथ, अधिकतम पुरस्कार पाए गए। इस तरह की एक इनाम प्रणाली को मस्तिष्क की डोपामिनर्जिक प्रतिक्रिया के समान किया गया है, बस सरलीकृत किया गया है।

यह पहली बार नहीं है कि किसी अल्गोरिद्म ने फ्लैपिंग बर्ड पर विजय प्राप्त की है: स्टैनफोर्ड यूनिवर्सिटी के कंप्यूटर विज्ञान के छात्रों के एक पुराने वर्ग ने एक कार्यक्रम बनाया था, जब रात भर में प्रशिक्षित किया जाता है, तो इसका स्कोर 0 पाइप से बेहतर होकर 1,600 तक पहुंच गया।

$config[ads_kvadrat] not found