क्या Google का "अतिमानवीय" तंत्रिका नेटवर्क वास्तव में किसी भी छवि का स्थान बता सकता है?

$config[ads_kvadrat] not found

Faith Evans feat. Stevie J – "A Minute" [Official Music Video]

Faith Evans feat. Stevie J – "A Minute" [Official Music Video]
Anonim

छवियों की खोज करना पहले से आसान है। लेकिन अगर आप किसी ऐसी जगह पर किसी चीज़ की तस्वीर ढूंढने की कोशिश कर रहे हैं जो पूरी तरह से स्पष्ट नहीं है (तो पेरिस में मिस्र के पिरामिड या विशालकाय अंगूठे की मूर्ति नहीं है), तो यह आपके हिसाब से कठिन है - यहां तक ​​कि जियोलोकेशन की जानकारी के आधार पर छवि में।

टोबियास वीएंड नामक Google इंजीनियर और उसके सहयोगियों की एक जोड़ी दर्ज करें। जर्नल में एक नए कागज के अनुसार arXiv (उच्चारण "संग्रह"), तीनों ने एक गहरी-सीखने की मशीन का निर्माण किया है जो पूरी तरह से अपने पिक्सल के विश्लेषण के आधार पर लगभग किसी भी फोटो के स्थान को इंगित करने में सक्षम है।

इस तरह एक कार्य को सफलतापूर्वक पूरा करने के लिए मशीन प्राप्त करने के लिए, आप इसे दृश्य सुराग के आधार पर जानकारी को इंटुइट करने की क्षमता देना चाहते हैं। आप यह सोचना चाहते हैं, दूसरे शब्दों में, एक इंसान की तरह।

वीएंड ने एक कृत्रिम तंत्रिका नेटवर्क विकसित करने के बारे में निर्धारित किया है - एक मशीन प्रणाली जिसे मस्तिष्क के तंत्रिका संबंधी मार्गों की नकल करने के लिए डिज़ाइन किया गया है, जो इसे मानव की तरह जानकारी को सीखने, संसाधित करने और याद रखने की अनुमति देता है। यह नई प्रणाली, प्लेनेट, स्पष्ट रूप से छवियों के स्थानों को निर्धारित करने में मनुष्यों को पछाड़ने में सक्षम है, चाहे वह सेटिंग हो - चाहे वह इनडोर हो या आउटडोर, और किसी भी तरह के अनूठे या नॉनसेडस्क्रिप्ट दृश्य संकेतों की विशेषता है।

प्लांट कैसे बिगड़ता है? वायंड और उनकी टीम ने दुनिया के एक नक्शे को एक ग्रिड में विभाजित किया, जो विभिन्न क्षेत्रों पर 26,000 वर्ग जैसी आकृतियों को रखा गया था, जो इस बात पर निर्भर करता था कि उन स्थानों में कितने चित्र लिए गए थे। घने स्थान जहां बहुत सारे चित्र छोटे वर्ग में फिट किए जाते हैं, वहीं बड़े, अधिक दूरस्थ क्षेत्र बड़े वर्गों में कट सकते हैं।

टीम ने तब पहले से ही भूगोलित छवियों का एक बड़ा डेटाबेस तैयार किया - लगभग 126 मिलियन अलग-अलग तस्वीरें। लगभग 91 मिलियन का उपयोग प्लेनेट को सिखाने के लिए किया गया था कि यह पता लगाने के लिए कि दुनिया के नक्शे पर किस ग्रिड में किस छवि को रखा जा सकता है।

फिर, तंत्रिका नेटवर्क को डेटाबेस से अन्य 34 मिलियन छवियों को जियोलोकेशन करने का काम सौंपा गया था। अंत में, प्लेनेट को फ्लिकर से 2.3 मिलियन जियोटैगेड छवियों के डेटा सेट पर सेट किया गया था।

परिणाम? प्लाएनेट तस्वीरों के 28.4 प्रतिशत और महाद्वीप के 48 प्रतिशत हिस्से के लिए मूल देश का निर्धारण कर सकता है। इसके अलावा, सिस्टम फ़्लिकर छवियों के 3.6 प्रतिशत के लिए एक सड़क-स्तरीय स्थान, और 10.1-प्रतिशत के लिए शहर-स्तरीय स्थान को इंगित कर सकता है।

और प्लेनेट इस पर अधिकांश मनुष्यों की तुलना में बेहतर है - यहां तक ​​कि सबसे बड़ा ग्लोबट्रॉटर भी। Weyand ने Google स्ट्रीट व्यू पर पाए गए चित्रों के लेबलिंग स्थानों के एक गेम में PlNet के खिलाफ प्रतिस्पर्धा करने के लिए 10 अच्छी तरह से यात्रा करने वाले व्यक्तियों को सूचीबद्ध किया।

शोधकर्ताओं ने लिखा, "कुल मिलाकर, प्लैनेट ने 5031 में से 28 राउंड को 1131.7 किमी की औसत स्थानीयकरण त्रुटि के साथ जीता, जबकि औसत मानव स्थानीयकरण त्रुटि 2320.75 किमी थी।" "यह छोटे पैमाने पर प्रयोग से पता चलता है कि प्लेनेट, स्ट्रीट व्यू के दृश्यों को प्रदर्शित करने के कार्य में अलौकिक प्रदर्शन तक पहुँचता है।"

क्या यह सच है? क्या Google का इंजीनियर वास्तव में सिर्फ एक "अलौकिक" ए.आई. प्रणाली?

जब यह जियोलोकेशन छवियों की बात आती है, तो शायद। और यह सब बहुत आश्चर्य की बात नहीं है - ए.आई. सभी तरीकों से मानव मस्तिष्क की मौलिक रूप से नकल नहीं करना है, लेकिन बहुत अधिक कठिन कार्यों को पूरा करने के लिए कुछ विशिष्ट तरीकों से मानव सीमाओं को पार करना है। तो उस अर्थ में, जो शोधकर्ता लिखते हैं वह सच है।

फिर भी, यह प्लेनेट को "तंत्रिका नेटवर्क" कहने के लिए एक खिंचाव है। उस तरह की तकनीक का एक आदर्श रूप छवि जियोलोकेशन की तुलना में बहुत अधिक सीखने में सक्षम होगा। A.I. सिस्टम सिमाइल लिखने और खेलने में सक्षम हैं सुपर मारियो, लेकिन यह एक आदर्श "मास्टर" प्रणाली की तुलना में छोटा सामान है जो परिवहन या ऊर्जा बुनियादी ढांचे का प्रबंधन और प्रबंधन कर सकता है।

$config[ads_kvadrat] not found