मशीन लर्निंग के लिए डीपफेक इज नो मैच - हियर व्हाईट

$config[ads_kvadrat] not found

Faith Evans feat. Stevie J – "A Minute" [Official Music Video]

Faith Evans feat. Stevie J – "A Minute" [Official Music Video]

विषयसूची:

Anonim

गलत सूचनाओं का एक नया रूप ऑनलाइन समुदायों के माध्यम से फैलने के लिए तैयार है, क्योंकि 2018 के मध्य चुनाव अभियान गर्मी बढ़ा रहे हैं। छद्म नाम के ऑनलाइन खाते के बाद "डीपफेक" कहा जाता है जिसने तकनीक को लोकप्रिय बनाया - जिसने अपना नाम चुना हो सकता है क्योंकि प्रक्रिया "गहरी शिक्षा" नामक तकनीकी पद्धति का उपयोग करती है - ये नकली वीडियो बहुत यथार्थवादी लगते हैं।

अब तक, लोगों ने पोर्नोग्राफ़ी और व्यंग्य में गहरे वीडियो का उपयोग किया है ताकि यह प्रतीत हो सके कि प्रसिद्ध लोग वे चीजें कर रहे हैं जो वे सामान्य रूप से नहीं कर रहे हैं। लेकिन अभियान के मौसम के दौरान यह लगभग निश्चित रूप से गहरा होगा, जो उम्मीदवारों को यह कहते हुए चित्रित करने के लिए प्रेरित करेगा कि असली उम्मीदवार क्या करेंगे या नहीं जा रहे हैं।

क्योंकि ये तकनीकें इतनी नई हैं, इसलिए लोगों को असली वीडियो और डीपफेक वीडियो के बीच अंतर बताने में परेशानी हो रही है। मेरा काम, मेरे सहयोगी मिंग-चिंग चांग और हमारे पीएच.डी. छात्र यूज़ुन ली, ने वास्तविक वीडियो को डीपफेक वीडियो से मज़बूती से बताने का एक तरीका खोजा है। यह एक स्थायी समाधान नहीं है, क्योंकि प्रौद्योगिकी में सुधार होगा। लेकिन यह एक शुरुआत है, और आशा करता है कि कंप्यूटर लोगों को कल्पना से सच्चाई बताने में मदद कर सकेंगे।

वैसे भी "डीपफेक" क्या है?

डीपफेक वीडियो बनाना भाषाओं के बीच अनुवाद करने जैसा है। Google अनुवाद जैसी सेवाएं मशीन लर्निंग - कई भाषाओं में हजारों ग्रंथों के दसियों के कंप्यूटर विश्लेषण - शब्द-उपयोग के पैटर्न का पता लगाने के लिए उपयोग करती हैं जो वे अनुवाद बनाने के लिए उपयोग करते हैं।

डीपफेक एल्गोरिदम उसी तरह काम करते हैं: वे एक प्रकार के मशीन लर्निंग सिस्टम का उपयोग करते हैं जिसे एक व्यक्ति के चेहरे की गतिविधियों की जांच करने के लिए एक गहरे तंत्रिका नेटवर्क कहा जाता है। फिर वे एक दूसरे व्यक्ति के चेहरे की छवियों को संश्लेषित करते हैं जो अनुरूप आंदोलनों को बनाते हैं। प्रभावी ढंग से ऐसा करने से लक्ष्य व्यक्ति का एक वीडियो बनता है जो स्रोत व्यक्ति ने उन चीजों को करने या कहने के लिए कहा है।

इससे पहले कि वे ठीक से काम कर सकें, गहरे तंत्रिका नेटवर्क को बहुत सारी स्रोत जानकारी की आवश्यकता होती है, जैसे कि व्यक्तियों के फोटो स्रोत या प्रतिरूपण का लक्ष्य। डीपफेक एल्गोरिदम को प्रशिक्षित करने के लिए जितनी अधिक छवियां उपयोग की जाएंगी, उतनी ही वास्तविक डिजिटल प्रतिरूपण होगा।

निमिष का पता लगाना

इस नए प्रकार के एल्गोरिदम में अभी भी खामियां हैं। उनमें से एक के साथ यह करना है कि नकली चेहरे कैसे पलक झपकते हैं - या नहीं। स्वस्थ वयस्क मनुष्य हर दो और 10 सेकंड के बीच कहीं पलक झपकाते हैं, और एक पलक एक सेकंड के दसवें और चार-दसवें हिस्से के बीच लगती है। बात करने वाले व्यक्ति के वीडियो में यह देखना सामान्य होगा। लेकिन यह बहुत सारे गहरे वीडियो में नहीं होता है।

जब किसी व्यक्ति के चेहरे की छवियों पर एक गहरी एल्गोरिथ्म को प्रशिक्षित किया जाता है, तो यह उन तस्वीरों पर निर्भर करता है जो इंटरनेट पर उपलब्ध हैं जिन्हें प्रशिक्षण डेटा के रूप में उपयोग किया जा सकता है। यहां तक ​​कि जो लोग अक्सर फोटो खिंचवाते हैं, उनके लिए कुछ चित्र ऑनलाइन उपलब्ध होते हैं जो उनकी आंखें बंद करते हैं। न केवल उस दुर्लभ जैसी तस्वीरें हैं - क्योंकि लोगों की आँखें ज्यादातर समय खुली रहती हैं - लेकिन फ़ोटोग्राफ़र्स आमतौर पर उन छवियों को प्रकाशित नहीं करते हैं जहां मुख्य विषयों की आँखें बंद हैं।

झपकी लेने वाले लोगों के प्रशिक्षण के बिना, डीपफेक एल्गोरिदम उन चेहरों को बनाने की संभावना कम है जो सामान्य रूप से झपकी लेते हैं। जब हम ब्लिंकिंग की समग्र दर की गणना करते हैं और प्राकृतिक श्रेणी के साथ तुलना करते हैं, तो हमने पाया कि डीपफेक वीडियो के पात्र वास्तविक लोगों की तुलना में बहुत कम बार ब्लिंक करते हैं। हमारा शोध वीडियो में आंखों के खुलने और बंद होने की जांच करने के लिए मशीन लर्निंग का उपयोग करता है।

इसे भी देखें: हॉलीवुड ने एशियाई-अमेरिकी सितारों को कास्ट नहीं किया, लेकिन ए.आई. मशीन लर्निंग कर सकते हैं

इससे हमें डीपफेक वीडियो का पता लगाने की प्रेरणा मिलती है। इसके बाद, हम वीडियो में पलक झपकते ही यह पता लगाने के लिए एक विधि विकसित करते हैं। अधिक विशिष्ट होने के लिए, यह विचाराधीन वीडियो के प्रत्येक फ्रेम को स्कैन करता है, इसमें चेहरे का पता लगाता है और फिर आंखों को स्वचालित रूप से पता लगाता है। यह तब निर्धारित करने के लिए एक और गहरे तंत्रिका नेटवर्क का उपयोग करता है कि अगर आंख की उपस्थिति, ज्यामितीय विशेषताओं और आंदोलन का उपयोग करके पता लगाया गया है कि आंख खुली या बंद है।

हम जानते हैं कि हमारा काम डीपफेक एल्गोरिदम को प्रशिक्षित करने के लिए उपलब्ध डेटा की तरह एक दोष का लाभ उठा रहा है। एक समान दोष के शिकार होने से बचने के लिए, हमने अपने सिस्टम को खुली और बंद दोनों आँखों की बड़ी लाइब्रेरी पर प्रशिक्षित किया है। यह विधि अच्छी तरह से काम करती है, और परिणामस्वरूप, हमने 95 प्रतिशत से अधिक का पता लगाने की दर हासिल की है।

यह निश्चित रूप से डीपफेक का पता लगाने पर अंतिम शब्द नहीं है। तकनीक में तेजी से सुधार हो रहा है, और नकली वीडियो बनाने और पता लगाने के बीच प्रतिस्पर्धा शतरंज के खेल के अनुरूप है। विशेष रूप से, ब्लिंकिंग को बंद आंखों के साथ चेहरे की छवियों को शामिल करके या प्रशिक्षण के लिए वीडियो अनुक्रमों का उपयोग करके वीडियो में गहराई से जोड़ा जा सकता है। जो लोग जनता को भ्रमित करना चाहते हैं, वे झूठे वीडियो बनाने में बेहतर हो जाएंगे - और हमें और प्रौद्योगिकी समुदाय के अन्य लोगों को उनका पता लगाने के तरीकों को जारी रखने की आवश्यकता होगी।

यह लेख मूल रूप से Siwei Lyu द्वारा वार्तालाप पर प्रकाशित किया गया था। मूल लेख यहां पढ़ें।

$config[ads_kvadrat] not found