दीपमिन्द ए.आई. रोबोट और मानव आवाज़ के बीच गैप को पाटता है

$config[ads_kvadrat] not found

A day with Scandale - Harmonie Collection - Spring / Summer 2013

A day with Scandale - Harmonie Collection - Spring / Summer 2013
Anonim

कृत्रिम बुद्धिमत्ता ने सिर्फ रोबोट की आवाज़ को और अधिक यथार्थवादी बनाया।

दीपमिन्द, जिसने पहले ए.आई. की शक्ति का प्रदर्शन किया था। मार्च में गो में एक मानव खिलाड़ी की पिटाई और जुलाई में आधे में उसके बिजली बिल में कटौती करके, अब भाषण संश्लेषण पर ध्यान केंद्रित किया गया है।

ए.आई. अनुसंधान समूह, जो कि Google मूल कंपनी अल्फाबेट का हिस्सा है, ने आज सुबह खुलासा किया कि इसने एक नई तकनीक बनाई है जिसे वेवनेट कहा जाता है जिसका उपयोग भाषण, संगीत और अन्य ध्वनियों को पहले से अधिक सटीक रूप से उत्पन्न करने के लिए किया जा सकता है।

दीपमिन्द बताते हैं कि कई मौजूदा स्पीच सिंथेसिस मेथड्स पर भरोसा करते हैं, "एक स्पीच के बहुत बड़े डेटाबेस को एक ही स्पीकर से रिकॉर्ड किया जाता है और फिर पूरी तरह से उच्चारण करने के लिए फिर से तैयार किया जाता है।" वेवनेट दूसरी तरफ, ऑडियो सिग्नल के कच्चे तरंग का उपयोग करता है। “अधिक यथार्थवादी आवाज़ और आवाज़ बनाने के लिए।

इसका मतलब यह है कि वेवनेट पूरी तरह से बनाई गई ध्वनियों के साथ काम कर रहा है जब एक मानव पूर्ण शब्दांश या संपूर्ण शब्दों का उपयोग करने के बजाय बोलता है। उन ध्वनियों को "कम्प्यूटेशनल रूप से महंगी" प्रक्रिया के माध्यम से चलाया जाता है, जो दीपमिन्द ने मशीनों के साथ "जटिल, यथार्थवादी-ध्वनि वाले ऑडियो" उत्पन्न करने के लिए आवश्यक पाया है।

उन सभी का परिणाम है कि अमेरिकी अंग्रेजी और चीनी मंदारिन में संश्लेषित भाषण के लिए अतिरिक्त काम 50 प्रतिशत सुधार है। पैरामीट्रिक टेक्स्ट-टू-स्पीच का उपयोग करके उत्पन्न भाषण का एक उदाहरण है, जो आज आम है, दीपमाइंड द्वारा इस भाषण संश्लेषण विधि की कमी को प्रदर्शित करने के लिए उपयोग किया जाता है:

और यहाँ उसी वाक्य का एक उदाहरण WaveNet द्वारा उत्पन्न किया गया है:

जैसा कि कंपनियां प्राकृतिक भाषा इंटरफेस पर अपना काम जारी रखती हैं, और अधिक यथार्थवादी-ध्वनि-प्रतिक्रिया की पेशकश तेजी से महत्वपूर्ण होती जा रही है। वेवनेट उस समस्या को हल करने में मदद कर सकता है।

$config[ads_kvadrat] not found