दृष्टि और भाषा का मेल अधिक सक्षम एआई की कुंजी रख सकता है – Vanity Kippah

Written by Frank James

बुद्धि के सिद्धांत के आधार पर आप सदस्यता लेते हैं, मानव-स्तर एआई को प्राप्त करने के लिए एक ऐसी प्रणाली की आवश्यकता होती है जो कई तौर-तरीकों का उपयोग कर सके – उदाहरण के लिए, ध्वनि, छवि और पाठ – दुनिया के बारे में तर्क करने के लिए। उदाहरण के लिए, जब एक बर्फीले राजमार्ग पर एक पलटे हुए ट्रक और एक पुलिस कार की छवि दिखाई जाती है, तो मानव-स्तरीय AI यह निष्कर्ष निकाल सकता है कि खतरनाक सड़क की स्थिति दुर्घटना का कारण बनी। या, रोबोट पर दौड़ते हुए, जब फ्रिज से सोडा की एक कैन लेने के लिए कहा जाता है, तो वे लोगों, फर्नीचर और पालतू जानवरों के चारों ओर नेविगेट कर सकते हैं और इसे आवेदक की पहुंच के भीतर रख सकते हैं।

आज का AI छोटा है। लेकिन नए शोध में रोबोट से उत्साहजनक प्रगति के संकेत मिले हैं, जो बुनियादी आदेशों को पूरा करने के लिए कदम तैयार कर सकते हैं (उदाहरण के लिए, “पानी की बोतल प्राप्त करें”) पाठ-उत्पादक प्रणालियों के लिए जो स्पष्टीकरण से सीखते हैं। डीप साइंस के इस पुनर्जीवित संस्करण में, एआई और व्यापक वैज्ञानिक क्षेत्र में नवीनतम प्रगति पर हमारी साप्ताहिक श्रृंखला, हम डीपमाइंड, गूगल और ओपनएआई के काम को उन प्रणालियों की ओर आगे बढ़ाते हैं जो दुनिया को बनाते हैं – यदि पूरी तरह से नहीं। – सक्षम हो समझने के लिए – छोटे कार्यों को हल करें जैसे कि प्रभावशाली मजबूती के साथ चित्र बनाना।

AI अनुसंधान प्रयोगशाला OpenAI की उन्नत DALL-E, DALL-E 2, एआई अनुसंधान प्रयोगशाला की गहराई से उभरने के लिए यकीनन सबसे प्रभावशाली परियोजना है। जैसा कि मेरे सहयोगी डेविन कोल्डवी लिखते हैं, DALL-E 2 और भी आगे जाता है, जबकि मूल DALL-E ने ऐसी छवियां बनाने की उल्लेखनीय क्षमता दिखाई जो लगभग किसी भी संकेत (जैसे, “बेरेट पहने हुए कुत्ते”) के अनुकूल हो। इसके द्वारा निर्मित छवियां बहुत अधिक विस्तृत हैं, और DALL-E 2 छवि में किसी विशेष क्षेत्र को समझदारी से बदल सकता है, उदाहरण के लिए उपयुक्त प्रतिबिंबों से भरे संगमरमर के फर्श की तस्वीर में एक तालिका सम्मिलित करना।

ओपनएआई दाल-ई 2

छवियों के प्रकारों का एक उदाहरण DALL-E 2 उत्पन्न कर सकता है।

इस हफ्ते DALL-E 2 पर सबसे ज्यादा ध्यान गया। लेकिन गुरुवार को, Google के शोधकर्ताओं ने Google के AI ब्लॉग पर प्रकाशित एक पोस्ट में एक समान रूप से प्रभावशाली दृश्य समझ प्रणाली का वर्णन किया, जिसे टेक्स्ट-टू-स्पीच – VDTTS के लिए विज़ुअली-ड्रिवेन प्रोसोडी कहा जाता है। VDTTS बोलने वाले व्यक्ति के टेक्स्ट और वीडियो फ्रेम से ज्यादा कुछ नहीं के साथ यथार्थवादी-ध्वनि, लिप-सिंक भाषण उत्पन्न कर सकता है।

वीडीटीटीएस द्वारा उत्पन्न भाषण, जबकि रिकॉर्ड किए गए संवाद के लिए एक आदर्श प्रतिस्थापन नहीं है, अभी भी काफी अच्छा है, जिसमें मानवीय अभिव्यक्ति और समय है। Google देखता है कि एक दिन इसका उपयोग स्टूडियो में मूल ऑडियो को बदलने के लिए किया जा रहा है जो शोर की स्थिति में रिकॉर्ड किया गया हो सकता है।

दृश्य समझ, निश्चित रूप से, अधिक सक्षम एआई की ओर केवल एक कदम है। एक अन्य घटक भाषा की समझ है, जो कई मायनों में पिछड़ रही है – यहां तक ​​​​कि एआई की अच्छी तरह से प्रलेखित विषाक्तता और पूर्वाग्रह के मुद्दों को अलग करना। एक स्पष्ट उदाहरण में, Google की एक परिष्कृत प्रणाली, पाथवे लैंग्वेज मॉडल (PaLM) ने एक पेपर के अनुसार, इसे “ट्रेन” करने के लिए उपयोग किए गए 40% डेटा को याद किया, जिसके परिणामस्वरूप PaLM ने कोड के टुकड़ों में कॉपीराइट नोटिस के लिए पाठ की चोरी की।

सौभाग्य से, डीपमाइंड, अल्फाबेट द्वारा समर्थित एआई लैब, इससे निपटने के लिए तकनीकों की खोज करने वालों में से एक है। एक नए अध्ययन में, डीपमाइंड के शोधकर्ताओं ने जांच की कि क्या एआई भाषा प्रणाली – जो मौजूदा पाठ के कई उदाहरणों से पाठ उत्पन्न करना सीखती है (पुस्तकें और सोशल मीडिया सोचें) – देने से लाभ हो सकता है व्याख्या उन पाठों का। दर्जनों भाषा कार्यों की व्याख्या करने के बाद (उदाहरण के लिए, “यह निर्धारित करके इन प्रश्नों का उत्तर दें कि क्या दूसरा वाक्य पहले, रूपक वाक्य का उपयुक्त पैराफ्रेश है”) स्पष्टीकरण के साथ (उदाहरण के लिए, “डेविड की आंखें शाब्दिक खंजर नहीं थीं, यह एक रूपक है जो है इसका मतलब यह था कि डेविड पॉल की ओर देख रहा था।”) और उन पर विभिन्न प्रणालियों के प्रदर्शन को देखते हुए, डीपमाइंड टीम ने पाया कि उदाहरण वास्तव में सिस्टम के प्रदर्शन में सुधार करते हैं।

यदि डीपमाइंड का दृष्टिकोण अकादमिक समुदाय के भीतर सफल होता है, तो इसे एक दिन रोबोटिक्स में लागू किया जा सकता है और एक रोबोट के निर्माण खंड बन सकते हैं जो चरण-दर-चरण निर्देशों के बिना अस्पष्ट अनुरोधों (जैसे, “कचरा बाहर निकालना”) को समझ सकता है। Google का नया “डू एज़ आई कैन, नॉट एज़ आई सेय” प्रोजेक्ट इस भविष्य की एक झलक पेश करता है, हालांकि इसमें महत्वपूर्ण सीमाएं हैं।

Google पर रोबोटिक्स और अल्फाबेट की एक्स लैब में रोज़मर्रा की रोबोटिक्स टीम के बीच एक सहयोग, जैसा कि मैं कर सकता हूँ, जैसा कि मैं कह सकता हूँ, एक एआई भाषा प्रणाली को “व्यवहार्य” और “प्रासंगिक रूप से उपयुक्त” कार्यों का सुझाव देने के लिए कंडीशन करना चाहता है। एक रोबोट ने कोई कार्य दिया। रोबोट भाषा प्रणाली के “हाथ और आंखें” के रूप में कार्य करता है, जबकि सिस्टम कार्य के बारे में उच्च-स्तरीय अर्थ ज्ञान प्रदान करता है – सिद्धांत यह है कि भाषा प्रणाली रोबोट के लिए उपयोगी ज्ञान के धन को एन्कोड करती है।

गूगल रोबोटिक्स

छवि क्रेडिट: Google पर रोबोटिक्स

SayCan नामक एक प्रणाली यह चुनती है कि रोबोट को कमांड के जवाब में किस कौशल का प्रदर्शन करना चाहिए, (1) किसी विशेष कौशल के उपयोगी होने की संभावना और (2) उस कौशल को सफलतापूर्वक करने की क्षमता को ध्यान में रखते हुए। उदाहरण के लिए, यदि कोई कहता है, “मैंने अपना कोक गिराया, क्या आप मुझे इसे साफ करने के लिए कुछ ला सकते हैं?” SayCan रोबोट को स्पंज खोजने, स्पंज लेने और उस व्यक्ति के पास जाने का निर्देश दे सकता है जिसने इसका अनुरोध किया है। द.

SayCan रोबोटिक्स हार्डवेयर द्वारा सीमित है – अनुसंधान दल ने एक से अधिक बार उस रोबोट का अवलोकन किया जिसे उन्होंने प्रयोग करने के लिए चुना और गलती से वस्तुओं को गिरा दिया। फिर भी, प्रासंगिक समझ पर डीएएलएल-ई 2 और डीपमाइंड के काम के साथ, यह दर्शाता है कि एआई सिस्टम, जब संयुक्त होते हैं, तो हमें एक के करीब कैसे ला सकते हैं जेटसन प्रकार भविष्य।

About the author

Frank James

Leave a Comment