OpenAI का नया DALL-E मॉडल सब कुछ खींचता है – लेकिन पहले से बड़ा, बेहतर और तेज – VanityKippah

Written by Frank James

पिछले साल की शुरुआत में, OpenAI ने DALL-E (WALL-E और Dali का एक संयोजन) नामक एक उल्लेखनीय नया AI मॉडल दिखाया, जो लगभग कुछ भी और लगभग किसी भी शैली में आकर्षित कर सकता है। लेकिन परिणाम शायद ही कभी कुछ ऐसे थे जिन्हें आप दीवार पर लटकाना चाहेंगे। अब DALL-E 2 बाहर हो गया है, और यह वही करता है जो इसके पूर्ववर्ती ने बहुत बेहतर किया – वास्तव में चौंकाने वाला। लेकिन नई क्षमताएं दुरुपयोग को रोकने के लिए नए प्रतिबंधों के साथ आती हैं।

DALL-E को हमारे मूल पोस्ट में विस्तार से वर्णित किया गया था, लेकिन सार यह है कि यह काफी जटिल संकेतों को लेने में सक्षम है, जैसे “एक भालू एक मॉल के माध्यम से साइकिल की सवारी करता है, एक बिल्ली की एक तस्वीर के बगल में घोषणा चोरी करता है आजादी से।” यह मिलना चाहता है, और सैकड़ों आउटपुट के उपयोगकर्ता के मानकों को पूरा करने की सबसे अधिक संभावना है।

DALL-E 2 अनिवार्य रूप से वही काम करता है, जो टेक्स्ट प्रॉम्प्ट को आश्चर्यजनक रूप से सटीक छवि में बदल देता है। लेकिन इसने कुछ नई तरकीबें सीखी हैं।

सबसे पहले, यह मूल करने में बेहतर है। DALL-E 2 के दूसरी तरफ से निकलने वाले ग्राफिक्स कई गुना बड़े और अधिक विस्तृत हैं। यह वास्तव में तेज़ है, अधिक छवियों के निर्माण के बावजूद, जिसका अर्थ है कि उपयोगकर्ता द्वारा प्रतीक्षा करने के लिए कुछ ही सेकंड में अधिक विविधताएं बनाई जा सकती हैं।

“पर्ल ईयररिंग वाली लड़की की शैली में एक समुद्री ऊदबिलाव” काफी अच्छी तरह से निकलता है।

उस सुधार में से कुछ एक प्रसार मॉडल के लिए एक कदम से आता है, एक प्रकार की छवि निर्माण जो शुद्ध शोर से शुरू होता है और समय के साथ छवि को परिष्कृत करता है, बार-बार इसे अनुरोधित छवि की तरह थोड़ा और अधिक दिखता है जब तक कि कोई शोर न हो। । लेकिन यह भी सिर्फ एक छोटा और अधिक कुशल मॉडल है, इस पर काम करने वाले कुछ इंजीनियरों ने कहा।

दूसरा, DALL-E वह करता है जिसे वे ‘इनपेंटिंग’ कहते हैं, जो अनिवार्य रूप से एक छवि में एक निश्चित क्षेत्र का चतुर प्रतिस्थापन है। मान लीजिए आपके पास अपने स्थान की तस्वीर है, लेकिन मेज पर कुछ गंदे बर्तन हैं। बस उस क्षेत्र का चयन करें और वर्णन करें कि आप इसके बजाय क्या चाहते हैं: “एक खाली लकड़ी की मेज” या “उस पर बिना प्लेट वाली एक मेज”, जो भी समझ में आता है। सेकंड के भीतर, मॉडल आपको उस संकेत की मुट्ठी भर व्याख्याएं दिखाता है, और आप चुन सकते हैं कि सबसे अच्छा क्या दिखता है।

आप फ़ोटोशॉप में कुछ इसी तरह से परिचित हो सकते हैं, “संदर्भ-जागरूक भरण”। लेकिन वह उपकरण अधिक से अधिक स्थान भरने के लिए अधिक है, मान लें कि यदि आप किसी पक्षी को अन्यथा स्पष्ट आकाश में बदलना चाहते हैं और क्लोन स्टैम्पिंग से परेशान नहीं हैं। DALL-E 2 की संभावनाएं बहुत अधिक हैं, नई चीजों का आविष्कार करने में सक्षम होना, उदाहरण के लिए एक अलग तरह का पक्षी, या एक बादल, या टेबल के मामले में, फूलों का एक फूलदान या केचप की एक गिरा हुआ बोतल। इसके लिए उपयोगी अनुप्रयोगों के बारे में सोचना मुश्किल नहीं है।

विशेष रूप से, मॉडल में उपयुक्त प्रकाश व्यवस्था और छाया जैसी चीजें शामिल होंगी, या उपयुक्त सामग्री चुनेंगी, क्योंकि यह बाकी के दृश्य से अवगत है। मैं यहाँ ‘जागरूक’ का उपयोग कर रहा हूँ – कोई भी नहीं, यहाँ तक कि निर्माता भी नहीं जानते हैं कि DALL-E आंतरिक रूप से इन अवधारणाओं का प्रतिनिधित्व कैसे करता है, लेकिन इन उद्देश्यों के लिए जो मायने रखता है वह यह है कि परिणाम बताते हैं कि इसमें किसी प्रकार की समझ है।

यूकेयो-ए-शैली के टेडी बियर और एक विशेष फूलों की दुकान के उदाहरण।

तीसरी नई संभावना ‘विविधताएं’ है, जो काफी सटीक है: आप सिस्टम को एक नमूना छवि देते हैं और यह बहुत सटीक अनुमानों से लेकर प्रभाववादी पुनरावृत्तियों तक, जितनी चाहें उतनी विविधताएं उत्पन्न करता है। आप इसे दूसरी छवि भी दे सकते हैं और यह उन्हें एक प्रकार का क्रॉस-परागण देगा, जिसमें प्रत्येक के सबसे आकर्षक पहलुओं का संयोजन होगा। उन्होंने मुझे जो डेमो दिखाया, उसमें DALL-E 2 के मूल से स्ट्रीट भित्ति चित्र बनाए गए थे, और इसने वास्तव में अधिकांश भाग के लिए कलाकार की शैली को पकड़ लिया, भले ही निरीक्षण करने पर यह स्पष्ट हो कि मूल क्या था।

मेरे द्वारा देखे गए अन्य जनरेटर की तुलना में इन छवियों की गुणवत्ता को कम करना कठिन है। जबकि एआई-जनित छवियों से आप लगभग हमेशा “बताने” की अपेक्षा करते हैं, वे कम स्पष्ट होते हैं और बाकी की छवि दूसरों द्वारा उत्पन्न सर्वोत्तम की तुलना में बहुत बेहतर होती है।

लगभग सब कुछ

मैंने लिखा है कि DALL-E 2 पहले “लगभग कुछ भी” खींच सकता है, हालांकि वास्तव में कोई तकनीकी सीमा नहीं है जो मॉडल को किसी भी चीज़ की कल्पना करने से रोकती है जिसकी आप कल्पना कर सकते हैं। लेकिन OpenAI को एआई-जनित छवियों और सामग्री के डीपफेक और अन्य दुरुपयोग के जोखिम के बारे में पता है, और इसलिए उन्होंने अपने नवीनतम मॉडल के लिए कुछ प्रतिबंध जोड़े हैं।

DALL-E 2 वर्तमान में एक होस्टेड प्लेटफॉर्म पर चल रहा है, एक आमंत्रण-केवल परीक्षण वातावरण जहां डेवलपर्स नियंत्रित तरीके से इसका परीक्षण कर सकते हैं। इसका एक हिस्सा यह है कि मॉडल के लिए उनके सभी संकेतों की समीक्षा एक सामग्री नीति के उल्लंघन के लिए की जाती है, जैसा कि वे कहते हैं, “छवियां जो जी-रेटेड नहीं हैं” को प्रतिबंधित करती हैं।

इसका मतलब है कि नहीं: घृणा, धमकी, हिंसा, आत्म-नुकसान, मुखर या “चौंकाने वाली” इमेजरी, अवैध गतिविधि, धोखे (जैसे, नकली समाचार), राजनीतिक अभिनेता या स्थितियां, चिकित्सा या बीमारी से संबंधित इमेजरी, या सामान्य स्पैम। वास्तव में, इनमें से बहुत कुछ संभव नहीं होगा, क्योंकि उल्लंघन करने वाली छवियों को प्रशिक्षण सेट से बाहर रखा गया था: DALL-E 2 एक बेरी में शीबा इनु कर सकता है, लेकिन वह यह भी नहीं जानता कि मिसाइल स्ट्राइक क्या है।

संकेतों के मूल्यांकन के अलावा, परिणामी छवियों की सभी (अभी के लिए) मानव निरीक्षकों द्वारा समीक्षा की जाएगी। यह निश्चित रूप से स्केलेबल नहीं है, लेकिन टीम ने मुझे बताया कि यह सीखने की प्रक्रिया का हिस्सा है। वे पूरी तरह से सुनिश्चित नहीं हैं कि सीमाओं को कैसे काम करना चाहिए, इसलिए वे अभी के लिए मंच को छोटा और स्वयं-होस्ट कर रहे हैं।

समय के साथ, DALL-E 2 संभवतः एक API में बदल जाएगा जिसे OpenAI के अन्य कार्यों की तरह कहा जा सकता है, लेकिन टीम ने कहा कि वे यह सुनिश्चित करना चाहते हैं कि प्रशिक्षण पहियों को बंद करने से पहले यह समझ में आता है।

आप DALL-E 2 के बारे में अधिक जान सकते हैं और OpenAI ब्लॉग पोस्ट में कुछ अर्ध-संवादात्मक उदाहरण आज़मा सकते हैं।

About the author

Frank James

Leave a Comment