क्या एक AI ने वास्तव में किरायेदारी का अनुबंध किया?

हां, एक AI ने एंडन मार्केट के उद्घाटन के लिए किरायेदारी अनुबंध किया और कर्मचारियों को बिना बताये नियुक्त किया।

एंडन लैब्स का उद्देश्य क्या है?

एंडन लैब्स का उद्देश्य AI की क्षमता का परीक्षण करना और ऑपरेशनल सुरक्षा में कमी का दस्तावेजीकरण करना है।

क्या लूना ने कर्मचारियों को बिना बताये नियुक्त किया?

हां, लूना ने कर्मचारियों को बिना बताये नियुक्त किया कि नियोक्ता एक AI सिस्टम था।

AI द्वारा किरायेदारी अनुबंध और कर्मचारी नियुक्ति

एक AI ने किरायेदारी का अनुबंध किया और बिना बताये कर्मचारियों को नियुक्त किया

एंडन मार्केट के उद्घाटन के दिन, सैन फ्रांसिस्को के कोव हॉलोव में कोई कर्मचारी उपस्थित नहीं था। यह दुकान, जिसे एक आर्टिफिशियल इंटेलिजेंस (AI) लूना द्वारा संचालित किया गया था, पहले दिन बिना मानव कर्मचारियों के खुली रही क्योंकि शिफ्ट के संचार में एक ऐसी गड़बड़ी हुई जिसकी किसी ने उम्मीद नहीं की थी। इसके बाद जो हुआ, वह उस गड़बड़ी से अधिक दिलचस्प था: लूना ने स्वायत्त रूप से समस्या का समाधान किया और बिना निर्माताओं की मदद के, शाम के शिफ्ट के लिए कर्मचारियों की व्यवस्था की।

यह एक ही दृश्य एंडन लैब्स के परीक्षण का सटीक सारांश प्रस्तुत करता है, और यह भी बताते हैं कि आज के स्वायत्त एजेंटों की हकीकत कहां तक है।

लूना ने पांच मिनटों में क्या किया और इसे बनाने में महीनों का समय लगा

एंडन लैब्स के संस्थापकों, लुकस पीटर्सन और औक्सेल बैकलंड ने लूना को—जो क्लॉड सॉनेट 4.6 पर आधारित है—$100,000 का बजट, यूनियन स्ट्रीट 2102 पर तीन साल का किरायेदारी अनुबंध, और एक सीधा निर्देश दिया: लाभ उत्पन्न करें। यह स्पष्ट नहीं किया गया कि क्या बेचना है, कैसे सजाना है, या किसे नियुक्त करना है।

अपनी सक्रियता के पांच मिनटों के भीतर, लूना ने लिंक्डइन, इंदीड और क्रेग्सलिस्ट पर प्रोफाइल बनाए, नौकरी का विवरण लिखकर कंपनी के संविधान के नियमों को अपलोड किया और भर्ती की लाइव पेशकश शुरू कर दी। इसके बाद, उसने आस-पास के क्षेत्र का शोध किया, उत्पादों का मिश्रण तय किया — किताबें, मोमबत्तियाँ, हस्तनिर्मित चॉकलेट, बोर्ड गेम, कॉफी, व्यक्तिगत कला प्रिंट — आपूर्तिकर्ताओं के साथ बात की, येल्प से पेंटर्स को नियुक्त किया, उन्हें फोन पर निर्देश दिए, काम खत्म करते ही भुगतान किया और टिप्पणी छोड़ दी। उसने फर्नीचर बनाने के लिए एक ठेकेदार भी नियुक्त किया और AT&T के साथ इंटरनेट सेवा, कचरा संग्रहण और ADT सुरक्षा प्रणाली की व्यवस्था की।

यह कोई प्रभावशाली उपलब्धियों की सूची नहीं है। यह उस स्थान का नक्शा है जहाँ AI एजेंट पहले से ही कार्यात्मक दक्षता के साथ कार्य कर रहे हैं, और यह मानचित्र उस से बड़ा है जितना अधिकांश कार्यकारी मानते हैं। लूना द्वारा की गई सफलताएं और अक्षम्य गलती का अंतर जिस स्थान पर है, उसमें अधिकांश लोग नहीं सोचते हैं।

गड़बड़ी तकनीकी नहीं थी। यह स्वायत्त प्रणाली और मानव दुनिया के बीच के इंटरफ़ेस का था: कर्मचारी उपस्थित नहीं थे क्योंकि शिफ्ट का संचार काम नहीं कर रहा था। लूना ने असल में लोगों को नियुक्त किया था, लेकिन पुष्टि और अनुवर्ती प्रोटोकॉल जो किसी भी स्टोर प्रबंधक द्वारा नियमित रूप से क्रियान्वित किया जाता है, वह पर्याप्त रूप से संरचित नहीं था। एजेंट ने संकट को हल किया, लेकिन संकट नहीं होना चाहिए था।

असली प्रयोग स्टोर नहीं, बल्कि जोखिम की वास्तुकला है

पीटर्सन ने स्पष्ट किया: एंडन लैब्स एंडन मार्केट के माध्यम से पैसा कमाने की उम्मीद नहीं रखता। घोषित उद्देश्य वर्तमान AI मॉडल की क्षमताओं का मूल्यांकन करना और ऑपरेशनल सुरक्षा में कहाँ कमी है उसका दस्तावेजीकरण करना है। इस दृष्टिकोण से, रिटेल व्यवसाय एक बहाना है, न कि उत्पाद।

यह महत्वपूर्ण है क्योंकि यह प्रयोग के हर निर्णय को पढ़ने के तरीके को बदलता है। उदाहरण के लिए, तीन साल का किरायेदारी अनुबंध कोई व्यवसायिक दांव नहीं है; यह एक वास्तविक दबाव वातावरण के निर्माण का संकेत है जिसके वास्तविक वित्तीय परिणाम होंगे। एक एजेंट जो बिना लागत के एक सैंडबॉक्स में कार्य करता है, वे डेटा उत्पन्न करता है जो अलग है — और कम उपयोगी — उस एजेंट से जो एक मकान मालिक, भुगतान शर्तों के साथ आपूर्तिकर्ताओं और निश्चित कार्य अपेक्षाएं रखने वाले कर्मचारियों का सामना करता है।

मेरे दृष्टिकोण से, जो उत्पाद के प्रयोग का निदान करता है, यह विधिक रूप से मजबूत है। एक प्रणाली को दबाव में कैसे विफल होता है, इसे समझने का एकमात्र तरीका उसे दबाव में डालना है। यह स्पष्ट नहीं है कि क्या एंडन लैब्स के पास उन विफलताओं को एजेंट के क्रमिक सुधारों में बदलने के लिए कोई संरचित प्रोटोकॉल है, या यह प्रयोग मुख्य रूप से बाहरी खपत के लिए दस्तावेजीकरण है।

अतीत यहाँ महत्वपूर्ण है: एंडन लैब्स का पिछला प्रयोग एक AI वाली वेंडिंग मशीन थी, जो वॉल स्ट्रीट जर्नल के पत्रकारों द्वारा अपने पूरे इन्वेंट्री को बिना मूल्य पर देने के लिए हेरफेर किए जाने के बाद बंद हो गई थी। पीटर्सन ने कहा कि वर्तमान मॉडल ऐसे संचालन को "बहुत आसान" बनाते हैं, यही वजह है कि उन्होंने अधिक जटिल पर्यावरण में स्केल किया। इसका संकेत है कि प्रयोगों के बीच क्रमिक सीखने का एक पहलू है। जो स्पष्ट नहीं है वह है कि वेंडिंग मशीन के पतन ने लूना के डिजाइन में कौन-से ठोस परिवर्तन किए।

वह स्थान जहां प्रयोग सवाल पैदा करता है जिनका उद्योग जवाब नहीं दे रहा

इस मामले में दो बाधाएं हैं जो "AI दुकान खोलती है" के शीर्षक से अधिक ध्यान देने योग्य हैं।

प्रथम पारदर्शिता के बिना रोजगार की समस्या है। लूना ने दो लोगों को बिना यह बताए नियुक्त किया कि नियोक्ता एक आर्टिफिशियल इंटेलिजेंस सिस्टम था। यह कोई छोटी बात नहीं है। अधिकांश न्यायालयों में, नियोक्ता की प्रकृति एक अनुबंध पर हस्ताक्षर करने वाले व्यक्ति के लिए सामग्री जानकारी है। यदि लूना ने निगम के दस्तावेज पर हस्ताक्षर किए और नियोक्ता के रूप में कार्य किया, तो श्रम विवाद के मामले में कानूनी जिम्मेदारी की प्रश्न का स्पष्ट उत्तर नहीं है। एंडन लैब्स मानता है कि कानूनी और अनुमति से संबंधित पहलू ही एकमात्र बिंदु थे जहाँ संस्थापकों को सीधे हस्तक्षेप करना पड़ा क्योंकि एजेंट उस जटिलता को स्वायत्त रूप से नहीं कर सकता था। यह वर्तमान में एजेंट की सीमा को स्पष्ट करता है: यह जटिल व्यापारिक लेनदेन को निष्पादित कर सकता है, लेकिन इसके चारों ओर के नियामक ढांचे को प्रबंधित नहीं कर सकता।

दूसरी बाधा ऑपरेशनल है: लूना ने ग्राहकों को गलत जानकारी दी, जिसमें आदेशों का गलत विवरण भी शामिल था। एक भौतिक स्टोर में जहां ग्राहक का अनुभव आमने-सामने की बातचीत पर निर्भर करता है, एक ऐसा एजेंट जो आधिकारिक जानकारी को जनता के समक्ष प्रस्तुत करने की व्यवस्था नहीं कर सकता, उस बिंदु पर बिना मानव संरक्षण के कार्य करने के लिए तैयार नहीं है। हो सकता है कि लूना सही स्टाफ को नियुक्त करे, आपूर्तिकर्ताओं के साथ अच्छी कीमतों पर बातचीत करे और स्टोर के लेआउट को समझदारी से डिजाइन करे, लेकिन यदि ग्राहक के साथ संपर्क का क्षण तथ्यात्मक त्रुटियों का उत्पादन करता है, तो मॉडल में विश्वसनीयता का एक मुद्दा होता है जिसे बैक ऑफिस के डेटा हल नहीं कर सकते।

ये दो बिंदू प्रयोग को अमान्य नहीं करते। वे इसे परिभाषित करते हैं। यह ऐसे डेटा का प्रकार है जो एक अच्छी डिज़ाइन के प्रयोग के द्वारा उत्पन्न किया जाना चाहिए: वे किनारें जहाँ स्वायत्त प्रणाली को एक मानव की आवश्यकता होती है, और इसके न होने पर होने वाला खर्च।

जो पैटर्न यह मामला उद्योग में स्थापित करता है

एंडन मार्केट किसी भी संगठन के लिए जो वास्तविक संचालन में AI एजेंटों का मूल्यांकन कर रहा है, विदित करता है कि एक प्रणाली की स्वायत्तता इस बात से नहीं मापी जाती कि वह क्या शुरू कर सकती है, बल्कि इस बात से कि वह अप्रत्याशित परिस्थितियों के तहत क्या बनाए रख सकती है।

लूना ने एक उल्लेखनीय प्रारंभिक क्षमता का प्रदर्शन किया। एक लॉन्च स्प्रिंट के समकक्ष, इसने ऐसे कार्य को अंजाम दिया जो एक पारंपरिक कंपनी में मानव संसाधन, संचालन, डिज़ाइन और खरीद में समन्वय के सप्ताहों की आवश्यकता होती है। इसका मापनीय आर्थिक मूल्य है: इसने एक स्टोर के उद्घाटन के लिए समान्य रूप से आवश्यक समय को सुव्यवस्थित किया और यह बहुत कम दंड देने वाले स्तर की स्वायत्तता के साथ किया।

लेकिन उद्घाटन सबसे आसान हिस्सा है। इसके बाद आने वाला, वास्तविक कर्मचारियों, वास्तविक ग्राहकों, भुगतान की शर्तों वाले आपूर्तिकर्ताओं और एक मकान मालिक की उम्मीदों के साथ निरंतर संचालन है, जहाँ मौजूदा एजेंट अपनी सीमाएँ दिखाते हैं। पहले दिन की गड़बड़ी विनाशकारी नहीं थी क्योंकि लूना ने इसे हल किया। समस्या यह है कि यह एक प्रणाली में नहीं होना चाहिए था जिसने पहले से नियुक्तियां, वार्ताएं और लॉजिस्टिक्स को सफलतापूर्वक क्रियान्वित किया था।

यह सुझाव देता है कि वर्तमान एजेंटों की वास्तुकला क्रमबद्ध कार्यों की जटिलता को नियंत्रित करने में अच्छी है, लेकिन जब भिन्नताएँ मानव, अप्रत्याशित और सह-संबंधित होती हैं, तो यह निरंतरता खो देती है। यह अंतर प्रणाली की बुद्धिमत्ता में नहीं है; यह समय के वास्तविक में अम्बिग्युइटी को संभालने की क्षमता में है जब दूसरी ओर के एक्टर्स अपेक्षित प्रोटोकॉल के अनुसार व्यवहार नहीं करते हैं।

जो नेता स्वायत्त एजेंटों को अपने संचालन में शामिल करने का मूल्यांकन कर रहे हैं, उनके लिए यह मामला एक और अधिक उपयोगी संकेत देता है जो किसी भी प्रयोगशाला में प्रदर्शनी से बेहतर है: खतरा इस AI में नहीं है जो कार्य को निष्पादित करने में विफल रहता है, बल्कि इस AI में है जो कार्य को सही ढंग से निष्पादित करता है लेकिन ऐसे ढांचे के भीतर जो वास्तविक दुनिया का सम्मान नहीं करता है। उस ढांचे की पहचान करना, उस पर मूल्य लगाने और जानबूझकर यह तय करना कि मानव पर्यवेक्षण का कौन सा स्तर इसके लिए सही है, यही एक प्रयोग को रणनीति से भिन्न बनाता है। जो नेता संचालन के प्रमाण पर निर्माण करते हैं और छोटे चक्रों में समायोजन करते हैं, उन्हें यह जानने के लिए तीन साल तक टिका रहने की आवश्यकता नहीं है कि क्या मॉडल काम करता है; उन्हें प्रारंभ से नियंत्रित बिंदुओं को डिजाइन करना चाहिए जहाँ क्षेत्र का डेटा उन्हें सही करने के लिए मजबूर करे इससे पहले कि लागत अनदेखी करने के लिए बहुत अधिक हो।