भाषा मॉडल पहले से ध्वनि के बारे में क्या जानते हैं

भाषा मॉडल पहले से ध्वनि के बारे में क्या जानते हैं

भाषा मॉडल बिना किसी ध्वनि फ़ाइल को संसाधित किए ध्वनि के बारे में ज्ञान रखते हैं। यह उन्हें कम पूंजी में AI स्टार्टअप बनाने में मदद करता है।

Lucía NavarroLucía Navarro5 अप्रैल 20266 मिनट
साझा करें

भाषा मॉडल पहले से ध्वनि के बारे में क्या जानते हैं

आर्टिफिशियल इंटेलिजेंस के शोध दलों के बीच एक दिलचस्प खोज सामने आई है, जो एक तकनीकी जिज्ञासा लगती है। लेकिन इसके पीछे एक वित्तीय वास्तुकला का पाठ है, जिसे AI स्टार्टअप के संस्थापक पूरी तरह से नहीं समझ पाए हैं।

हैकरनून में प्रकाशित शोध से पता चलता है कि केवल पाठ के साथ प्रशिक्षित भाषा मॉडल — बिना एक भी ध्वनि फ़ाइल के — में ध्वनि के विशेष मॉडल के प्रदर्शन की भविष्यवाणी करने के लिए पर्याप्त आंतरिक प्रतिनिधित्व मौजूद हैं। इसका मतलब है कि कोई भी ध्वनि एनकोडर जोड़ने से पहले, भाषा मॉडल पहले से ही यह अनुमान लगाता है कि ध्वनि कैसा व्यवहार करेगा। ध्वनि का ज्ञान भाषा में छिपा है, संगीत, ध्वनिकी, कान चिकित्सा और बातचीत की ट्रांसक्रिप्शन के बारे में लाखों अनुच्छेदों के बीच छिपा हुआ है।

एक इंजीनियर के लिए, यह रोमांचक है। लेकिन एक स्टार्टअप की संस्थापक के लिए, जिसकी रनवे 12 महीने है और एक प्रेजेंटेशन डेक है जो "अगली पीढ़ी का ऑडियो AI" प्रदान करती है, यह कुछ और ही गंभीर है: यह एक संकेत है कि उसका पूंजी जो वह प्रशिक्षित करने में खर्च कर रही है, शायद अब मुख्य बाधा नहीं है।

वह ज्ञान जिसे आपने बिना जाने ही चुकाया

AI उत्पाद विकास में पारंपरिक लॉजिक हमेशा रेखीय और महंगा रहा है: ऑडियो मॉडल बनाने के लिए ऑडियो डेटा की आवश्यकता होती है। इसका मतलब है डाटासेट लाइसेंस, विशेष हार्डवेयर और प्रशिक्षण के चक्र जो कई हफ्तों तक चल सकते हैं। इन सभी चरणों में पूंजी लगाई जाती है उससे पहले कि कोई ग्राहक एक पैसा भी दे।

जो इस खोज को दर्शाती है वह यह है कि उस काम का एक महत्वपूर्ण हिस्सा पहले से किया जा चुका है, और वह सामूहिक रूप से उन तकनीकी दिग्गजों द्वारा चुकाया गया है जिन्होंने बड़े भाषा मॉडलों को प्रशिक्षित किया है। ध्वनि का प्रतिनिधित्व—इसकी संरचना, इसके पैटर्न, और मानव भाषा के साथ इसके संबंध—पहले से ही उन मॉडलों में मौजूद है। संस्थापक का काम शून्य से निर्माण करना नहीं है; यह उस चीज़ को पूछना है जो पहले से ही मौजूद है।

यह किसी ऑडियो, वॉयस रिकग्निशन, ऑडियो फीलिंग एनालिसिस या ध्वनि संश्लेषण में कार्यरत किसी भी स्टार्टअप की लागत ढांचे पर प्रत्यक्ष प्रभाव डालता है। यदि मूल ज्ञान पहले से साझा आधारभूत संरचना के रूप में उपलब्ध है, तो उत्पाद के पहले संस्करण को बनाने की सामर्थ्य नाटकीय रूप से घट जाती है। और कम प्रारंभिक लागत का मतलब यह है कि पहली बिक्री तक पहुँचने का मार्ग—एकमात्र घटना जो एक स्टार्टअप को वास्तविक बनाता है—को महीनों से हफ्तों में छोटा किया जा सकता है।

लेकिन यहाँ एक जाल है: कई संस्थापक दल उसी चीज को दोहराने में निवेश करते रहेंगे जो पहले से मौजूद है, क्योंकि अपना खुद का प्रशिक्षण प्रक्रिया के लिए निवेशकों के लिए एक शक्तिशाली नैरेटिव आकर्षण है। "हमारा मॉडल" बोलना "हमने पहले से जो था उसका उपयोग किया और उसके ऊपर निर्माण किया" से बेहतर लगता है। यह एक स्थिति गलती है जो कंपनी को महंगा पड़ सकता है।

AI स्टार्टअप और सब्सिडी प्रयोगशाला के बीच का फर्क

AI स्टार्टअप में, विशेष रूप से तकनीकी क्षेत्रों में, एक बहुत ही सामान्य पैटर्न हैं जो शोध और व्यवसाय के बीच भ्रम उत्पन्न करते हैं। वे डेटा वैज्ञानिकों की घनी टीम बना लेते हैं, अपनी आधारभूत संरचना में तकनीकी कर्ज का सामना करते हैं, और "जब मॉडल तैयार होगा, तो ग्राहक आ जाएंगे" के वादे के साथ बिक्री के क्षण को टालते हैं।

यह एक स्टार्टअप नहीं है। यह एक प्रयोगशाला है जो जोखिम निवेश को जलाने में लगी है, देखे जाने की उम्मीद में कि कोई उस पर तब तक खरीदे जब तक कि पैसे खत्म न हो जाएं।

ध्वनि ज्ञान पर इस खोज के बारे में जो कुछ प्रकट होता है, वह इसका ठीक विपरीत है। यदि तकनीकी ज्ञान का 70% पहले से सार्वजनिक या वाणिज्यिक प्री-ट्रेंडेड मॉडलों में मौजूद है, तो एक समझदार संस्थापक का 70% काम तकनीकी नहीं है: यह वितरण, ग्राहक की समझ और रेवेन्यू मॉडल के डिजाइन का है।

एक स्टार्टअप जो पहले से मौजूद ज्ञान पर निर्माण करता है, एक छोटे से टीम के साथ अपने उत्पाद के कार्यात्मक संस्करण को जारी कर सकता है, पहले महीने से चार्ज कर सकता है—यहां तक कि भुगतान की तत्परता को मान्य करने के लिए एक कम कीमत पर भी—and उस नकद प्रवाह का उपयोग अगली पुनरावृत्तियों के लिए कर सकता है। यह छोटे होने की स्वीकृति नहीं है; यह वित्तीय वास्तुकला की एकमात्र संरचना है जो सुनिश्चित करती है कि उत्पाद का प्रभाव वित्त पोषण संकट के मुद्दों पर बचे।

वैकल्पिक—आदर्श मॉडल, निजी डेटा सेट, अपनी तरह की आधारभूत संरचना का इंतजार करना—सभी पूंजी पर दांव लगाना है जिससे आ सकता है, या जो ऐसे शर्तों पर आएगा जो नियंत्रण को पतला कर देती हैं जब तक कि संस्थापक महत्वपूर्ण निर्णय नहीं ले पाते।

वह अदृश्य संपत्ति जो कोई ऑडिट नहीं कर रहा

एक दूसरा विश्लेषण स्तर है जो मुझे उन नेताओं के लिए समान रूप से प्रासंगिक लगता है, जो आने वाले वर्षों में अपनी तकनीकी बजट कहाँ आवंटित करने का मूल्यांकन कर रहे हैं।

यदि भाषा मॉडल पहले से उपयोगी ध्वनि प्रतिनिधित्व रखता है, तो वे मॉडलों के भीतर संचित मूल्य बाजार द्वारा मूल्यांकित से कहीं अधिक है। जिन कंपनियों ने उन मॉडलों तक पहुँच के लिए भुगतान किया—APIs या लाइसेंस के माध्यम से—वे ऐसे संपत्तियों पर बैठी हैं जिनकी क्षमताएँ अभी तक पूरी तरह से मैप नहीं की गई हैं। और जो ऑडियो उत्पाद बना रही हैं यह मानकर कि उन्हें शून्य से शुरुआत करनी है, वह पैसे खो रही हैं।

एक CFO के लिए, इसका अर्थ एक आंतरिक ऑडिट प्रश्न होना चाहिए: हम कितनी क्षमताओं के लिए भुगतान कर रहे हैं जो पहले से मौजूद उपकरणों में पहले से मौजूद हैं? इसका उत्तर, अधिकांश मध्य-आकार की संगठनों में यह है कि ओवरलैप महत्वपूर्ण है और इसे किसी ने नहीं मापा है।

यह तकनीकी गहन नवाचार के खिलाफ एक तर्क नहीं है। यह गहन तकनीकी नवाचार के खिलाफ एक तर्क है जो व्यावसायिक प्रमाणीकरण का विकल्प है। भाषा मॉडल में छिपा ध्वनि ज्ञान एक अनुस्मारक है कि AI अर्थव्यवस्था में सबसे मूल्यवान पूंजी हमेशा अगले दौर में लगाए जाने से नहीं होती है: कभी-कभी यह होता है जो पहले ही चुकाया जाता है और अभी तक उपयोग नहीं किया गया।

जीवित रहने वाला मॉडल सबसे शक्तिशाली नहीं है, बल्कि वह है जो पहले चार्ज करता है

भाषा मॉडलों में ध्वनि ज्ञान पर शोध अंततः एक संचित दक्षता का प्रदर्शन है। ज्ञान स्थानांतरित होता है, पुन: उपयोग होता है, परतों में बनाया जाता है। स्टार्टअप जो इस तर्क को अपनाते हैं—जो पहले से मौजूद पर निर्माण करते हैं, प्रत्येक पुनरावृत्ति के परिवर्तनीय लागत को कम करते हैं, और परिष्कृत करने से पहले चार्ज करते हैं—उनके पास उन लोगों की तुलना में संरचनात्मक लाभ होगा जो आधारभूत संरचना का पुनः आविष्कार करने की कोशिश करते हैं।

संस्थापक और C-लेवल जो नवाचार विभाग का नेतृत्व करते हैं, उनके सामने एक वास्तुकला निर्णय है, जो एक नैतिक निर्णय भी है: वे उपलब्ध पूंजी का उपयोग मौजूद चीजों की पुनरुत्पादन के लिए कर सकते हैं और फंडरेसिंग के चक्रों के साथ आर्थिक मध्यस्थों को लाभान्वित कर सकते हैं, या वे उस पूंजी का उपयोग वितरण के ईंधन के रूप में कर सकते हैं, जल्दी से बाजार में प्रवेश कर सकते हैं और वह नकद प्रवाह उत्पन्न कर सकते हैं जो उनके उत्पाद को अगले दौर से स्वतंत्र बनाता है। एक ऐसा व्यवसाय जो अपने ग्राहकों के भुगतान से वित्तपोषित होता है, वह किसी और को जवाब नहीं देता। यह प्रभाव का एकमात्र तरीका है जो अनुमति मांगने के बिना बढ़ता है।

साझा करें
0 वोट
इस लेख के लिए वोट करें!

टिप्पणियाँ

...

आपको यह भी पसंद आ सकता है