लार्ज लैंग्वेज मॉडल को लोकल लेवेल ट्रेनिंग देने के लिए Google कर रहा तैयारी, AI Singapore के साथ मिल कर करेगा काम
कंपनी की रिसर्च आर्म दक्षिण पूर्व एशिया की आबादी और सांस्कृतिक मिश्रण को पूरा करने और बेहतर ढ़ग से इसे समझने के लिए Google लार्ज लैग्वेज मॉडल (एलएलएम) में जुड़ गया है। इसके लिए कंपनी ने एआई सिंगापुर के साथ काम कर रहा है जिसमें साउथईस्ट एशियन लैंग्वेजेज इन वन नेटवर्क डेटा की शुरुआत की है। आइये इसके बारे में जानते हैं।
टेक्नोलॉजी डेस्क, नई दिल्ली। दक्षिण पूर्व एशिया की आबादी और सांस्कृतिक मिश्रण को बेहतर ढंग से पूरा करने और समझने के लिए Google लार्ज लैग्वेज मॉडल (एलएलएम) बनाने के सहयोगी प्रयासों में शामिल हो रहा है।
कंपनी की रिसर्च आर्म विशिष्ट भाषाओं में एआई मॉडल को प्रशिक्षित करने, फाइनट्यून करने और उनका आकलन में इस्तेमाल डेटासेट को बढ़ाने के लिए एआई सिंगापुर के साथ काम करेगी। वहीं एआई सिंगापुर ने सोमवार को एक बयान में कहा कि प्रोजेक्ट साउथईस्ट एशियन लैंग्वेजेज इन वन नेटवर्क डेटा (SEALD) नामक इस पहल का उद्देश्य क्षेत्र के लिए बनाए गए LLM में कल्चर संदर्भ में सुधार करना है।
इन शहरों में पहले मिलेगा सहयोग
- सरकारी एजेंसी ने कहा कि सहयोग पहले इंडोनेशियाई, थाई, तमिल, फिलिपिनो और बर्मीज पर केंद्रित होगा, जिसमें दोनों भागीदार संयुक्त रूप से ट्रांसलोकलाइजेशन और ट्रांसलेशन मॉडल विकसित करेंगे।
- वे बड़े पैमाने पर ट्रांसलोकलाइजेशन क्षमताओं और डेटासेट ट्यूनिंग की प्रक्रियाओं में मदद करने के लिए टूल भी विकसित करेंगे।इसके साथ ही दक्षिणपूर्व एशियाई भाषाओं के लिए पूर्व-प्रशिक्षण गाइडलाइन पेश की जाएंगी।
- एआई सिंगापुर ने कहा कि प्रोजेक्ट SEALD के सभी डेटासेट और आउटपुट ओपन सोर्स में जारी किए जाएंगे।
इन शहरों में पहले मिलेगा सहयोग
- सरकारी एजेंसी ने कहा कि सहयोग पहले इंडोनेशियाई, थाई, तमिल, फिलिपिनो और बर्मीज पर केंद्रित होगा, जिसमें दोनों भागीदार संयुक्त रूप से ट्रांसलोकलाइजेशन और ट्रांसलेशन मॉडल विकसित करेंगे।
- वे बड़े पैमाने पर ट्रांसलोकलाइजेशन क्षमताओं और डेटासेट ट्यूनिंग की प्रक्रियाओं में मदद करने के लिए टूल भी विकसित करेंगे।इसके साथ ही दक्षिणपूर्व एशियाई भाषाओं के लिए पूर्व-प्रशिक्षण गाइडलाइन पेश की जाएंगी।
- एआई सिंगापुर ने कहा कि प्रोजेक्ट SEALD के सभी डेटासेट और आउटपुट ओपन सोर्स में जारी किए जाएंगे। यह पहल SEA-LION (वन नेटवर्क में दक्षिणपूर्व एशियाई भाषाएं) के तहत मॉडलों के लिए प्रशिक्षण प्रयासों का सपोर्ट करेगी, जिसे सिंगापुर सरकार की एजेंसी ने पिछले साल लॉन्च किया था।
कैसे काम करेगा मॉडल?
- इसकी मदद से क्षेत्र की सामाजिक बारीकियों के लिए पूर्व-प्रशिक्षित ओपन-सोर्स एलएलएम से युक्त, SEA-LION दो आधार मॉडल पर चलती है।
- इसमें एक तीन-बिलियन पैरामीटर मॉडल और एक सात-बिलियन पैरामीटर मॉडल शामिल है। इसके प्रशिक्षण डेटा में 981 बिलियन भाषा टोकन शामिल हैं।
- एआई सिंगापुर इन टोकन को टोकनाइजेशन के दौरान टेक्स्ट को तोड़ने से बनाए गए शब्दों के टुकड़े के रूप में परिभाषित करता है।
- इन टुकड़ों में 623 बिलियन अंग्रेजी टोकन, 128 बिलियन दक्षिण पूर्व एशिया टोकन और 91 बिलियन चीनी टोकन शामिल हैं।
- प्रोजेक्ट SEALD वर्तमान में सिंगापुर में प्रवासी श्रमिकों के साथ संचार को बेहतर बनाने के लिए एक उपयोग के मामले पर काम कर रहा है, जो अंग्रेजी की तुलना में विभिन्न क्षेत्रीय भाषाओं में बेहतर तरीके से बातचीत कर सकते हैं।
- प्रोजेक्ट SEALD के डेटासेट और आउटपुट को सामुदायिक आउटरीच का सपोर्ट करने के लिए Google क्लाउड और सिंगापुर सरकार की AI ट्रेलब्लेजर प्लान के तहत विकसित जेनरेटिव AI एप्लिकेशन के साथ इंट्रीग्रेट किया जाएगा।
- प्रोजेक्ट SEALD पार्टनर डेटा कलेक्शन और क्वालिटी चेक जैसे कार्यों में शिक्षा और सार्वजनिक क्षेत्र सहित उद्योग के साथ भी काम करेंगे।
- आपको बता दें कि एआई सिंगापुर ने वर्टेक्स एआई पर गूगल क्लाउड के मॉडल गार्डन पर एसईए-लायन एलएलएम उपलब्ध कराने की भी योजना बनाई है, जो प्री-वेरिफाइड एआई मॉडल को एक्सेस करेगा।
- क्षेत्रीय LLM को हगिंग फेस में जोड़ा जाएगा, जो एआई टूल और पूर्व-प्रशिक्षित मॉडल के लिए एक ओपन-सोर्स रिपॉजिटरी की तरह से काम करेगा।
- एआई सिंगापुर ने सोमवार को यह भी घोषणा की कि उसने LLM मॉडल के लिए डेटासेट और एप्लिकेशन विकसित करने के लिए इंडोनेशिया, मलेशिया और वियतनाम के विभिन्न संगठनों के साथ समझौता ज्ञापन और आशय पत्र पर हस्ताक्षर किए हैं।
- इसके अलावा वह क्षेत्रीय भाषा वाक्यविन्यास और शब्दार्थ पर संसाधन बनाने के लिए इंडोनेशिया, थाईलैंड और फिलीपींस में भागीदारों के साथ काम कर रही है। इनमें थाईलैंड का विद्यासिरीमेडी इंस्टीट्यूट ऑफ साइंस एंड टेक्नोलॉजी और फिलीपींस का एटेनियो सोशल कंप्यूटिंग साइंस लेबोरेटरी शामिल हैं।