पहले सोचा जाता था – सिर्फ बड़े मॉडल (LLMs) ही मुश्किल काम कर सकते हैं, जिनमें 100B+ पैरामीटर हों।
लेकिन अब ऐसा नहीं है।
Small Language Models (SLMs) भी उतने ही सक्षम हो रहे हैं।
और सबसे अच्छी बात – ये स्मार्ट भी हैं, हल्के भी।
इसके पीछे दो बेसिक तकनीकें हैं:
Distillation और Quantization
आइये इन तकनीकों पर बात करते हैं।
1. Distillation – सिर्फ जवाब नहीं, सोचने का तरीका सीखना
एक उदाहरण पर चर्चा करते हैं:
एक अनुभवी शेफ (LLM के स्थान पर) और एक नया कुक (SLM के स्थान पर)।
पुरानी तकनीक (Logit Matching) – बस रट्टा
पहले SLM को सिर्फ शेफ का अंतिम रेसिपी याद कराया जाता था।
जैसे – शेफ ने कहा “इस डिश में 2 चम्मच नमक डालना है”, और नए कुक ने रट लिया।
नतीजा?
नया कुक एक वही डिश ही बना पाता था, जो उस बताई गई थी।
लेकिन अगर उसी नमक को किसी अन्य सब्ज़ी में डालना हो, या खिचड़ी में, तो वह गड़बड़ कर देता था।
क्योंकि उसने “कब, क्यों और कैसे” नहीं सीखा था।
उसने सिर्फ “कितना नमक” रटा था।
आधुनिक तकनीक (Step-by-Step Distillation) – चरण दर चरण तरीका
अब शेफ नौसिखिए को सिर्फ नमक की मात्रा नहीं बताता।
वह पूरा तरीका समझाता है:
“पहले देखो क्या बना रहे हो – दाल है या सब्ज़ी? फिर सोचो, दाल में नमक थोड़ा कम, सब्ज़ी में थोड़ा ज़्यादा। फिर चखकर तय करो।”
फायदा क्या है?
नया कुक (SLM) अब क्या-कितना डालना है” के साथ-साथ “किस के साथ कैसे का decision लेना”, भी सीख लेता है।
इससे वह आगे चलकर कोई नई डिश खुद भी बना सकता है – बिना शेफ के बताए। और फिर वह आगे चलकर नए और मुश्किल सवालों को खुद हल कर पाता है।
2. Quantization – भारी दिमाग को हल्का और तेज़ बनाना
अब दूसरी बात।
मॉडल तो स्मार्ट हो गया, लेकिन उसे चलाना है पुराने फोन या छोटे स्मार्टवॉच जैसे डिवाइस पर। यानी उसकी मेमोरी कम करना ज़रूरी है। इसके लिए प्रक्रिया है – Quantization।
इसका मतलब है – जानकारी को छोटा करके पैक करना।
जैसे किसी एक बड़े सूटकेस की जगह एक छोटे बैग में सामान भरना हो, तो हम, जरूरी सामान चुन कर कम कर देते हैं।
उदाहरणस्वरूप, एक स्टूडेंट के पास 20 किताबों का भारी बस्ता है। अगर उसे हल्का कर दें – जैसे सिर्फ 5 ज़रूरी किताबें रखें – तो वह तेज़ चलेगा और कम थकेगा।
बस यही काम है Quantization का – कम मेमोरी, ज़्यादा स्पीड।
चुनौती – The Gradient Gap
लेकिन यहाँ एक समस्या सामने आती है।
जब हम किसी सोल्यूशन पर काम करते समय नंबरों को राउंड ऑफ करते हैं (जैसे 3.78 को 4 बना देना), तो सीखने की प्रक्रिया अटक जाती है।
क्योंकि यह “राउंड ऑफ करना” एक ऐसा काम है, जो स्मूथ नहीं होता और थोड़ी सटीकता खो जाती है।
समाधान – Straight-Through Estimator (STE)
समाधान थोड़ा टेक्निकल है, लेकिन थोड़ी आसान भाषा में समझते हैं:
Forward Pass (जब मॉडल काम कर रहा हो) – नंबरों को राउंड ऑफ किया तो जाता है।
Backward Pass (जब मॉडल सीख रहा हो) – इस समय यह मान लिया जाता है कि कोई राउंड ऑफ नहीं किया गया।
इस ट्रिक से AI की सीखने की प्रक्रिया बिना रुके चलती रहती है।
यदि राउंड ऑफ करने से गलती हो रही हो सकती है, लेकिन हम बहाना करते हैं कि राउंड ऑफ किया ही नहीं गया, ताकि सीखना निरंतर रहे, वह कहीं अटके नहीं।
3. इस कार्य में प्रयुक्त मुख्य तकनीकों पर एक दृष्टि:
|
तकनीक |
आसान परिभाषा |
AI में क्या करती है |
|
Step-by-Step
Distillation |
सोचने का तरीका सीखना |
इंटेलिजेंस और लॉजिकल रीजनिंग |
|
Quantization |
डेटा को कंप्रेस (कम से कम) करना |
कम मेमोरी की ज़रूरत, हाई स्पीड (Efficiency) |
|
STE
(Straight-Through Estimator) |
राउंड ऑफ के बावजूद सीखना |
ट्रेनिंग के दौरान एक्यूरेसी बनाए रखना |

No comments:
Post a Comment