Param-2-17B
BharatGen presents Param-2-17B-MoE-A2.4B, a large-scale Mixture-of-Experts (MoE) language model designed to deliver high model capacity while retaining the inference efficiency of a much smaller dense model. It uses a Hybrid MoE architecture with 17B total parameters, while activating only 2.4B parameters per token.
The model is pretrained from scratch, with a strong emphasis on linguistic diversity, cultural grounding, and multilingual representation, particularly for Indian languages. It is released as an early post-training checkpoint with advanced capabilities including reasoning, tool calling, mathematics, and code generation, making it suitable for diverse downstream applications and further fine-tuning.
๐ Key Highlights
- 17B parameter Mixture of Experts (MoE) language model
- Multilingual: English, Hindi + 21 Indian languages
- Trained on ~22 trillion tokens across two pretraining phases
- Uses 64 specialized experts, dynamically activated per token
- Supports long-context understanding (up to 4096 tokens)
- Efficient inference: Only 2.4B active parameters per token
- Advanced Capabilities: Thinking & Reasoning, Tool Calling, Mathematics, Code Generation
- Designed for diverse downstream applications and further fine-tuning
๐ฃ๏ธ Supported Languages
In addition to English and Hindi, the model supports the following 21 Indian languages:
| ๐ Languages |
|---|
| Assamese โข Bengali โข Bodo Dogri โข Gujarati โข Kannada Konkani โข Kashmiri โข Maithili Malayalam โข Manipuri โข Marathi Nepali โข Oriya โข Punjabi Sanskrit โข Santali โข Sindhi Tamil โข Telugu โข Urdu |
This broad language coverage enables stronger performance on region-specific tasks and promotes inclusive representation of Indiaโs diverse and underrepresented linguistic communities.
๐๏ธ Model Architecture
The model utilizes a Hybrid MoE approach. Unlike traditional MoE models, this architecture uses a combination of Shared Experts (always active) and Routed Experts (activated selectively) to ensure both general knowledge stability and specialized task performance.
| Metric | Value |
|---|---|
| Architecture | Hybrid MoE |
| Total Parameters | 17B |
| Active Parameters/Token | 2.4B |
| Total Experts | 64 |
| Top-K Experts | 6 |
| Shared Experts | 2 |
| Hidden Size | 2048 |
| Intermediate Size | 7168 |
| Max Context Length | 4096 tokens |
| Vocabulary Size | 128,000 |
| Activation Function | SiLU |
| Normalization | RMSNorm |
| Num. Hidden Layers | 21 |
| Attention Heads | 32 (Query) / 8 (KV) |
| Attention Mechanism | Grouped Query Attention |
| Precision | bf16-mixed |
Architecture Innovation
Our Hybrid MoE architecture introduces two key innovations: (1) a dense layer before sparse MoE layers that transforms raw inputs into structured representations for improved stability, and (2) Two shared routing experts that remain always active alongside 6 dynamically routed experts. The shared experts specifically address Indian language diversity by maintaining stable cross-lingual representations, enabling smooth code-switching, and facilitating knowledge transfer across all 23 supported languages.
โจ Key Features
- Multilingual-First Design: Pretrained to support English, Hindi, and 21 Indian languages with better regional linguistic coverage.
- Shared + Routed Experts: Separates general language understanding from language-specific specialization for improved multilingual performance.
- Efficient Sparse Scaling: 17B total parameters with 2.4B active parameters per token, enabling high capacity with efficient inference.
- Cross-Lingual Representation Learning: Improves performance on low-resource Indian languages through shared multilingual knowledge.
- Large-Scale Multilingual Pretraining: Trained on ~22 trillion tokens emphasizing linguistic diversity and culturally grounded data.
- Long-Context Multilingual Processing: Supports up to 4096 tokens for improved understanding of long-form and multi-turn content. (A longer-context variant of this model, supporting up to 128k context length, will be released soon.)
๐ Training Data
Dataset Composition
PT-1: Pre-Training Phase 1
| Data Type | Tokens |
|---|---|
| English | 8.5T |
| Hindi | 998.6B |
| Math | 374.8B |
| Code | 1.83T |
| Multilingual Indian Languages | 1.5T |
| Technical | 500B |
| Instruction | 351B |
| Total Phase 1 | 14.05T |
PT-2: Pre-Training Phase 2
| Data Type | Tokens |
|---|---|
| English | 2.5T |
| Math | 773B |
| Code | 2.46T |
| Multilingual Indian Languages | 1T |
| Instruction | 740B |
| Reasoning | 607B |
| Total Phase 2 | 8.08T |
Combined Total Training Data: 22.13 Trillion Tokens
๐ฏ Pre-Training Details
- Total Training Tokens: ~22 Trillion
- Data Quality: Highly curated using 22 Indian language quality classifiers along with an in-house preprocessing pipeline.
- Scheduler: Cosine Annealing
- Training Framework: NVIDIA NeMo
- Hardware: NVIDIA H100 GPUs
- Total Training Duration: 24 Days
- Precision: bf16-mixed
๐ Environmental Impact
Carbon Emissions
Training large-scale foundation models requires substantial computational resources. In the interest of transparency and responsible AI development, we provide an estimated carbon footprint of our training process. Training Configuration
| Metric | Value |
|---|---|
| Total GPU Hours | 576 Hours |
| Hardware Used | NVIDIA H100 GPUs |
| Estimated Power Usage | ~258,048 kWh (approximate) |
| Carbon Footprint | ~194 metric tons COโeq |
Note:
- Energy estimation is based on GPU TDP with a 25% infrastructure overhead.
- Carbon intensity reflects the India national grid average (0.75 kg COโeq/kWh).
- Actual emissions may vary depending on data center efficiency (PUE), renewable energy mix, and workload utilization.
- Calculations follow standard ML COโ estimation practices and are aligned with methodologies used in ML COโ Impact reporting.
Efficiency Measures
- Sparse Activation: Only 2.4B out of 17B parameters are activated per token, reducing computational overhead during inference
- Efficient Architecture: Hybrid MoE design optimizes compute-to-performance ratio
- Multi-Phase Training: Structured training phases ensure efficient use of computational resources
๐ Model Inference
Requirements:
- Transformers version - 4.52.3
- Support for Transformers v5 coming soon
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from parsers import parse_model_output
model_name = "bharatgenai/Param2-17B-A2.4B-Thinking"
tokenizer = AutoTokenizer.from_pretrained(
model_name,
trust_remote_code=False
)
model = AutoModelForCausalLM.from_pretrained(
model_name,
trust_remote_code=True,
device_map="auto"
)
conversation = [
{"role": "system", "content": "You are helpful assistant."},
{"role": "user", "content": "What is the BharatGen Mission?"}
]
inputs = tokenizer.apply_chat_template(
conversation=conversation,
return_tensors="pt",
add_generation_prompt=True
).to(model.device)
with torch.no_grad():
output = model.generate(
inputs,
max_new_tokens=300,
do_sample=True,
top_k=50,
top_p=0.9,
temperature=0.7,
eos_token_id=tokenizer.eos_token_id,
use_cache=False,
)
generated_tokens = output[0][inputs.shape[-1]:]
# ๐ฅ IMPORTANT: skip_special_tokens=False
generated_text = tokenizer.decode(
generated_tokens,
skip_special_tokens=False
)
parsed = parse_model_output(generated_text)
print("\n========== RAW ==========\n", generated_text)
print("\n========== REASONING ==========\n", parsed["reasoning"])
print("\n========== TOOL CALLS ==========\n", parsed["tool_calls"])
print("\n========== FINAL ANSWER ==========\n", parsed["final_answer"])
Note: The parser is available within the model directory. You may download and customize it according to your use case.
โ Quick Guide for Best Results
Use Deterministic Decoding for Consistency
Set do_sample = False to get stable, repeatable, and more reliable outputs. This is recommended for evaluations, production use, and structured tasks.
Prompt Tuning is Essential
Clearly specify the task, format, and constraints in your prompt. Well-structured instructions significantly improve accuracy and relevance for specific use cases.
Leverage Strong Structured Output Capabilities
The model performs well at generating Markdown, tables, JSON, and other structured formats, making it ideal for documentation, reports, and formatted outputs.
๐ Model Capabilities & Examples
๐งฎ Example: Mathematical Reasoning (Chain-of-Thought)
Prompt
A class has 30 students.
The average score of the whole class in a test is 70. The average score of the top 10 students is 85. The average score of the bottom 10 students is 50.
๐ What is the average score of the middle 10 students?
Model Response
๐ง Click to view Reasoning Process
<think>
Ahh.. Thinking about the problem..
Okay, let's see. The problem is about a class of 30 students. The average score of the whole class is 70. The top 10 students have an average of 85, and the bottom 10 have an average of 50. We need to find the average score of the middle 10 students.
First, I need to recall that the average score is the total sum of all scores divided by the number of students. So, for the entire class, the total sum of scores would be 30 students multiplied by 70, which is 2100. That makes sense because average is sum divided by number.
Now, the top 10 students have an average of 85. So their total sum would be 10 times 85, which is 850. Similarly, the bottom 10 students have an average of 50, so their total sum is 10 times 50, which is 500.
But here's the thing: the class is divided into three groupsโtop, middle, and bottom. Each group has 10 students. So, the total sum of all three groups should equal the total sum of the entire class. That is, 850 (top) + sum of middle 10 + 500 (bottom) = 2100.
To find the sum of the middle 10 students, we subtract the top and bottom sums from the total. Let's compute that: 2100 minus 850 minus 500. That would be 2100 - 850 = 1250, then 1250 - 500 = 750. So the middle 10 students have a total sum of 750.
Now, to find their average, we take that sum and divide it by the number of students in the middle group, which is 10. So 750 divided by 10 equals 75. Therefore, the average score of the middle 10 students is 75.
Wait, let me check my math again to make sure.
Total class sum: 30 * 70 = 2100. Correct.
Top 10 sum: 10 * 85 = 850. Bottom 10 sum: 10 * 50 = 500. Adding those: 850 + 500 = 1350.
Subtracting that from the total: 2100 - 1350 = 750. Divided by 10 students: 750 / 10 = 75. Yep, that seems right.
I don't think there's any overlap here because the top and bottom groups are separate, and the middle group is the remaining 10. So this should be straightforward. So the answer is 75.
Hmm, but just to think again, sometimes in these problems, there might be some trick where the middle group is not exactly 10 students, but in this case, the problem states the class has 30 students, divided into top 10, middle 10, bottom 10. So they add up to 30. So each is 10. Therefore, the logic holds. So the average of the middle 10 is 75. So I think that's the answer. </think>
The class has 30 students with an average score of 70. The total sum of all scores is (30 \times 70 = 2100).
The top 10 students have an average score of 85, giving a total of (10 \times 85 = 850). The bottom 10 students have an average score of 50, giving a total of (10 \times 50 = 500).
Subtracting the top and bottom sums from the total gives the middle 10 students' total: (2100 - 850 - 500 = 750).
Dividing this by 10 students gives the average score of the middle 10 students: (\frac{750}{10} = 75).
The average score of the middle 10 students is (\boxed{75}).
๐ฎ๐ณ Example: Multilingual Coding (Telugu)
Prompt
Write a binary search program in Python. All comments in the code must be written in Telugu language.
Model Response
๐ Click to view Reasoning Process
<think>
Reasoning
User binary search เฐเฑเฐธเฐ Python program เฐเฑเฐฐเฐพเฐฐเฑ. Comments เฐ เฐจเฑเฐจเฐฟ Telugu เฐฒเฑ เฐเฐเฐกเฐพเฐฒเฐฟ. Binary search เฐธเฐพเฐงเฐพเฐฐเฐฃ algorithm, array, low, high, mid. Telugu เฐฒเฑ เฐตเฐฟเฐตเฐฐเฐฃเฐฒเฑ เฐเฐตเฑเฐตเฐพเฐฒเฐฟ. Code เฐฒเฑ comments Telugu เฐฒเฑ เฐเฐเฐกเฐพเฐฒเฐฟ, code logic correct เฐเฐเฐกเฐพเฐฒเฐฟ. Python เฐฒเฑ function name in English, comments Telugu. </think>
def binary_search(arr, target):
# เฐ เฐซเฐเฐเฑเฐทเฐจเฑ เฐฒเฐเฑเฐทเฑเฐฏ เฐตเฐฟเฐฒเฑเฐตเฐจเฑ เฐเฐจเฑเฐเฑเฐเฑเฐตเฐกเฐพเฐจเฐฟเฐเฐฟ binary search เฐจเฑ เฐ
เฐฎเฐฒเฑ เฐเฑเฐธเฑเฐคเฑเฐเฐฆเฐฟ
low = 0
high = len(arr) - 1
while low <= high:
mid = (low + high) // 2
# เฐฎเฐงเฑเฐฏ เฐตเฐฟเฐฒเฑเฐตเฐจเฑ เฐชเฐฐเฐฟเฐถเฑเฐฒเฐฟเฐธเฑเฐคเฐพเฐฎเฑ
if arr[mid] == target:
# เฐฒเฐเฑเฐทเฑเฐฏ เฐตเฐฟเฐฒเฑเฐตเฐจเฑ เฐเฐจเฑเฐเฑเฐจเฑเฐจเฐพเฐ, เฐฆเฐพเฐจเฐฟ index เฐจเฑ เฐคเฐฟเฐฐเฐฟเฐเฐฟ เฐเฐธเฑเฐคเฐพเฐ
return mid
elif arr[mid] < target:
# เฐฒเฐเฑเฐทเฑเฐฏ เฐตเฐฟเฐฒเฑเฐต เฐชเฑเฐฆเฑเฐฆเฐฆเฐฟ, เฐเฐพเฐฌเฐเฑเฐเฐฟ low เฐจเฑ เฐชเฑเฐเฐเฑเฐคเฐพเฐ
low = mid + 1
else:
# target เฐเฐฟเฐจเฑเฐจเฐฆเฐฟ, เฐเฐพเฐฌเฐเฑเฐเฐฟ high เฐจเฑ เฐคเฐเฑเฐเฐฟเฐธเฑเฐคเฐพเฐ
high = mid - 1
# เฐฒเฐเฑเฐทเฑเฐฏ เฐตเฐฟเฐฒเฑเฐต เฐฒเฑเฐฆเฑ, -1 เฐจเฑ เฐคเฐฟเฐฐเฐฟเฐเฐฟ เฐเฐธเฑเฐคเฐพเฐ
return -1
# เฐเฐฆเฐพเฐนเฐฐเฐฃ เฐตเฐฟเฐจเฐฟเฐฏเฑเฐเฐ
arr = [2, 3, 5, 7, 11, 13]
target = 7
result = binary_search(arr, target)
print(f"เฐฒเฐเฑเฐทเฑเฐฏ เฐตเฐฟเฐฒเฑเฐต {target} เฐฏเฑเฐเฑเฐ index: {result}")
๐ Example: Multilingual Cultural Question (Hindi)
Prompt
เคญเคพเคฐเคค เค เคชเคจเฅ เคตเคฟเคตเคฟเคง เคธเคเคธเฅเคเฅเคคเคฟ เคเฅ เคฒเคฟเค เคเคพเคจเคพ เคเคพเคคเคพ เคนเฅเฅค เคญเคพเคฐเคค เคฎเฅเค เค เคฒเค-เค เคฒเค เคฐเคพเคเฅเคฏเฅเค เคเฅ เคญเคพเคทเคพเคเค, เคญเฅเคเคจ เคเคฐ เคคเฅเคฏเฅเคนเคพเคฐ เคเฅเคฏเฅเค เค เคฒเค เคนเฅเคคเฅ เคนเฅเค? เคเคธ เคธเคพเคเคธเฅเคเฅเคคเคฟเค เคตเคฟเคตเคฟเคงเคคเคพ เคเคพ เคญเคพเคฐเคคเฅเคฏ เคธเคฎเคพเค เคชเคฐ เคเฅเคฏเคพ เคธเคเคพเคฐเคพเคคเฅเคฎเค เคชเฅเคฐเคญเคพเคต เคชเคกเคผเคคเคพ เคนเฅ?
Model Response
๐ญ Click to view Reasoning Process
<think>
เคชเฅเคฐเคถเฅเคจ เคเฅ เคธเคฎเค
เคเคชเคฏเฅเคเคเคฐเฅเคคเคพ เคจเฅ เคญเคพเคฐเคค เคเฅ เคตเคฟเคตเคฟเคง เคธเคเคธเฅเคเฅเคคเคฟ เคเฅ เคเคพเคฐเคฃ เคฐเคพเคเฅเคฏโเคตเคฟเคถเคฟเคทเฅเค เคญเคพเคทเคพเคเค, เคญเฅเคเคจ เคเคฐ เคคเฅเคฏเฅเคนเคพเคฐเฅเค เคฎเฅเค เค เคเคคเคฐ เคเฅ เคฌเคพเคฐเฅ เคฎเฅเค เคชเฅเคเคพ เคนเฅ เคคเคฅเคพ เคเคธ เคตเคฟเคตเคฟเคงเคคเคพ เคเฅ เคธเคพเคฎเคพเคเคฟเค เคชเฅเคฐเคญเคพเคต เคชเคฐ เคเคฐเฅเคเคพ เคเคพเคนเคคเคพ เคนเฅเฅค เคเคธเคฒเคฟเค เคเคคเฅเคคเคฐ เคฎเฅเค เคฆเฅ เคญเคพเค เคเคพเคนเคฟเค: (1) เคธเคพเคเคธเฅเคเฅเคคเคฟเค เคตเคฟเคตเคฟเคงเคคเคพ เคเฅ เคเคพเคฐเคฃเฅเค เคเคพ เคธเฅเคชเคทเฅเคเฅเคเคฐเคฃ, (2) เคเคธ เคตเคฟเคตเคฟเคงเคคเคพ เคเฅ เคธเคเคพเคฐเคพเคคเฅเคฎเค เคชเฅเคฐเคญเคพเคตเฅเค เคเฅ เคธเฅเคเฅเฅค
เคฎเฅเคเฅเคฏ เคเคพเคฐเคฃเฅเค เคเฅ เคชเคนเคเคพเคจ
- เคญเฅเคเฅเคฒเคฟเค เคตเคฟเคตเคฟเคงเคคเคพ โ เคชเคนเคพเคกเคผ, เคฎเฅเคฆเคพเคจ, เคธเคฎเฅเคฆเฅเคฐ เคคเค, เคฐเฅเคเคฟเคธเฅเคคเคพเคจ เคเคฆเคฟ เคตเคฟเคญเคฟเคจเฅเคจ เคเคฒเคตเคพเคฏเฅ เคเคฐ เคธเฅเคฅเคฒ เคฌเคจเคพเคคเฅ เคนเฅเค, เคเคฟเคธเคธเฅ เค เคฒเคโเค เคฒเค เคเฅเคทเคฟโเคเคคเฅเคชเคพเคฆเคจ เคเคฐ เคเคพเคฆเฅเคฏโเคชเฅเคฐเคฃเคพเคฒเฅ เคตเคฟเคเคธเคฟเคค เคนเฅเคคเฅ เคนเฅเฅค
- เคเคจเคเคพเคคเฅเคฏ เคเคตเค เคญเคพเคทเคพ เคตเคฟเคตเคฟเคงเคคเคพ โ เคตเคฟเคญเคฟเคจเฅเคจ เคเคจเคเคพเคคเฅเคฏ เคธเคฎเฅเคน, เคเคจเคเฅ เคฎเฅเคฒ เคญเคพเคทเคพเคเค, เคฒเคฟเคชเคฟเคฏเคพเค เคเคฐ เคธเคพเคเคธเฅเคเฅเคคเคฟเค เคชเคฐเคฎเฅเคชเคฐเคพเคเค เคฐเคพเคเฅเคฏโเคธเฅเคคเคฐ เคชเคฐ เคญเคพเคทเคพ เคเคพ เคชเฅเคฐเคฏเฅเค เคจเคฟเคฐเฅเคงเคพเคฐเคฟเคค เคเคฐเคคเฅ เคนเฅเคเฅค
- เคเคคเคฟเคนเคพเคธเคฟเค เคเคตเค เคฐเคพเคเคจเฅเคคเคฟเค เคชเฅเคฐเคญเคพเคต โ เคตเคฟเคญเคฟเคจเฅเคจ เคฐเคพเคเคตเคเคถ, เคเคชเคจเคฟเคตเฅเคถ, เคเคฐ เคธเฅเคตเคคเคเคคเฅเคฐเคคเคพ เคเฅ เคฌเคพเคฆ เคเฅ เคฐเคพเคเฅเคฏโเคจเคฟเคฐเฅเคฎเคพเคฃ เคจเฅ เคชเฅเคฐเคถเคพเคธเคจเคฟเค เคธเฅเคฎเคพเคเค เคเคฐ เคธเคพเคเคธเฅเคเฅเคคเคฟเค เคชเคนเคเคพเคจ เคเฅ เค เคฒเค เคเคฟเคฏเคพเฅค
- เคงเคฐเฅเคฎ เคเคฐ เคเคคเฅเคธเคต เคชเคฐเคเคชเคฐเคพ โ เคชเฅเคฐเคคเฅเคฏเฅเค เคเฅเคทเฅเคคเฅเคฐ เคฎเฅเค เคชเฅเคฐเคฎเฅเค เคงเคฐเฅเคฎ (เคนเคฟเคเคฆเฅ, เคฎเฅเคธเฅเคฒเคฟเคฎ, เคธเคฟเค, เคฌเฅเคฆเฅเคง เคเคฆเคฟ) เคเคฐ เคเคจเคเฅ เคธเฅเคฅเคพเคจเฅเคฏ เคเคคเฅเคธเคต, เคฐเฅเคคเคฟโเคฐเคฟเคตเคพเค เค เคฒเคโเค เคฒเค เคตเคฟเคเคธเคฟเคค เคนเฅเคคเฅ เคนเฅเคเฅค
- เคธเฅเคฅเคพเคจเฅเคฏ เคธเคเคธเคพเคงเคจ เคเคตเค เคชเคฐเคฎเฅเคชเคฐเคพเคเค โ เคชเฅเคฐเคพเคเฅเคคเคฟเค เคธเคเคธเคพเคงเคจ (เคเฅเคธเฅ เคเคฒ, เคเคจเคฟเค, เคธเคฎเฅเคฆเฅเคฐ) เคเคฐ เคธเฅเคฅเคพเคจเฅเคฏ เคเคพเคฐเฅเคเคฐ, เคนเคธเฅเคคเคถเคฟเคฒเฅเคช เคเคฆเคฟ เคธเคพเคเคธเฅเคเฅเคคเคฟเค เค เคญเคฟเคตเฅเคฏเคเฅเคคเคฟ เคเฅ เคเคเคพเคฐ เคฆเฅเคคเฅ เคนเฅเคเฅค
เคเคคเฅเคคเคฐ เคเคพ เคขเคพเคเคเคพ เคคเคฏ เคเคฐเคจเคพ
- เคชเคนเคฒเฅ เคเคพเคฐเคฃเฅเค เคเฅ เคเฅเคฐเคฎเคฌเคฆเฅเคง เคฌเคฟเคเคฆเฅเคเค เคฎเฅเค เคชเฅเคฐเคธเฅเคคเฅเคค เคเคฐเฅเค, เคเคฟเคธเคธเฅ เคเคชเคฏเฅเคเคเคฐเฅเคคเคพ เคเฅ เคธเฅเคชเคทเฅเค เคธเคฎเค เคฎเคฟเคฒเฅเฅค
- เคซเคฟเคฐ เคชเฅเคฐเคคเฅเคฏเฅเค เคเคพเคฐเคฃ เคเฅ เคฌเคพเคฆ เคคเคคเฅเคเคพเคฒ เคชเคฐเคฟเคฃเคพเคฎ (เคญเคพเคทเคพเคเค, เคญเฅเคเคจ, เคคเฅเคฏเฅเคนเคพเคฐ) เคเฅ เคธเคเคเฅเคทเคฟเคชเฅเคค เคฐเฅเคช เคฎเฅเค เคเฅเคกเคผเฅเค, เคเฅเคธเคพ เคเคฟ เคธเคเคฆเคฐเฅเคญ เคเคคเฅเคคเคฐ เคฎเฅเค เคเคฟเคฏเคพ เคเคฏเคพ เคนเฅเฅค
- เค เคเคค เคฎเฅเค เคธเคพเคฎเคพเคเคฟเค เคชเฅเคฐเคญเคพเคต เคเฅ เคชเคพเคเค เคชเฅเคฐเคฎเฅเค เคฌเคฟเคเคฆเฅเคเค เคฎเฅเค เคตเคฟเคญเคพเคเคฟเคค เคเคฐเฅเค, เคชเฅเคฐเคคเฅเคฏเฅเค เคฌเคฟเคเคฆเฅ เคเฅ เค เคฒเคโเค เคฒเค เคเคชโเคฌเคฟเคเคฆเฅ เคเฅ เคธเคพเคฅ เคตเคฟเคธเฅเคคเฅเคค เคเคฐเฅเค, เคเคฐ เค เคเคค เคฎเฅเค เคเค เคธเคฎเคเฅเคฐ เคจเคฟเคทเฅเคเคฐเฅเคท เคฆเฅเค เคเฅ เคตเคฟเคตเคฟเคงเคคเคพ เคเฅ เคเคเคคเคพ เคเฅ เคธเคพเคฅ เคเฅเคกเคผเฅเฅค
เคธเคเคพเคฐเคพเคคเฅเคฎเค เคชเฅเคฐเคญเคพเคตเฅเค เคเฅ เคธเฅเคเฅ เคฌเคจเคพเคจเคพ
- เคธเคพเคเคธเฅเคเฅเคคเคฟเค เค เคญเคฟเคตเฅเคฏเคเฅเคคเคฟ โ เคตเคฟเคตเคฟเคงเคคเคพ เคเฅ เคเคพเคฐเคฃ เคตเคฟเคญเคฟเคจเฅเคจ เคเคฒเคพ, เคธเคเคเฅเคค, เคจเฅเคคเฅเคฏ, เคธเคพเคนเคฟเคคเฅเคฏ เคเคฆเคฟ เคเคพ เคตเคฟเคเคพเคธเฅค
- เคเคฐเฅเคฅเคฟเค เคชเฅเคฐเคญเคพเคต โ เคชเคฐเฅเคฏเคเคจ, เคนเคธเฅเคคเคถเคฟเคฒเฅเคช, เคธเฅเคฅเคพเคจเฅเคฏ เคฌเคพเคเคพเคฐเฅเค เคเฅ เคตเคฟเคตเคฟเคงเคคเคพ, เคเคฟเคธเคธเฅ เคเคฏ เคเคคเฅเคชเคจเฅเคจ เคนเฅเคคเฅ เคนเฅเฅค
- เคถเคฟเคเฅเคทเคพ เคเคตเค เค เคจเฅเคธเคเคงเคพเคจ โ เคตเคฟเคญเคฟเคจเฅเคจ เคญเคพเคทเคพโเคธเคพเคนเคฟเคคเฅเคฏ, เคเคคเคฟเคนเคพเคธ, เคธเคพเคฎเคพเคเคฟเค เคตเคฟเคเฅเคเคพเคจ เคเฅ เค เคงเฅเคฏเคฏเคจ เคเฅ เค เคตเคธเคฐเฅค
- เคตเฅเคถเฅเคตเคฟเค เคฎเคเค เคชเคฐ เคชเคนเคเคพเคจ โ เค เคเคคเคฐเคฐเคพเคทเฅเคเฅเคฐเฅเคฏ เคฎเคเค เคชเคฐ เคตเคฟเคตเคฟเคง เคธเคพเคเคธเฅเคเฅเคคเคฟเค เคเคคเฅเคชเคพเคฆเฅเค เคเคพ เคชเฅเคฐเคฆเคฐเฅเคถเคจ, เคเคฟเคธเคธเฅ เคญเคพเคฐเคค เคเฅ เคเคตเคฟ เคฎเคเคฌเฅเคค เคนเฅเคคเฅ เคนเฅเฅค
- เคธเคพเคฎเคพเคเคฟเค เคฎเฅเคฒเฅเคฏ เคเคตเค เคธเคนเคฟเคทเฅเคฃเฅเคคเคพ โ เคตเคฟเคตเคฟเคงเคคเคพ เคเฅ เคฎเคพเคงเฅเคฏเคฎ เคธเฅ เคตเคฟเคญเคฟเคจเฅเคจ เคงเคฐเฅเคฎ, เคเคพเคคเฅเคฏ เคธเคฎเฅเคนเฅเค เคเฅ เคฌเฅเค เคธเคนเคฟเคทเฅเคฃเฅเคคเคพ เคเคฐ เคธเคนเคฏเฅเค เคเคพ เคตเคฟเคเคพเคธเฅค
เคเคคเฅเคคเคฐ เคเคพ เคธเฅเคตเคฐ เคเคฐ เคถเฅเคฒเฅ
เคธเคเคฆเคฐเฅเคญ เคเคคเฅเคคเคฐ เคฎเฅเค เคธเคฐเคฒ, เคฌเคฟเคเคฆเฅโเคเคงเคพเคฐเคฟเคค เคถเฅเคฒเฅ เคนเฅ, เคชเฅเคฐเคคเฅเคฏเฅเค เคฌเคฟเคเคฆเฅ เคเฅ เคฌเฅเคฒเฅเคก เคถเฅเคฐเฅเคทเค เคเฅ เคธเคพเคฅ เคชเฅเคฐเคธเฅเคคเฅเคค เคเคฟเคฏเคพ เคเคฏเคพ เคนเฅเฅค เคเคธเคฒเคฟเค เคเคธเฅ เคถเฅเคฒเฅ เคเฅ เค เคชเคจเคพเคคเฅ เคนเฅเค, เคเคพเคฐเคฃเฅเค เคเฅ เคเฅเคฐเคฎเคพเคเคเคฟเคค เคธเฅเคเฅ เคฎเฅเค เคฒเคฟเคเฅเค เคเคฐ เคชเฅเคฐเคญเคพเคตเฅเค เคเฅ เคญเฅ เคธเคฎเคพเคจ เคฐเฅเคช เคฎเฅเค เคชเฅเคฐเคธเฅเคคเฅเคค เคเคฐเฅเคเฅค เคฏเคน เคเคชเคฏเฅเคเคเคฐเฅเคคเคพ เคเฅ เค เคจเฅเคฐเฅเคง เคเฅ เค เคจเฅเคธเคพเคฐ เคเคคเฅเคคเคฐ เคเฅ เคธเฅเคชเคทเฅเค, เคธเคเคเค เคฟเคค เคเคฐ เคธเคเคพเคฐเคพเคคเฅเคฎเค เคฌเคจเคพเคคเคพ เคนเฅเฅค
เค เคเคคเคฟเคฎ เคฐเฅเคชเคฐเฅเคเคพ
- เคชเคฐเคฟเคเคฏเคพเคคเฅเคฎเค เคตเคพเคเฅเคฏ: โเคญเคพเคฐเคค เค เคชเคจเฅ เคตเคฟเคตเคฟเคง เคธเคเคธเฅเคเฅเคคเคฟ เคเฅ เคฒเคฟเค เคเคพเคจเคพ เคเคพเคคเคพ เคนเฅ, เคเคธเคฒเคฟเค เคชเฅเคฐเคคเฅเคฏเฅเค เคฐเคพเคเฅเคฏ เคฎเฅเค เค เคฒเคโเค เคฒเค เคญเคพเคทเคพเคเค, เคญเฅเคเคจ เคเคฐ เคคเฅเคฏเฅเคนเคพเคฐ เคนเฅเคคเฅ เคนเฅเคเฅคโ
- เคเคพเคฐเคฃเฅเค เคเฅ เคธเฅเคเฅ (1โ5) เคเคฐ เคเคจเคเฅ เคคเฅเคฐเคเคค เคชเฅเคฐเคญเคพเคตเฅค
- เคธเคเคพเคฐเคพเคคเฅเคฎเค เคชเฅเคฐเคญเคพเคตเฅเค เคเฅ เคธเฅเคเฅ (1โ5) เคเฅ เคธเคพเคฅ เคตเคฟเคธเฅเคคเฅเคค เคฌเคฟเคเคฆเฅเฅค
- เคจเคฟเคทเฅเคเคฐเฅเคท: เคตเคฟเคตเคฟเคงเคคเคพ เคเคเคคเคพ เคเฅ เคธเคพเคฅ เคธเคฎเฅเคฆเฅเคงเคฟ เคฒเคพเคคเฅ เคนเฅเฅค
เคฏเคน เคธเฅเค เคชเฅเคฐเคเฅเคฐเคฟเคฏเคพ เคธเฅเคงเฅ เคธเคเคฆเคฐเฅเคญ เคเคคเฅเคคเคฐ เคเฅ เคธเคพเคฎเคเฅเคฐเฅ เคเคฐ เคธเคเคฐเคเคจเคพ เคเฅ เคเคฐ เคฒเฅ เคเคพเคคเฅ เคนเฅ, เคเคฟเคธเคธเฅ เคตเคนเฅ เคเคคเฅเคคเคฐ เคเคคเฅเคชเคจเฅเคจ เคนเฅเคเคพเฅค </think>
เคญเคพเคฐเคค เค เคชเคจเฅ เคตเคฟเคตเคฟเคง เคธเคเคธเฅเคเฅเคคเคฟ เคเฅ เคฒเคฟเค เคเคพเคจเคพ เคเคพเคคเคพ เคนเฅ, เคเคธเคฒเคฟเค เคชเฅเคฐเคคเฅเคฏเฅเค เคฐเคพเคเฅเคฏ เคฎเฅเค เค เคฒเค- เค เคฒเค เคญเคพเคทเคพเคเค, เคญเฅเคเคจ เคเคฐ เคคเฅเคฏเฅเคนเคพเคฐ เคนเฅเคคเฅ เคนเฅเคเฅค
เคญเคฟเคจเฅเคจ เคญเฅเคเฅเคฒเคฟเค เคธเฅเคฅเคฟเคคเคฟ เคเคฐ เคเคฒเคตเคพเคฏเฅ เคญเคพเคฐเคค เคฎเฅเค เคชเคนเคพเคกเคผ, เคฎเฅเคฆเคพเคจ, เคเคเคเคฒ, เคธเคฎเฅเคฆเฅเคฐ เคคเค เคเคฐ เคฐเฅเคเคฟเคธเฅเคคเคพเคจ เคเฅเคธเฅ เคตเคฟเคตเคฟเคง เคญเฅ-เคญเคพเค เคนเฅเคเฅค เคเคธเคฒเคฟเค เคชเฅเคฐเคคเฅเคฏเฅเค เคฐเคพเคเฅเคฏ เคฎเฅเค เค เคฒเค-เค เคฒเค เคเคฒเคตเคพเคฏเฅ เคนเฅ เคเคฐ เค เคฒเค-เค เคฒเค เคเฅเคทเคฟ เคเคคเฅเคชเคพเคฆเคจ เคนเฅเคคเคพ เคนเฅเฅค เคฏเคน เค เคฒเค-เค เคฒเค เคญเฅเคเคจ เคเคฐ เคเคพเคจเฅ เคเฅ เคชเคฐเคเคชเคฐเคพเคเค เคเฅ เคเคจเฅเคฎ เคฆเฅเคคเคพ เคนเฅเฅค
เคญเคพเคทเคพเคเค เคเคฐ เคเคพเคคเฅเคฏ เคตเคฟเคตเคฟเคงเคคเคพ เคญเคพเคฐเคค เคฎเฅเค เคตเคฟเคตเคฟเคง เคเคพเคคเฅเคฏ เคธเคฎเฅเคน เคเคฐ เคญเคพเคทเคพเคเค เคนเฅเคเฅค เคชเฅเคฐเคคเฅเคฏเฅเค เคฐเคพเคเฅเคฏ เคฎเฅเค เค เคชเคจเฅ เคญเคพเคทเคพ เคนเฅ, เคเฅ เคเคธ เคฐเคพเคเฅเคฏ เคเฅ เคชเคนเคเคพเคจ เคนเฅเฅค เคญเคพเคทเคพ เคเฅ เคเคพเคฐเคฃ เค เคฒเค-เค เคฒเค เคธเคพเคนเคฟเคคเฅเคฏ, เคเฅเคค เคเคฐ เคเคนเคพเคจเคฟเคฏเคพเค เคนเฅเคคเฅ เคนเฅเคเฅค
เคเคคเคฟเคนเคพเคธเคฟเค เคเคฐ เคฐเคพเคเคจเฅเคคเคฟเค เคชเฅเคฐเคญเคพเคต เคญเคพเคฐเคค เคฎเฅเค เคตเคฟเคญเคฟเคจเฅเคจ เคฐเคพเคเคตเคเคถ, เคเคชเคจเคฟเคตเฅเคถ เคเคฐ เคฐเคพเคเฅเคฏ เคฅเฅเฅค เคชเฅเคฐเคคเฅเคฏเฅเค เคฐเคพเคเฅเคฏ เคฎเฅเค เค เคชเคจเฅ เคชเฅเคฐเคถเคพเคธเคจเคฟเค เคเคฐ เคธเคพเคเคธเฅเคเฅเคคเคฟเค เคชเคฐเคเคชเคฐเคพเคเค เคฅเฅเคเฅค เคเคธ เคเคพเคฐเคฃ เคญเฅเคเคจ, เคคเฅเคฏเฅเคนเคพเคฐ เคเคฐ เคฐเฅเคคเคฟ-เคฐเคฟเคตเคพเคเคผ เค เคฒเค-เค เคฒเค เคนเฅ เคเคเฅค
เคงเคฐเฅเคฎ เคเคฐ เคคเฅเคฏเฅเคนเคพเคฐ เคชเคฐเคเคชเคฐเคพ เคญเคพเคฐเคค เคฎเฅเค เคตเคฟเคญเคฟเคจเฅเคจ เคงเคฐเฅเคฎ เคนเฅเค, เคเฅเคธเฅ เคนเคฟเคเคฆเฅ, เคฎเฅเคธเฅเคฒเคฟเคฎ, เคธเคฟเค, เคฌเฅเคฆเฅเคง เคเคฆเคฟเฅค เคชเฅเคฐเคคเฅเคฏเฅเค เคงเคฐเฅเคฎ เคเคพ เค เคชเคจเคพ เคคเฅเคฏเฅเคนเคพเคฐ เคนเฅเคคเคพ เคนเฅ เคเคฐ เค เคฒเค-เค เคฒเค เคฐเฅเคคเคฟ-เคฐเคฟเคตเคพเคเคผ เคนเฅเคคเฅ เคนเฅเคเฅค
เคญเฅเคเคจ เคเคฐ เคคเฅเคฏเฅเคนเคพเคฐ เคเฅ เคเคพเคฐเคฃ เค เคฒเค-เค เคฒเค เคธเคเคธเฅเคเฅเคคเคฟ เคชเฅเคฐเคคเฅเคฏเฅเค เคฐเคพเคเฅเคฏ เคฎเฅเค เค เคฒเค-เค เคฒเค เคญเฅเคเคจ เคเคฐ เคคเฅเคฏเฅเคนเคพเคฐ เคนเฅเคคเฅ เคนเฅเค, เคเฅ เคเคธ เคฐเคพเคเฅเคฏ เคเฅ เคธเคพเคเคธเฅเคเฅเคคเคฟเค เคชเคนเคเคพเคจ เคนเฅเฅค
เคญเคพเคฐเคคเฅเคฏ เคธเคฎเคพเค เคชเคฐ เคธเคพเคเคธเฅเคเฅเคคเคฟเค เคตเคฟเคตเคฟเคงเคคเคพ เคเคพ เคธเคเคพเคฐเคพเคคเฅเคฎเค เคชเฅเคฐเคญเคพเคต
เคธเคพเคเคธเฅเคเฅเคคเคฟเค เค เคญเคฟเคตเฅเคฏเคเฅเคคเคฟ เคตเคฟเคตเคฟเคงเคคเคพ เคเฅ เคเคพเคฐเคฃ เคญเคพเคฐเคค เคฎเฅเค เคตเคฟเคญเคฟเคจเฅเคจ เคเคฒเคพ, เคธเคเคเฅเคค, เคจเฅเคคเฅเคฏ เคเคฐ เคธเคพเคนเคฟเคคเฅเคฏ เคเคพ เคตเคฟเคเคพเคธ เคนเฅเคเฅค เคฏเคน เคญเคพเคฐเคค เคเฅ เคเค เคธเคพเคเคธเฅเคเฅเคคเคฟเค เคถเคเฅเคคเคฟ เคฌเคจเคพเคคเคพ เคนเฅเฅค
เคเคฐเฅเคฅเคฟเค เคชเฅเคฐเคญเคพเคต เคตเคฟเคตเคฟเคงเคคเคพ เคเฅ เคเคพเคฐเคฃ เคญเคพเคฐเคค เคฎเฅเค เคชเคฐเฅเคฏเคเคจ, เคนเคธเฅเคคเคถเคฟเคฒเฅเคช เคเคฐ เคธเฅเคฅเคพเคจเฅเคฏ เคฌเคพเคเคพเคฐเฅเค เคเฅ เคตเคฟเคตเคฟเคงเคคเคพ เคนเฅเฅค เคฏเคน เคเคฏ เคเคฐ เคฐเฅเคเคเคพเคฐ เคเคพ เคธเฅเคฐเฅเคค เคฌเคจเคคเคพ เคนเฅเฅค
เคถเคฟเคเฅเคทเคพ เคเคฐ เค เคจเฅเคธเคเคงเคพเคจ เคตเคฟเคตเคฟเคงเคคเคพ เคเฅ เคเคพเคฐเคฃ เคญเคพเคฐเคค เคฎเฅเค เคตเคฟเคญเคฟเคจเฅเคจ เคญเคพเคทเคพเคเค, เคธเคพเคนเคฟเคคเฅเคฏ, เคเคคเคฟเคนเคพเคธ เคเคฐ เคธเคพเคฎเคพเคเคฟเค เคตเคฟเคเฅเคเคพเคจ เคเคพ เค เคงเฅเคฏเคฏเคจ เคนเฅเคคเคพ เคนเฅเฅค เคฏเคน เคญเคพเคฐเคคเฅเคฏ เคถเคฟเคเฅเคทเคพ เคชเฅเคฐเคฃเคพเคฒเฅ เคเฅ เคฎเคเคฌเฅเคค เคฌเคจเคพเคคเคพ เคนเฅเฅค
เคตเฅเคถเฅเคตเคฟเค เคฎเคเค เคชเคฐ เคชเคนเคเคพเคจ เคตเคฟเคตเคฟเคงเคคเคพ เคเฅ เคเคพเคฐเคฃ เคญเคพเคฐเคค เคฎเฅเค เคตเคฟเคญเคฟเคจเฅเคจ เคธเคพเคเคธเฅเคเฅเคคเคฟเค เคเคคเฅเคชเคพเคฆ เคตเฅเคถเฅเคตเคฟเค เคฎเคเค เคชเคฐ เคฆเคฟเคเคพเค เคฆเฅเคคเฅ เคนเฅเคเฅค เคฏเคน เคญเคพเคฐเคค เคเฅ เคเคตเคฟ เคเฅ เคฎเคเคฌเฅเคค เคฌเคจเคพเคคเคพ เคนเฅเฅค
เคธเคพเคฎเคพเคเคฟเค เคฎเฅเคฒเฅเคฏ เคเคฐ เคธเคนเคฟเคทเฅเคฃเฅเคคเคพ เคตเคฟเคตเคฟเคงเคคเคพ เคเฅ เคเคพเคฐเคฃ เคญเคพเคฐเคค เคฎเฅเค เคตเคฟเคญเคฟเคจเฅเคจ เคงเคฐเฅเคฎ, เคเคพเคคเฅเคฏ เคธเคฎเฅเคน เคเคฐ เคญเคพเคทเคพเคเค เคนเฅเคเฅค เคฏเคน เคธเคนเคฟเคทเฅเคฃเฅเคคเคพ เคเคฐ เคธเคพเคฎเคพเคเคฟเค เคธเคนเคฏเฅเค เคเคพ เคตเคฟเคเคพเคธ เคเคฐเคคเคพ เคนเฅเฅค
เคเคธ เคชเฅเคฐเคเคพเคฐ, เคญเคพเคฐเคค เคเฅ เคธเคพเคเคธเฅเคเฅเคคเคฟเค เคตเคฟเคตเคฟเคงเคคเคพ เคเค เคธเคเคพเคฐเคพเคคเฅเคฎเค เคชเฅเคฐเคญเคพเคต เคนเฅ, เคเฅ เคเคเคคเคพ เคเฅ เคธเคพเคฅ เคธเคฎเฅเคฆเฅเคงเคฟ เคเคฐ เคชเคนเคเคพเคจ เคเฅ เคตเคฟเคเคธเคฟเคค เคเคฐเคคเคพ เคนเฅเฅค
๐ Benchmarks
Our model has been evaluated across multiple benchmark categories to assess its capabilities in different domains. All results are reported as zero-shot performance unless otherwise specified.
๐ General English Benchmarks
Performance on fundamental language understanding and reasoning tasks:
| Task | Param-2-17B-A2.4B | Qwen1.5-MoE-A2.7B | DeepSeek-R1-Distill-Qwen-14B | DeepSeek-V2-Lite | gpt-oss-20b |
|---|---|---|---|---|---|
| ARC Challenge | 56.83 | 44.03 | 53.75 | 45.31 | 48.98 |
| ARC Easy | 77.69 | 68.9 | 74.75 | 70.41 | 75.51 |
| HellaSwag | 77.43 | 77.26 | 79.04 | 73.53 | 57.8 |
| SQuADv2 | 33.86 | 13.96 | 23.77 | 25.2 | 8.66 |
| MMLU | 57.79 | 62.22 | 73.05 | 46.57 | 66.37 |
๐ป Code, Math & Reasoning Benchmarks
Performance on specialized reasoning, mathematical problem-solving, and code generation:
| Task | Param-2-17B-A2.4B | Qwen1.5-MoE-A2.7B | DeepSeek-R1-Distill-Qwen-14B | DeepSeek-V2-Lite | gpt-oss-20b |
|---|---|---|---|---|---|
| GSM8K | 57.32 | 61.49 | 87.87 | 38.21 | 36.54 |
| MathQA | 40.23 | 35.61 | 48.44 | 38.73 | 36.68 |
| HumanEval | 36.59 | 33.54 | 26.22 | 26.83 | 24.39 |
| MBPP | 47 | 38.6 | 61 | 26.6 | - |
๐ Instruction Following Benchmarks
Evaluation of instruction comprehension and task execution capabilities:
| Task | Param-2-17B-A2.4B | Qwen1.5-MoE-A2.7B | DeepSeek-R1-Distill-Qwen-14B | DeepSeek-V2-Lite | gpt-oss-20b |
|---|---|---|---|---|---|
| TriviaQA | 54.64 | 38 | 17.88 | 34.62 | 29.05 |
| LogiQA | 52.35 | 31.18 | 33.49 | 29.34 | 32.87 |
| WinoGrande | 67.96 | 69.22 | 72.69 | 67.01 | 67.48 |
| TruthfulQA | 46.42 | 43.57 | 58.63 | 28.89 | 52.93 |
| IFEval | 34.05 | 13.19 | 51.8 | 12.75 | 31.42 |
๐ฎ๐ณ Indic Language Benchmarks
Performance on Indian language understanding and culturally grounded tasks:
| Task | Param-2-17B-A2.4B | Qwen1.5-MoE-A2.7B | DeepSeek-R1-Distill-Qwen-14B | DeepSeek-V2-Lite | gpt-oss-20b |
|---|---|---|---|---|---|
| Sanskriti | 66.54 | 28.71 | 74.58 | 64.84 | 75.14 |
| ARC Challenge (Indic) | 36.37 | 21.71 | 23.63 | 21.76 | 31.55 |
| TriviaQA (Indic MCQ) | 72.95 | 25.21 | 53.99 | 29.18 | 71.67 |
| Indic BoolQ | 75.98 | 46.48 | 70.03 | 62.9 | 70.02 |
| HellaSwag Hi | 49.63 | 25.86 | 39.02 | 30.23 | 41.25 |
| MMLU Hi | 59.23 | 33.27 | 44.52 | 24.26 | 50.29 |
Note: ARC Challenge (Indic) and TriviaQA (Indic MCQ) scores are macro-averaged across 10 Indian languages:
bn (Bengali), gu (Gujarati), hi (Hindi), kn (Kannada), ml (Malayalam), mr (Marathi), or (Odia), pa (Punjabi), ta (Tamil), te (Telugu).
Notes:
- All benchmarks reflect zero-shot performance unless noted
- PT = Early Pretrained Checkpoint
- Evaluation pipeline follows standard LM Evaluation Harness protocols
- All models have been tested with thinking=false
โ๏ธ Intended Use
This is an early post-training checkpoint is designed for:
- Research and Development: Investigating MoE architectures and multilingual language models
- Downstream Fine-Tuning: Building task-specific models for Indian language applications
- Academic Research: Studying cross-lingual transfer and low-resource language modeling
- Application Development: Creating culturally-aware AI applications for Indian markets
- Community Innovation: Enabling the open-source community to build India-specific use cases
Recommended Use Cases
- Multilingual chatbots and conversational AI
- Content generation in Indian languages
- Cross-lingual information retrieval
- Educational tools for Indian language learning
- Document understanding and summarization
- Cultural and regional knowledge applications
โ ๏ธ Limitations
Technical Limitations
- Hardware Requirements: Despite sparse activation, the 17B total parameters require significant VRAM (approximately 34GB+ in bfloat16) to load the full model
- Context Window: Optimized for 4096 tokens; performance may degrade on extremely long-form documents beyond this limit
Model Limitations
- No Guardrails: The model has not undergone RLHF or other alignment procedures
- Potential Biases: May contain biases present in the training data
- Language Imbalance: Performance may vary across different Indian languages based on data availability
- Not Production-Ready: Requires fine-tuning and safety evaluation before production deployment
๐ Responsible AI & Safety
Important Considerations
Base Model Status: This is an early post-training checkpoint that requires additional fine-tuning and safety alignment before production use.
Data Sources and Artifacts: Training data includes content crawled from the internet, which may contain inherited artifacts, biases, or inaccuracies.
No Safety Alignment: The model has not undergone comprehensive safety training and may generate:
- Biased or stereotypical content
- Factually incorrect information
- Potentially harmful or offensive text
Deployment Requirements: Organizations deploying this model must:
- Implement appropriate content filtering and safety measures
- Conduct thorough testing for their specific use case
- Monitor outputs for quality and safety
- Comply with applicable legal and ethical guidelines
Community Responsibility: Users are expected to:
- Use the model ethically and responsibly
- Avoid malicious applications
- Report issues and contribute to model improvement
- Credit the authors as per licensing terms
๐ค Acknowledgement & Collaboration
A Home-Grown Effort
This work represents a bottom-up initiative to develop large language models from scratch within India with limited resources. It reflects our humble, resource-constrained journey to contribute meaningfully to the open-source AI ecosystem and foster collaboration within the broader community.
Community Collaboration
We welcome contributions and open dialogue:
- Share feedback and report issues
- Collaborate on improvements and extensions
- Contribute to dataset curation and evaluation
- Build innovative applications on top of this foundation
Future versions will introduce better alignment, improved training scale, and more curated datasets. Together, we aim to evolve toward safer and more capable AI systems.
๐ License
This pretrained checkpoint is released under the BharatGen non-commercial license.
Please refer to the LICENSE file for detailed terms and conditions.
Contact
For any questions or feedback, please contact:
- Vijay Devane (vijay.devane@bharatgen.com)
- Sravan Kumar (sravan.kumar@bharatgen.com)
- Bhargav Patel (bhargav.patel@bharatgen.com)
- Kundeshwar Pundalik (kundeshwar.pundalik@bharatgen.com)
- Downloads last month
- 85