Sanchari / README.md

Update README.md

908b171 verified about 1 month ago

3.84 kB

	---
	language:
	- en
	- hi
	- te
	license: apache-2.0
	datasets: []
	pipeline_tag: text-generation
	tags:
	- foundation-model
	- instruction-following
	- multilingual
	- investor-preview
	- placeholder
	---
	# SANCHARI — v0.1 (Investor Preview)

	Sanchari is an upcoming instruction-following AI foundation model designed for
	Indian users, multilingual applications, and next-generation AI assistants.

	This repository is an investor preview.
	No model weights are uploaded yet.
	Training begins once project funding is approved.

	---

	## 🚀 Vision
	To build India’s most practical, multilingual AI model optimized for:

	- Smart assistants
	- Real-time Q&A
	- Summarization
	- Content generation
	- Business automation

	---

	## 📌 Current Status (v0.1)
	- Repository created
	- Model card published
	- Demo placeholder will be added
	- Data licensing & compute setup pending
	- Training begins after funding

	---

	## 🧠 Planned Model Family

	### Sanchari-S (200–350M)
	- First lightweight prototype
	- Fast inference
	- Suitable for apps & APIs

	### Sanchari-M (1–3B)
	- Stronger reasoning
	- Better instruction-following

	### Sanchari-L (7B+)
	- Full foundation model
	- Enterprise-grade multilingual intelligence

	---

	## 🛠️ Roadmap Overview

	### Phase 1 (0–3 months)
	- Dataset acquisition
	- Tokenizer creation
	- Train Sanchari-S
	- Publish evaluation & demo

	### Phase 2 (3–9 months)
	- Train Sanchari-M
	- Safety testing
	- API + product demo

	### Phase 3 (9–18 months)
	- Train Sanchari-L
	- Optimization
	- Market launch

	---

	## 📈 Market Opportunity

	India has 1.4 billion users across dozens of languages, yet most AI models are optimized for Western datasets.
	Sanchari focuses on:

	Indian English, Telugu, Hindi

	Local accents

	Local knowledge

	Culturally aligned reasoning

	Vernacular business workflows


	Target Markets:

	Enterprises adopting AI

	Customer support automation

	Healthcare conversational assistants

	FinTech support & KYC automation

	Education & e-learning

	Government services (Digital India)


	Projected TAM (India AI Assistants): $3.5B+ by 2027


	---

	## ⚡ Competitive Advantage

	Sanchari is designed specifically for Indian users, unlike global models trained mostly on Western data.

	Key differentiators:

	Native support for Telugu + Hindi + Indian English

	Dataset curated for Indian knowledge, culture, and business workflows

	Lightweight model versions for on-device and low-compute deployment

	Faster inference

	Lower cost for Indian startups

	Can be embedded into apps & enterprise workflows

	Privacy-friendly deployment options



	---

	## 🔧 Technical Architecture (High-Level)

	Tokenizer

	Multilingual tokenizer optimized for Indic languages

	Handles mixed-script text (Eng + Indic)


	Model Family

	Sanchari-S (200–350M) — prototype

	Sanchari-M (1–3B) — mid-range

	Sanchari-L (7B+) — flagship foundation model


	Training Stack

	PyTorch + DeepSpeed

	FlashAttention

	LoRA adapters for efficient instruction tuning

	Multi-GPU distributed training



	---

	## 💰 Funding Plan (Seed: ₹25,00,000)

	Where the funds go:

	Category Cost

	Multilingual licensed datasets ₹6,00,000
	Compute for training S, M models ₹12,00,000
	Storage, inference, and deployment ₹3,00,000
	Evaluation, safety testing ₹1,00,000
	Team & operations ₹3,00,000


	Deliverables to Investors:

	Checkpoints for Sanchari-S and M

	Evaluation results

	Demo API

	Weekly updates



	---

	## 👤 Founder

	Srikanth B.
	AI & product innovator focused on practical, multilingual AI solutions for India.
	Experience across product development, engineering leadership, and AI adoption for scalable business use cases.

	Email: boorgalasrikanth@gmail.com


	---


	## 📩 Contact
	Founder: Srikanth
	Email: boorgalasrikanth@gmail.com