Academic Textbook Corpora for LLM Training - a InfoBayAI Collection

InfoBayAI 's Collections

Healthcare AI Datasets for Clinical & LLM Training

Dual Channel Global Customer-Agent Interaction Datasets

Podcast Speech & Conversational Audio Datasets

UGC and STEM Video Datasets

Academic Textbook Corpora for LLM Training

STEM & Non-STEM Q&A Datasets for LLM Training

Computer Vision & Multimodal Datasets

Academic Textbook Corpora for LLM Training

updated 18 days ago

Sample of a 2.2B+ word textbook corpus across 32K+ books, 5K+ subjects, and 14 languages for LLM training and multilingual knowledge modeling.