Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

README.md +67 -0
dataset/test/test.jsonl +1 -0
dataset/train/train.jsonl +4 -0
dataset/validation/validation.jsonl +1 -0
dataset_info.json +7 -0
training_config.json +9 -0

README.md ADDED Viewed

	@@ -0,0 +1,67 @@

+---
+tags:
+- code
+- programming
+- dataset
+pretty_name: "Coding Dataset"
+---
+# Coding Dataset
+Production-grade dataset for training AI coding agents.
+## Dataset Summary
+- **Total Examples**: 6 (demo)
+- **Languages**: Python, JavaScript, Java
+- **Task Types**: Code Generation
+- **License**: CC0-1.0
+## Dataset Structure
+### Data Splits
+- train: 70% of data
+- validation: 15% of data
+- test: 15% of data
+### Features
+- `id` (string): Unique identifier
+- `code` (string): Source code snippet
+- `code_description` (string): Natural language description
+- `programming_language` (string): Language (python, javascript, java, etc.)
+- `task_type` (string): Type of task
+- `difficulty_level` (string): Difficulty (beginner, intermediate, advanced, expert)
+- `quality_score` (float): Quality score 0.0-1.0
+- `is_tested` (bool): Code is tested
+- `has_bugs` (bool): Known bugs exist
+- `lines_of_code` (int): Number of lines
+- `collected_at` (string): Collection timestamp
+## Usage
+```python
+from datasets import load_dataset
+# Load dataset
+dataset = load_dataset("romcmu863/code-dataset")
+# Access splits
+train = dataset['train']
+validation = dataset['validation']
+test = dataset['test']
+# Get first example
+example = train[0]
+print(example['code_description'])
+print(example['code'])
+```
+## License
+CC0-1.0
+## Created
+2025-10-25

dataset/test/test.jsonl ADDED Viewed

	@@ -0,0 +1 @@

+ {"id":"35492ed8-a43e-4cd3-afac-4795a4519483","programming_language":"python","code":"class Stack:\n def __init__(self):\n self.items = []\n def push(self, item):\n self.items.append(item)\n def pop(self):\n return self.items.pop() if self.items else None","code_description":"Synthetic python code snippet demonstrating common patterns","task_type":"code_generation","difficulty_level":"beginner","dataset_source":"synthetic","quality_score":0.9,"is_tested":true,"has_bugs":false,"lines_of_code":7,"complexity_score":0.4,"functions_count":1,"dependencies":null,"tags":["algorithm","example"],"docstring":null,"source_url":null,"source_repository":null,"license":"CC0-1.0","author":"synthetic","created_at":"2025-10-25T07:54:31.450096Z","collected_at":"2025-10-25T07:54:31.450096Z"}

dataset/train/train.jsonl ADDED Viewed

	@@ -0,0 +1,4 @@

+{"id":"bbb35932-067d-49f6-8080-3f33d78f13c1","programming_language":"java","code":"public class Calculator {\n    public static int add(int a, int b) {\n        return a + b;\n    }\n    public static int multiply(int a, int b) {\n        return a * b;\n    }\n}","code_description":"Synthetic java code snippet demonstrating common patterns","task_type":"code_generation","difficulty_level":"beginner","dataset_source":"synthetic","quality_score":0.9,"is_tested":true,"has_bugs":false,"lines_of_code":8,"complexity_score":0.4,"functions_count":1,"dependencies":null,"tags":["algorithm","example"],"docstring":null,"source_url":null,"source_repository":null,"license":"CC0-1.0","author":"synthetic","created_at":"2025-10-25T07:54:31.453096Z","collected_at":"2025-10-25T07:54:31.453096Z"}
+{"id":"e9a75eec-f094-4753-a051-cb8072bd7787","programming_language":"javascript","code":"const debounce = (func, delay) => {\n    let timeoutId;\n    return (...args) => {\n        clearTimeout(timeoutId);\n        timeoutId = setTimeout(() => func(...args), delay);\n    };\n}","code_description":"Synthetic javascript code snippet demonstrating common patterns","task_type":"code_generation","difficulty_level":"beginner","dataset_source":"synthetic","quality_score":0.9,"is_tested":true,"has_bugs":false,"lines_of_code":7,"complexity_score":0.4,"functions_count":1,"dependencies":null,"tags":["algorithm","example"],"docstring":null,"source_url":null,"source_repository":null,"license":"CC0-1.0","author":"synthetic","created_at":"2025-10-25T07:54:31.451096Z","collected_at":"2025-10-25T07:54:31.451096Z"}
+{"id":"b83c937a-2b86-4e83-9579-789e2f8f859f","programming_language":"python","code":"def binary_search(arr, target):\n    left, right = 0, len(arr) - 1\n    while left <= right:\n        mid = (left + right) \/\/ 2\n        if arr[mid] == target:\n            return mid\n        elif arr[mid] < target:\n            left = mid + 1\n        else:\n            right = mid - 1\n    return -1","code_description":"Synthetic python code snippet demonstrating common patterns","task_type":"code_generation","difficulty_level":"beginner","dataset_source":"synthetic","quality_score":0.9,"is_tested":true,"has_bugs":false,"lines_of_code":11,"complexity_score":0.4,"functions_count":1,"dependencies":null,"tags":["algorithm","example"],"docstring":null,"source_url":null,"source_repository":null,"license":"CC0-1.0","author":"synthetic","created_at":"2025-10-25T07:54:31.450096Z","collected_at":"2025-10-25T07:54:31.450096Z"}
+{"id":"4bbd21cc-29ac-47e0-8497-e6aacf6aa6dc","programming_language":"python","code":"def fibonacci(n):\n    if n <= 1:\n        return n\n    return fibonacci(n-1) + fibonacci(n-2)","code_description":"Synthetic python code snippet demonstrating common patterns","task_type":"code_generation","difficulty_level":"beginner","dataset_source":"synthetic","quality_score":0.9,"is_tested":true,"has_bugs":false,"lines_of_code":4,"complexity_score":0.4,"functions_count":1,"dependencies":null,"tags":["algorithm","example"],"docstring":null,"source_url":null,"source_repository":null,"license":"CC0-1.0","author":"synthetic","created_at":"2025-10-25T07:54:31.449100Z","collected_at":"2025-10-25T07:54:31.449100Z"}

dataset/validation/validation.jsonl ADDED Viewed

	@@ -0,0 +1 @@

+ {"id":"726137f5-5551-48d4-b7ce-2e2f7a2b8167","programming_language":"javascript","code":"function isPrime(num) {\n if (num <= 1) return false;\n for (let i = 2; i < num; i++) {\n if (num % i === 0) return false;\n }\n return true;\n}","code_description":"Synthetic javascript code snippet demonstrating common patterns","task_type":"code_generation","difficulty_level":"beginner","dataset_source":"synthetic","quality_score":0.9,"is_tested":true,"has_bugs":false,"lines_of_code":7,"complexity_score":0.4,"functions_count":1,"dependencies":null,"tags":["algorithm","example"],"docstring":null,"source_url":null,"source_repository":null,"license":"CC0-1.0","author":"synthetic","created_at":"2025-10-25T07:54:31.451096Z","collected_at":"2025-10-25T07:54:31.451096Z"}

dataset_info.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "name": "code-dataset",
+  "version": "1.0.0",
+  "description": "Coding dataset for AI agents",
+  "homepage": "https://huggingface.co",
+  "license": "CC0-1.0"
+}

training_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "model_type": "seq2seq",
+  "task": "code-generation",
+  "vocab_size": 50000,
+  "batch_size": 32,
+  "learning_rate": 0.0001,
+  "num_epochs": 3,
+  "max_length": 512
+}