Upload README.md with huggingface_hub

445a672 verified 3 months ago

6.04 kB

	---
	license: mit
	task_categories:
	- text-generation
	- text-classification
	- summarization
	language:
	- en
	tags:
	- finance
	- financial-qa
	- sentiment-analysis
	- summarization
	- instruction-tuning
	- sec-filings
	- 10-k
	size_categories:
	- 1K<n<10K
	configs:
	- config_name: default
	data_files:
	- split: train
	path: financial_qa.jsonl
	---

	# Financbase Financial QA Dataset

	## Dataset Description

	The Financbase Financial QA Dataset is a curated collection of financial question-answering examples designed for training large language models on financial domain tasks. This dataset supports multiple financial AI tasks including question answering, sentiment analysis, and document summarization.

	### Dataset Summary

	- Total Examples: 1,000+ financial Q&A pairs
	- Format: JSONL (JSON Lines)
	- Language: English
	- Domain: Financial services, SEC filings, investment analysis
	- Tasks: Question answering, sentiment classification, summarization

	### Dataset Structure

	Each example follows the instruction-tuning format with three fields:

	```json
	{
	"instruction": "Answer the question clearly for a retail investor.",
	"input": "What is EBITDA?",
	"output": "EBITDA stands for Earnings Before Interest, Taxes, Depreciation, and Amortization. It's a measure of a company's operating performance that excludes non-operating expenses..."
	}
	```

	### Supported Tasks

	1. Financial Question Answering
	- Basic financial concepts (EBITDA, P/E ratio, etc.)
	- Investment terminology
	- Market analysis questions

	2. Sentiment Analysis
	- Financial news sentiment classification
	- Earnings report sentiment
	- Market outlook analysis

	3. Document Summarization
	- SEC filing summaries
	- Earnings call summaries
	- Financial report abstracts

	## Usage

	### Loading the Dataset

	```python
	from datasets import load_dataset

	# Load the dataset
	dataset = load_dataset("Financbase/financbase-10k-jsonl", split="train")

	# Access examples
	for example in dataset:
	print(f"Instruction: {example['instruction']}")
	print(f"Input: {example['input']}")
	print(f"Output: {example['output']}")
	```

	### Training with Transformers

	```python
	from transformers import AutoTokenizer, AutoModelForCausalLM
	from datasets import load_dataset

	# Load dataset
	dataset = load_dataset("Financbase/financbase-10k-jsonl", split="train")

	# Format for training
	def format_example(example):
	return f"### Instruction:\n{example['instruction']}\n\n### Input:\n{example['input']}\n\n### Response:\n{example['output']}"

	# Apply formatting
	formatted_dataset = dataset.map(lambda x: {"text": format_example(x)})
	```

	### Using with PEFT/LoRA

	```python
	from peft import LoraConfig, get_peft_model
	from transformers import AutoModelForCausalLM

	# Load base model
	model = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-7B-Instruct-v0.2")

	# Configure LoRA
	lora_config = LoraConfig(
	r=16,
	lora_alpha=32,
	target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
	lora_dropout=0.05,
	bias="none",
	task_type="CAUSAL_LM"
	)

	# Apply LoRA
	model = get_peft_model(model, lora_config)
	```

	## Data Fields

	\| Field \| Type \| Description \|
	\|-------\|------\|-------------\|
	\| `instruction` \| string \| The task instruction or prompt \|
	\| `input` \| string \| The input context or question \|
	\| `output` \| string \| The expected response or answer \|

	## Data Splits

	- train: 1,000+ examples for training
	- validation: 100+ examples for validation (future release)
	- test: 100+ examples for testing (future release)

	## Data Collection

	### Sources

	- SEC 10-K filings (processed and chunked)
	- Financial news articles
	- Investment research reports
	- Financial education materials
	- Curated financial Q&A pairs

	### Preprocessing

	1. Document Chunking: Long documents split into ≤1800 token chunks
	2. Section Preservation: Maintains document structure and headings
	3. Quality Filtering: Removes low-quality or irrelevant examples
	4. Format Standardization: Ensures consistent instruction/input/output format

	## Compliance and Safety

	### Financial Compliance

	- No Investment Advice: Dataset does not contain personalized investment recommendations
	- Educational Purpose: Designed for educational and research use
	- Source Attribution: All examples traceable to original sources
	- Regulatory Compliance: Follows financial data handling best practices

	### Content Filtering

	- Removed personally identifiable information (PII)
	- Filtered out actionable trading directives
	- Excluded copyrighted material
	- Sanitized sensitive financial data

	## Evaluation

	### Metrics

	- Perplexity: Model confidence on financial text
	- BLEU Score: Response quality for summarization tasks
	- Accuracy: Classification accuracy for sentiment analysis
	- ROUGE Score: Summarization quality metrics

	### Benchmark Tasks

	1. Financial QA: Answer financial questions accurately
	2. Sentiment Analysis: Classify financial sentiment (positive/negative/neutral)
	3. Summarization: Summarize financial documents concisely

	## Limitations

	- Language: English only
	- Domain: Primarily US financial markets
	- Temporal: Data from 2020-2024 (may become outdated)
	- Bias: Reflects training data biases and limitations

	## Citation

	```bibtex
	@dataset{financbase_financial_qa_2024,
	title={Financbase Financial QA Dataset},
	author={Financbase Team},
	year={2024},
	url={https://huggingface.co/datasets/Financbase/financbase-10k-jsonl},
	license={MIT}
	}
	```

	## License

	This dataset is released under the MIT License. See LICENSE file for details.

	## Contact

	- Organization: Financbase
	- Repository: https://huggingface.co/datasets/Financbase/financbase-10k-jsonl
	- Issues: Report issues via HuggingFace Hub

	## Changelog

	- v0.1 (2024-12-19): Initial release with 1,000+ financial Q&A examples
	- v0.2 (Planned): Add validation and test splits
	- v0.3 (Planned): Expand to 10,000+ examples with more diverse sources