Spaces:

gtfintechlab
/

FLaME

Running

App Files Files Community

Huzaifa Pardawala commited on Mar 13, 2025

Commit

9ed293f

1 Parent(s): 464a24c

adding changes to the results and contributions sections

Browse files

Files changed (1) hide show

index.html +281 -161

index.html CHANGED Viewed

@@ -614,6 +614,7 @@
                 </div>
               </div>
               <!-- Task 3 -->
               <div class="task-performance mb-4">
                 <div class="columns is-vcentered">
@@ -643,7 +644,7 @@
                     </div>
                   </div>
                   <div class="column is-2 has-text-centered">
-                    <span class="tag is-info is-light">0.75-0.82</span>
                   </div>
                 </div>
               </div>
@@ -671,104 +672,155 @@
             </div>
           </div>
-          <!-- Results details in cards -->
-          <div class="columns is-multiline">
-            <!-- Model Performance Card -->
-            <div class="column is-6">
-              <div class="card h-100">
-                <div class="card-header">
-                  <p class="card-header-title">
-                    <span class="icon mr-2"><i class="fas fa-medal"></i></span>
-                    Model Performance Highlights
-                  </p>
-                </div>
-                <div class="card-content">
-                  <div class="content">
-                    <div class="model-ranking mb-4">
-                      <p class="has-text-weight-bold mb-2">Top Performers:</p>
-                      <div class="columns is-mobile">
-                        <div class="column">
-                          <div class="has-text-centered">
-                            <span class="icon is-large has-text-warning"><i class="fas fa-trophy fa-2x"></i></span>
-                            <p class="mt-2 mb-0">DeepSeek R1</p>
-                          </div>
-                        </div>
-                        <div class="column">
-                          <div class="has-text-centered">
-                            <span class="icon is-large has-text-grey"><i class="fas fa-trophy fa-2x"></i></span>
-                            <p class="mt-2 mb-0">OpenAI o1-mini</p>
-                          </div>
-                        </div>
-                        <div class="column">
-                          <div class="has-text-centered">
-                            <span class="icon is-large has-text-bronze"><i class="fas fa-trophy fa-2x"></i></span>
-                            <p class="mt-2 mb-0">Claude 3.5 Sonnet</p>
-                          </div>
-                        </div>
-                      </div>
-                    </div>
-                    <p class="mb-2">Key insights from our model analysis:</p>
-                    <ul>
-                      <li>Inconsistent scaling: larger parameter sizes do not guarantee higher performance</li>
-                      <li>Open-weight models show competitive performance on many tasks</li>
-                      <li>Dramatic price differences between models ($4-260 USD)</li>
-                      <li>Cost-conscious choices should be based on specific use cases</li>
-                    </ul>
-                  </div>
-                </div>
-              </div>
             </div>
-            <!-- Error Analysis Card -->
-            <div class="column is-6">
-              <div class="card h-100">
-                <div class="card-header">
-                  <p class="card-header-title">
-                    <span class="icon mr-2"><i class="fas fa-exclamation-triangle"></i></span>
-                    Error Analysis
-                  </p>
-                </div>
-                <div class="card-content">
-                  <div class="content">
-                    <p class="mb-3">Common error patterns identified across models:</p>
-                    <div class="error-category mb-3">
-                      <p class="has-text-weight-bold mb-1">Numeric Reasoning</p>
-                      <div class="notification is-danger is-light py-2 px-3">
-                        <p class="is-size-7 mb-0">Models struggled with consistent numeric formats and financial calculations</p>
-                      </div>
-                    </div>
-                    <div class="error-category mb-3">
-                      <p class="has-text-weight-bold mb-1">Language Consistency</p>
-                      <div class="notification is-warning is-light py-2 px-3">
-                        <p class="is-size-7 mb-0">Occasional non-English outputs or language drift</p>
-                      </div>
-                    </div>
-                    <div class="error-category mb-3">
-                      <p class="has-text-weight-bold mb-1">Classification Complexity</p>
-                      <div class="notification is-warning is-light py-2 px-3">
-                        <p class="is-size-7 mb-0">Difficulties with longer label sets and fine-grained distinctions</p>
-                      </div>
-                    </div>
-                    <div class="error-category mb-3">
-                      <p class="has-text-weight-bold mb-1">Causal Reasoning</p>
-                      <div class="notification is-danger is-light py-2 px-3">
-                        <p class="is-size-7 mb-0">Challenges with cause-effect relationships due to data scarcity</p>
-                      </div>
-                    </div>
-                  </div>
-                </div>
-              </div>
             </div>
           </div>
         </div>
       </div>
     </div>
-    <!--/ Results -->
   </div>
 </section>
@@ -780,155 +832,223 @@
         <h2 class="title is-3 section-title has-text-centered">Contributions & Future Work</h2>
         <div class="content">
           <!-- Contributions -->
           <div class="box has-background-white-ter mb-5">
             <h4 class="title is-4 has-text-centered mb-4">Key Contributions</h4>
-            <div class="columns is-multiline">
               <!-- Contribution 1 -->
               <div class="column is-6">
                 <div class="media">
                   <div class="media-left">
                     <span class="icon has-text-primary is-large">
-                      <i class="fas fa-check-circle fa-lg"></i>
                     </span>
                   </div>
                   <div class="media-content">
-                    <p class="has-text-weight-semibold">First Holistic Benchmark</p>
-                    <p class="is-size-7">The first benchmarking suite specifically designed for financial language model evaluation</p>
                   </div>
                 </div>
               </div>
               <!-- Contribution 2 -->
               <div class="column is-6">
                 <div class="media">
                   <div class="media-left">
                     <span class="icon has-text-primary is-large">
-                      <i class="fas fa-check-circle fa-lg"></i>
                     </span>
                   </div>
                   <div class="media-content">
-                    <p class="has-text-weight-semibold">Comprehensive Taxonomy</p>
-                    <p class="is-size-7">Organization of financial NLP tasks by task type, domain, and language</p>
                   </div>
                 </div>
               </div>
               <!-- Contribution 3 -->
               <div class="column is-6">
                 <div class="media">
                   <div class="media-left">
                     <span class="icon has-text-primary is-large">
-                      <i class="fas fa-check-circle fa-lg"></i>
                     </span>
                   </div>
                   <div class="media-content">
-                    <p class="has-text-weight-semibold">Standardized Framework</p>
-                    <p class="is-size-7">Modular design for customizable assessment across tasks</p>
                   </div>
                 </div>
               </div>
               <!-- Contribution 4 -->
               <div class="column is-6">
                 <div class="media">
                   <div class="media-left">
                     <span class="icon has-text-primary is-large">
-                      <i class="fas fa-check-circle fa-lg"></i>
                     </span>
                   </div>
                   <div class="media-content">
-                    <p class="has-text-weight-semibold">Model Comparison</p>
-                    <p class="is-size-7">Thorough comparison of open and closed source models</p>
                   </div>
                 </div>
               </div>
               <!-- Contribution 5 -->
               <div class="column is-6">
                 <div class="media">
                   <div class="media-left">
                     <span class="icon has-text-primary is-large">
-                      <i class="fas fa-check-circle fa-lg"></i>
                     </span>
                   </div>
                   <div class="media-content">
-                    <p class="has-text-weight-semibold">Cost-Performance Analysis</p>
-                    <p class="is-size-7">Analysis of tradeoffs for different language models</p>
                   </div>
                 </div>
               </div>
               <!-- Contribution 6 -->
               <div class="column is-6">
                 <div class="media">
                   <div class="media-left">
                     <span class="icon has-text-primary is-large">
-                      <i class="fas fa-check-circle fa-lg"></i>
                     </span>
                   </div>
                   <div class="media-content">
                     <p class="has-text-weight-semibold">Open-Source Implementation</p>
-                    <p class="is-size-7">Framework allowing researchers to extend the benchmark</p>
                   </div>
                 </div>
               </div>
             </div>
           </div>
           <!-- Limitations & Future Work -->
-          <div class="columns is-multiline">
-            <!-- Limitations -->
-            <div class="column is-6">
-              <div class="card h-100">
-                <div class="card-header">
-                  <p class="card-header-title">
-                    <span class="icon mr-2"><i class="fas fa-exclamation-circle"></i></span>
-                    Limitations
-                  </p>
-                </div>
-                <div class="card-content">
-                  <div class="content">
-                    <ul>
-                      <li>Limited dataset size and diversity</li>
-                      <li>Current focus on zero-shot scenarios only</li>
-                      <li>English-language focus due to availability of benchmarks</li>
-                      <li>No evaluation of advanced prompting techniques</li>
-                      <li>Tasks don't capture full breadth of real-world financial scenarios</li>
-                    </ul>
-                  </div>
-                </div>
               </div>
-            </div>
-            <!-- Future Work -->
-            <div class="column is-6">
-              <div class="card h-100">
-                <div class="card-header">
-                  <p class="card-header-title">
-                    <span class="icon mr-2"><i class="fas fa-lightbulb"></i></span>
-                    Future Work
-                  </p>
-                </div>
-                <div class="card-content">
-                  <div class="content">
-                    <ul>
-                      <li>Extend to more languages beyond English</li>
-                      <li>Explore few-shot and chain-of-thought prompting</li>
-                      <li>Evaluate domain-adaptive training for finance</li>
-                      <li>Expand dataset coverage across more financial sectors</li>
-                      <li>Benchmark efficiency trade-offs</li>
-                      <li>Develop more nuanced evaluation metrics</li>
-                    </ul>
-                  </div>
-                </div>
               </div>
             </div>
           </div>
         </div>
       </div>
     </div>
     <!--/ Contributions -->
   </div>
 </section>

                 </div>
               </div>
               <!-- Task 3 -->
               <div class="task-performance mb-4">
                 <div class="columns is-vcentered">
                     </div>
                   </div>
                   <div class="column is-2 has-text-centered">
+                    <span class="tag is-info is-light">75-82 %</span>
                   </div>
                 </div>
               </div>
             </div>
           </div>
+        <!-- </section>
+</div> -->
+  <!-- <section class="section">
+  <div class="container"> -->
+    <!-- Model Performance Highlights -->
+    <div class="card mb-5">
+      <div class="card-header">
+        <p class="card-header-title">
+          <span class="icon mr-2"><i class="fas fa-medal"></i></span>
+          Model Performance Highlights
+        </p>
+      </div>
+      <div class="card-content">
+        <div class="content">
+          <p class="has-text-weight-bold mb-4 has-text-centered">🏆 Top Performing Models</p>
+          <div class="columns is-centered is-multiline">
+           <!-- DeepSeek R1 -->
+          <div class="column is-4">
+            <div class="is-flex is-flex-direction-column is-align-items-center">
+              <figure class="image is-128x128 mb-3">
+                <img src="static/images/deepseek_logo.png" alt="DeepSeek R1 Logo">
+              </figure>
+              <p class="is-size-4 has-text-weight-semibold mb-2">DeepSeek R1</p>
+              <span class="icon is-large has-text-warning"><i class="fas fa-trophy fa-2x"></i></span>
             </div>
+          </div>
+          <!-- OpenAI o1-mini -->
+          <div class="column is-4">
+            <div class="is-flex is-flex-direction-column is-align-items-center">
+              <figure class="image is-128x128 mb-3">
+                <img src="static/images/openai_logo.png" alt="OpenAI Logo">
+              </figure>
+              <p class="is-size-4 has-text-weight-semibold mb-2">OpenAI o1-mini</p>
+              <span class="icon is-large has-text-grey"><i class="fas fa-trophy fa-2x"></i></span>
+            </div>
+          </div>
+          <!-- Claude 3.5 Sonnet -->
+          <div class="column is-4">
+            <div class="is-flex is-flex-direction-column is-align-items-center">
+              <figure class="image is-128x128 mb-3">
+                <img src="static/images/claude_logo.png" alt="Claude 3.5 Sonnet Logo">
+              </figure>
+              <p class="is-size-4 has-text-weight-semibold mb-2">Claude 3.5 Sonnet</p>
+              <span class="icon is-large has-text-bronze"><i class="fas fa-trophy fa-2x"></i></span>
+            </div>
+          </div>
+        </div>
+          <hr>
+          <p class="has-text-weight-bold mb-3">🔍 Key Insights from Model Analysis</p>
+          <div class="notification is-info is-light py-3 px-4">
+            <p><strong>🏆 No single dominant model:</strong> DeepSeek R1 leads in complex multi-step QA, while Claude 3.5 excels in sentiment tasks. GPT-4o is strong in classification and summarization.</p>
+            <p><strong>⚖️ Inconsistent scaling:</strong> Larger models don’t always outperform smaller ones—DeepSeek R1 trails in summarization despite excelling in QA.</p>
+            <p><strong>🛠️ Open-weight models:</strong> Many open-weight models like DeepSeek-V3 and Llama 3.1 70B offer competitive performance while being cost-effective.</p>
+            <p><strong>💰 Cost-performance disparities:</strong> Running DeepSeek R1 can cost up to <strong>$260</strong> per million tokens, while Claude 3.5 Sonnet and o1-mini cost around <strong>$105</strong>, and Meta’s Llama 3.1 8B only <strong>$4</strong>.</p>
+            <p><strong>📉 Numeric reasoning challenges:</strong> Even the best models struggle with financial numeric reasoning tasks, achieving low F1 scores (<strong>≤ 0.06</strong>).</p>
+            <p><strong>🔢 Step-by-step deductions:</strong> Multi-turn financial QA (e.g., ConvFinQA) significantly reduces model accuracy due to complex dependencies.</p>
+          </div>
+        </div>
+      </div>
+    </div>
+    <!-- Error Analysis & Key Findings -->
+    <div class="card">
+      <div class="card-header">
+        <p class="card-header-title">
+          <span class="icon mr-2"><i class="fas fa-exclamation-triangle"></i></span>
+          Error Analysis & Key Findings
+        </p>
+      </div>
+      <div class="card-content">
+        <div class="content">
+          <p class="mb-4">Common challenges and limitations identified in our evaluations:</p>
+          <!-- Individual Error Categories -->
+          <div class="error-category mb-4">
+            <p class="has-text-weight-bold mb-1">Concerns regarding outdated models</p>
+            <div class="notification is-danger is-light py-2 px-3">
+              <p class="is-size-7 mb-0"><strong>LLama 2 13B Chat</strong> produces trivial or empty responses, possibly due to misalignment during fine-tuning.</p>
+            </div>
+          </div>
+          <div class="error-category mb-4">
+            <p class="has-text-weight-bold mb-1">Numeric Regression Issues</p>
+            <div class="notification is-danger is-light py-2 px-3">
+              <p class="is-size-7 mb-0">LMs struggle with precision and rounding in continuous-valued regressions (e.g., financial percentages). Post-hoc normalization is needed.</p>
+            </div>
+          </div>
+          <div class="error-category mb-4">
+            <p class="has-text-weight-bold mb-1">Data Contamination</p>
+            <div class="notification is-danger is-light py-2 px-3">
+              <p class="is-size-7 mb-0">Overlap between public financial datasets and pretraining corpora can inflate zero-shot performance, requiring time-split test sets.</p>
+            </div>
+          </div>
+          <div class="error-category mb-4">
+            <p class="has-text-weight-bold mb-1">Challenges in Causal Classification</p>
+            <div class="notification is-danger is-light py-2 px-3">
+              <p class="is-size-7 mb-0">Most models struggle with financial causal reasoning, requiring structured knowledge bases or explicit symbolic reasoning.</p>
+            </div>
+          </div>
+          <div class="error-category mb-4">
+            <p class="has-text-weight-bold mb-1">Language Drift</p>
+            <div class="notification is-warning is-light py-2 px-3">
+              <p class="is-size-7 mb-0"><strong>Qwen 2 72B</strong> exhibits unintended shifts to Chinese output in English summarization tasks, indicating strong pretraining priors.</p>
+            </div>
+          </div>
+          <div class="error-category mb-4">
+            <p class="has-text-weight-bold mb-1">Summarization Nuances</p>
+            <div class="notification is-warning is-light py-2 px-3">
+              <p class="is-size-7 mb-0">Models achieve high BERTScores (~80-82%) on extractive summarization but suffer on abstractive tasks, especially in finance-specific jargon.</p>
+            </div>
+          </div>
+          <div class="error-category mb-4">
+            <p class="has-text-weight-bold mb-1">Prompt Design Limitations</p>
+            <div class="notification is-warning is-light py-2 px-3">
+              <p class="is-size-7 mb-0">Prompts tuned on <strong>Llama 3 8B</strong> may not generalize across models, leading to inconsistencies in label generation (e.g., minor syntactic variations).</p>
+            </div>
+          </div>
+          <div class="error-category mb-4">
+            <p class="has-text-weight-bold mb-1">Differences in QA Datasets</p>
+            <div class="notification is-warning is-light py-2 px-3">
+              <p class="is-size-7 mb-0"><strong>ConvFinQA</strong> consistently underperforms compared to <strong>FinQA</strong> due to its multi-turn dialogue complexity.</p>
             </div>
           </div>
+          <div class="error-category mb-4">
+            <p class="has-text-weight-bold mb-1">Efficiency and Cost Considerations</p>
+            <div class="notification is-warning is-light py-2 px-3">
+              <p class="is-size-7 mb-0">Inference costs vary by up to <strong>2×</strong> among similarly sized models, requiring a balance between performance and resource usage.</p>
+            </div>
+          </div>
         </div>
       </div>
     </div>
   </div>
 </section>
         <h2 class="title is-3 section-title has-text-centered">Contributions & Future Work</h2>
         <div class="content">
+          <!-- Contributions Overview -->
+          <div class="notification is-info is-light has-text-centered mb-5">
+            <p class="is-size-5 has-text-weight-semibold">
+              Our work introduces a standardized, large-scale, and holistic evaluation framework for financial language models.
+            </p>
+          </div>
           <!-- Contributions -->
           <div class="box has-background-white-ter mb-5">
             <h4 class="title is-4 has-text-centered mb-4">Key Contributions</h4>
+            <div class="columns is-multiline is-centered">
               <!-- Contribution 1 -->
               <div class="column is-6">
                 <div class="media">
                   <div class="media-left">
                     <span class="icon has-text-primary is-large">
+                      <i class="fas fa-cogs fa-lg"></i>
                     </span>
                   </div>
                   <div class="media-content">
+                    <p class="has-text-weight-semibold">Standardized Evaluation Framework</p>
+                    <p class="is-size-7">We introduce an open-source, modular benchmarking suite for systematic LM evaluations on core financial NLP tasks.</p>
                   </div>
                 </div>
               </div>
               <!-- Contribution 2 -->
               <div class="column is-6">
                 <div class="media">
                   <div class="media-left">
                     <span class="icon has-text-primary is-large">
+                      <i class="fas fa-chart-line fa-lg"></i>
                     </span>
                   </div>
                   <div class="media-content">
+                    <p class="has-text-weight-semibold">Large-Scale Model Assessment</p>
+                    <p class="is-size-7">We benchmark 23 foundation LMs—open-weight and proprietary—across 20 financial tasks, revealing performance-cost trade-offs.</p>
                   </div>
                 </div>
               </div>
               <!-- Contribution 3 -->
               <div class="column is-6">
                 <div class="media">
                   <div class="media-left">
                     <span class="icon has-text-primary is-large">
+                      <i class="fas fa-database fa-lg"></i>
                     </span>
                   </div>
                   <div class="media-content">
+                    <p class="has-text-weight-semibold">Holistic Dataset Taxonomy</p>
+                    <p class="is-size-7">We establish a structured dataset taxonomy, categorizing financial NLP tasks based on domain, data format, and linguistic complexity.</p>
                   </div>
                 </div>
               </div>
               <!-- Contribution 4 -->
               <div class="column is-6">
                 <div class="media">
                   <div class="media-left">
                     <span class="icon has-text-primary is-large">
+                      <i class="fas fa-users fa-lg"></i>
                     </span>
                   </div>
                   <div class="media-content">
+                    <p class="has-text-weight-semibold">Living Benchmark & Open Collaboration</p>
+                    <p class="is-size-7">We introduce a continuously updated leaderboard, inviting researchers to contribute new datasets and evaluation results.</p>
                   </div>
                 </div>
               </div>
               <!-- Contribution 5 -->
               <div class="column is-6">
                 <div class="media">
                   <div class="media-left">
                     <span class="icon has-text-primary is-large">
+                      <i class="fas fa-balance-scale fa-lg"></i>
                     </span>
                   </div>
                   <div class="media-content">
+                    <p class="has-text-weight-semibold">Error Analysis & Cost-Performance Insights</p>
+                    <p class="is-size-7">We analyze systematic model errors and quantify cost-performance trade-offs for informed deployment in real-world applications.</p>
                   </div>
                 </div>
               </div>
               <!-- Contribution 6 -->
               <div class="column is-6">
                 <div class="media">
                   <div class="media-left">
                     <span class="icon has-text-primary is-large">
+                      <i class="fas fa-code-branch fa-lg"></i>
                     </span>
                   </div>
                   <div class="media-content">
                     <p class="has-text-weight-semibold">Open-Source Implementation</p>
+                    <p class="is-size-7">We release a fully open-source framework, enabling the research community to extend and refine financial LM evaluation methodologies.</p>
                   </div>
                 </div>
               </div>
             </div>
           </div>
           <!-- Limitations & Future Work -->
+    <div class="columns is-multiline">
+      <!-- Limitations -->
+      <div class="column is-6">
+        <div class="card h-100">
+          <div class="card-header">
+            <p class="card-header-title">
+              <span class="icon mr-2"><i class="fas fa-exclamation-circle"></i></span>
+              Limitations
+            </p>
+          </div>
+          <div class="card-content">
+            <div class="content">
+              <p class="mb-3">
+                While our benchmark provides valuable insights, several limitations must be acknowledged:
+              </p>
+              <div class="notification is-danger is-light py-2 px-3 mb-3">
+                <p class="has-text-weight-bold mb-1">❌ Data Contamination Risks</p>
+                <p class="is-size-7 mb-0">Benchmark testing data may overlap with model pretraining corpora, leading to artificially inflated performance. We actively work on novel datasets to mitigate these risks.</p>
               </div>
+              <div class="notification is-warning is-light py-2 px-3 mb-3">
+                <p class="has-text-weight-bold mb-1">⚠️ Dataset Size & Diversity</p>
+                <p class="is-size-7 mb-0">Our dataset scope is limited, affecting model generalization across diverse financial domains and languages.</p>
+              </div>
+              <div class="notification is-warning is-light py-2 px-3 mb-3">
+                <p class="has-text-weight-bold mb-1">⚠️ Zero-Shot Focus</p>
+                <p class="is-size-7 mb-0">Due to budget constraints, our evaluations rely on zero-shot learning only, without fine-tuning or few-shot prompting.</p>
+              </div>
+              <div class="notification is-warning is-light py-2 px-3 mb-3">
+                <p class="has-text-weight-bold mb-1">⚠️ Limited Adaptation Strategies</p>
+                <p class="is-size-7 mb-0">We do not explore chain-of-thought reasoning or advanced prompting, though these techniques are known to improve model performance.</p>
               </div>
+              <div class="notification is-info is-light py-2 px-3 mb-3">
+                <p class="has-text-weight-bold mb-1">ℹ️ English Language Bias</p>
+                <p class="is-size-7 mb-0">The benchmark primarily focuses on English due to the availability of financial datasets, limiting insights into multilingual model performance.</p>
+              </div>
+              <div class="notification is-info is-light py-2 px-3 mb-3">
+                <p class="has-text-weight-bold mb-1">ℹ️ Real-World Complex Tasks</p>
+                <p class="is-size-7 mb-0">Existing tasks do not fully capture the dynamic and evolving nature of financial markets, requiring ongoing dataset expansion.</p>
+              </div>
+              <p class="is-italic is-size-7 mt-4">
+                Recognizing these limitations is essential for improving future financial NLP benchmarks. Our ongoing work aims to address these challenges through dataset refinement, broader task coverage, and multilingual support.
+              </p>
             </div>
           </div>
         </div>
       </div>
+        <!-- Future Work -->
+    <div class="column is-6">
+      <div class="card h-100">
+        <div class="card-header">
+          <p class="card-header-title">
+            <span class="icon mr-2"><i class="fas fa-lightbulb"></i></span>
+            Future Work
+          </p>
+        </div>
+        <div class="card-content">
+          <div class="content">
+            <p class="mb-3">
+              To strengthen the robustness and adaptability of our framework, we advocate for open collaboration within the research community
+              and propose the following future directions to expand its capabilities:
+            </p>
+            <div class="notification is-info is-light py-2 px-3 mb-3">
+              <p class="has-text-weight-bold mb-1">🌍 Multilingual Expansion</p>
+              <p class="is-size-7 mb-0">Extending benchmarks beyond English to include multilingual financial datasets and evaluations.</p>
+            </div>
+            <div class="notification is-info is-light py-2 px-3 mb-3">
+              <p class="has-text-weight-bold mb-1">🧠 Few-Shot & Chain-of-Thought</p>
+              <p class="is-size-7 mb-0">Investigating in-context learning techniques such as few-shot, chain-of-thought, and retrieval-augmented generation (RAG).</p>
+            </div>
+            <div class="notification is-info is-light py-2 px-3 mb-3">
+              <p class="has-text-weight-bold mb-1">📊 Domain-Adaptive Training</p>
+              <p class="is-size-7 mb-0">Evaluating fine-tuning strategies to enhance model understanding of financial-specific terminology and reasoning.</p>
+            </div>
+            <div class="notification is-info is-light py-2 px-3 mb-3">
+              <p class="has-text-weight-bold mb-1">🔍 Expanded Dataset Coverage</p>
+              <p class="is-size-7 mb-0">Curating datasets from underrepresented financial sectors such as insurance, derivatives, and central banking.</p>
+            </div>
+            <div class="notification is-info is-light py-2 px-3 mb-3">
+              <p class="has-text-weight-bold mb-1">⚖️ Efficiency & Cost Benchmarking</p>
+              <p class="is-size-7 mb-0">Developing detailed trade-off analyses between accuracy, latency, and cost to optimize real-world usability.</p>
+            </div>
+            <div class="notification is-info is-light py-2 px-3 mb-3">
+              <p class="has-text-weight-bold mb-1">📈 Advanced Evaluation Metrics</p>
+              <p class="is-size-7 mb-0">Moving beyond traditional accuracy metrics by incorporating trustworthiness, robustness, and interpretability measures.</p>
+            </div>
+            <p class="is-italic is-size-7 mt-4">
+              These improvements will enable more accurate and fair comparisons of financial language models,
+              fostering greater transparency, reproducibility, and real-world applicability.
+            </p>
+          </div>
+        </div>
+      </div>
     </div>
+  </div>
     <!--/ Contributions -->
   </div>
 </section>