File size: 9,123 Bytes

56c8fdd

from fastapi import FastAPI, Query, HTTPException
from pydantic import BaseModel
from typing import List, Optional
import csv
import os
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

app = FastAPI(title="ErayNet Search API")

DATA_PATH = os.path.join(os.path.dirname(__file__), "..", "data", "cleaned", "abbreviations.csv")

class Entry(BaseModel):
    id: int
    raw_text: str
    abbreviation: str
    somali: str
    italian: str
    english: str
    domain: str
    pos: str
    quality_score: float
    review_status: str
    notes: str

class SemanticEntry(BaseModel):
    id: int
    raw_text: str
    abbreviation: str
    somali: str
    italian: str
    english: str
    domain: str
    pos: str
    quality_score: float
    review_status: str
    notes: str
    score: float

class SemanticSearchResult(BaseModel):
    entries: List[SemanticEntry]
    total: int
    query_type: str

class UnifiedSearchResult(BaseModel):
    query: str
    matched_by: str
    entries: List[Entry]
    total: int

class SearchResult(BaseModel):
    entries: List[Entry]
    total: int
    query_type: str

def load_data():
    entries = []
    with open(DATA_PATH, 'r', encoding='utf-8') as f:
        reader = csv.DictReader(f)
        for row in reader:
            entries.append(Entry(
                id=int(row['id']),
                raw_text=row['raw_text'],
                abbreviation=row['abbreviation'],
                somali=row['somali'],
                italian=row['italian'],
                english=row['english'],
                domain=row['domain'],
                pos=row['pos'],
                quality_score=float(row['quality_score']),
                review_status=row['review_status'],
                notes=row['notes']
            ))
    return entries

def build_search_index(entries):
    documents = []
    for e in entries:
        doc = f"{e.abbreviation} {e.somali} {e.italian} {e.english} {e.raw_text}"
        documents.append(doc)
    
    vectorizer = TfidfVectorizer(analyzer='char_wb', ngram_range=(2, 4))
    tfidf_matrix = vectorizer.fit_transform(documents)
    return vectorizer, tfidf_matrix

entries = load_data()
vectorizer, tfidf_matrix = build_search_index(entries)

@app.get("/search/exact", response_model=SearchResult)
def exact_match(
    q: str = Query(..., description="Query string"),
    domain: Optional[str] = Query(None, description="Filter by domain"),
    pos: Optional[str] = Query(None, description="Filter by part of speech"),
    review_status: Optional[str] = Query(None, description="Filter by review status")
):
    q = q.lower().strip()
    results = [
        e for e in entries
        if (q == e.abbreviation.lower() or q == e.somali.lower() or q == e.italian.lower() or q == e.english.lower())
        and (domain is None or e.domain.lower() == domain.lower())
        and (pos is None or e.pos.lower() == pos.lower())
        and (review_status is None or e.review_status.lower() == review_status.lower())
    ]
    return SearchResult(entries=results, total=len(results), query_type="exact")

@app.get("/search/partial", response_model=SearchResult)
def partial_match(
    q: str = Query(..., description="Query string"),
    domain: Optional[str] = Query(None, description="Filter by domain"),
    pos: Optional[str] = Query(None, description="Filter by part of speech"),
    review_status: Optional[str] = Query(None, description="Filter by review status")
):
    q = q.lower().strip()
    results = [
        e for e in entries
        if (q in e.abbreviation.lower() or q in e.somali.lower() or q in e.italian.lower() or q in e.english.lower())
        and (domain is None or e.domain.lower() == domain.lower())
        and (pos is None or e.pos.lower() == pos.lower())
        and (review_status is None or e.review_status.lower() == review_status.lower())
    ]
    return SearchResult(entries=results, total=len(results), query_type="partial")

@app.get("/search/semantic", response_model=SemanticSearchResult)
def semantic_search(
    q: str = Query(..., description="Query string"),
    top_k: int = Query(5, ge=1, le=20),
    domain: Optional[str] = Query(None, description="Filter by domain"),
    pos: Optional[str] = Query(None, description="Filter by part of speech"),
    review_status: Optional[str] = Query(None, description="Filter by review status")
):
    query_vec = vectorizer.transform([q])
    similarities = cosine_similarity(query_vec, tfidf_matrix).flatten()
    
    filtered_indices = []
    for i, e in enumerate(entries):
        if similarities[i] > 0:
            if (domain is None or e.domain.lower() == domain.lower()) and \
               (pos is None or e.pos.lower() == pos.lower()) and \
               (review_status is None or e.review_status.lower() == review_status.lower()):
                filtered_indices.append(i)
    
    filtered_indices.sort(key=lambda i: similarities[i], reverse=True)
    top_indices = filtered_indices[:top_k]
    
    results = [
        SemanticEntry(
            id=entries[i].id,
            raw_text=entries[i].raw_text,
            abbreviation=entries[i].abbreviation,
            somali=entries[i].somali,
            italian=entries[i].italian,
            english=entries[i].english,
            domain=entries[i].domain,
            pos=entries[i].pos,
            quality_score=entries[i].quality_score,
            review_status=entries[i].review_status,
            notes=entries[i].notes,
            score=round(float(similarities[i]), 2)
        )
        for i in top_indices
    ]
    return SemanticSearchResult(entries=results, total=len(results), query_type="semantic")

@app.get("/search", response_model=UnifiedSearchResult)
def unified_search(
    q: str = Query(..., description="Query string"),
    domain: Optional[str] = Query(None, description="Filter by domain"),
    pos: Optional[str] = Query(None, description="Filter by part of speech"),
    review_status: Optional[str] = Query(None, description="Filter by review status")
):
    q_lower = q.lower().strip()
    
    def matches_filters(e):
        return (domain is None or e.domain.lower() == domain.lower()) and \
               (pos is None or e.pos.lower() == pos.lower()) and \
               (review_status is None or e.review_status.lower() == review_status.lower())
    
    exact_results = [
        e for e in entries
        if (q_lower == e.abbreviation.lower() or q_lower == e.somali.lower() or q_lower == e.italian.lower() or q_lower == e.english.lower())
        and matches_filters(e)
    ]
    if exact_results:
        return UnifiedSearchResult(query=q, matched_by="exact", entries=exact_results, total=len(exact_results))
    
    partial_results = [
        e for e in entries
        if (q_lower in e.abbreviation.lower() or q_lower in e.somali.lower() or q_lower in e.italian.lower() or q_lower in e.english.lower())
        and matches_filters(e)
    ]
    if partial_results:
        return UnifiedSearchResult(query=q, matched_by="partial", entries=partial_results, total=len(partial_results))
    
    query_vec = vectorizer.transform([q])
    similarities = cosine_similarity(query_vec, tfidf_matrix).flatten()
    
    filtered_indices = [
        i for i in range(len(entries))
        if similarities[i] > 0 and matches_filters(entries[i])
    ]
    filtered_indices.sort(key=lambda i: similarities[i], reverse=True)
    top_indices = filtered_indices[:5]
    semantic_results = [entries[i] for i in top_indices]
    
    return UnifiedSearchResult(query=q, matched_by="semantic", entries=semantic_results, total=len(semantic_results))

@app.get("/entries", response_model=List[Entry])
def list_entries(skip: int = 0, limit: int = 100):
    return entries[skip:skip+limit]

@app.get("/entries/{entry_id}", response_model=Entry)
def get_entry(entry_id: int):
    for e in entries:
        if e.id == entry_id:
            return e
    raise HTTPException(status_code=404, detail="Entry not found")

@app.get("/domains")
def list_domains():
    domains = sorted(set(e.domain for e in entries if e.domain))
    return {"domains": domains}

@app.get("/pos-tags")
def list_pos_tags():
    pos_tags = sorted(set(e.pos for e in entries if e.pos))
    return {"pos_tags": pos_tags}

@app.get("/stats")
def get_stats():
    total = len(entries)
    domains = {}
    pos_tags = {}
    review_statuses = {}
    for e in entries:
        if e.domain:
            domains[e.domain] = domains.get(e.domain, 0) + 1
        if e.pos:
            pos_tags[e.pos] = pos_tags.get(e.pos, 0) + 1
        if e.review_status:
            review_statuses[e.review_status] = review_statuses.get(e.review_status, 0) + 1
    return {
        "total_entries": total,
        "domains": dict(sorted(domains.items(), key=lambda x: -x[1])),
        "pos_tags": dict(sorted(pos_tags.items(), key=lambda x: -x[1])),
        "review_statuses": dict(sorted(review_statuses.items(), key=lambda x: -x[1]))
    }

if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)