Juho Inkinen
Set model in requests to gemma3
0d72f03 unverified
import gradio as gr
import requests
from annif_client import AnnifClient
import os
# Get VLM API base URL and API key from environment variables
VLM_API_BASE_URL = os.getenv("VLM_API_BASE_URL")
if not VLM_API_BASE_URL:
raise RuntimeError("VLM_API_BASE_URL environment variable must be set.")
VLM_API_KEY = os.getenv("VLM_API_KEY", "")
VLM_API_ENDPOINT = f"{VLM_API_BASE_URL}/v1/chat/completions"
# Get Annif API base URL from environment variable, fallback to default
ANNIF_API_BASE_URL = os.getenv("ANNIF_API_BASE_URL")
if ANNIF_API_BASE_URL:
if not ANNIF_API_BASE_URL.endswith("v1/"):
raise RuntimeError("ANNIF_API_BASE_URL should end with 'v1/'")
annif = AnnifClient(api_base=ANNIF_API_BASE_URL)
else:
annif = AnnifClient()
def get_caption(image, prompt):
# Convert image to base64 JPEG
import io
import base64
buf = io.BytesIO()
image.save(buf, format="JPEG")
img_bytes = buf.getvalue()
img_b64 = base64.b64encode(img_bytes).decode("utf-8")
# Prepare payload for VLM (OpenAI schema)
payload = {
"model": "gemma3",
"messages": [
{
"role": "user",
"content": [
{"type": "text", "text": prompt},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{img_b64}"},
},
],
}
],
"max_tokens": 300,
}
headers = {"X-API-Key": VLM_API_KEY} if VLM_API_KEY else {}
try:
response = requests.post(VLM_API_ENDPOINT, json=payload, headers=headers)
response.raise_for_status()
data = response.json()
# Assume caption is in data['choices'][0]['message']['content']
caption = data["choices"][0]["message"]["content"]
except Exception as e:
print(f"VLM API error: {e}") # Detailed error for admin
raise gr.Error("Sorry, there was a problem generating a caption.")
return caption
def get_subjects(caption, project_id):
try:
results = annif.suggest(project_id=project_id, text=caption)
label_scores = {result["label"]: result["score"] for result in results}
if not label_scores:
return {}
return label_scores
except Exception as e:
print(f"Annif API error: {e}") # Detailed error for admin
raise gr.Error("Sorry, there was a problem getting subject suggestions.")
def process_image(image, project_id):
prompt = (
"Luo vaihtoehtoinen tekstikuvaus, joka on tarkoitettu henkilöille, jotka eivät näe kuvaa. "
"Kuvaile kuvan todellista sisältöä, älä tulkitse mitään. "
"Aloita yleisellä kuvauksella ja siirry sitten yksityiskohtiin. "
"Kuvaile yksityiskohtia ainakin viiden lauseen verran. "
"Jos kuvassa näkyy tekstiä, kerro mitä siinä lukee ja jos teksti ei ole suomea, käännä se myös suomeksi. "
'Vastaa vain lopullisella alt-tekstillä, älä lisää "tässä on alt-teksti", selityksiä tai väliotsikoita. '
)
caption = get_caption(image, prompt)
subjects = get_subjects(caption, project_id)
return image, caption, subjects
with gr.Blocks(title="VLM Caption & Annif Demo") as demo:
gr.Markdown("# VLM Caption & Annif Demo")
gr.Markdown(
"""
**How it works:**
1. Upload or take a photo in the input section below.
2. The image is sent to a Visual Language Model to generate a caption.
3. [Annif](https://github.com/NatLibFi/Annif) suggests subjects based on the caption via the API of [Finto AI](https://ai.finto.fi).
"""
)
with gr.Row():
with gr.Column():
gr.Markdown("### Input")
image_input = gr.Image(
type="pil",
label="Image Input (upload or take a photo)",
mirror_webcam=False,
)
language_dropdown = gr.Dropdown(
choices=[("Finnish", "fi"), ("Swedish", "sv"), ("English", "en")],
value="fi",
label="Output Language",
info="Select the output language for caption and subject suggestions",
)
project_dropdown = gr.Dropdown(
choices=[
("YSO - General Finnish Ontology", "yso"),
("YKL - Finnish Public Library Classification ", "ykl"),
("KAUNO - Ontology for Fiction (for Finnish only)", "kauno"),
],
value="yso",
label="Annif Project",
info="Select the vocabulary from where subject suggestions are drawn "\
"([YSO](https://finto.fi/yso/), [YKL](https://finto.fi/ykl/), [KAUNO](https://finto.fi/kauno/))",
)
submit_btn = gr.Button("Submit", interactive=False)
clear_btn = gr.Button("Clear")
with gr.Column():
gr.Markdown("### Output")
caption_output = gr.Textbox(label="Caption", lines=10, interactive=False)
subjects_output = gr.Label(label="Subject Suggestions", show_heading=False)
# Translated prompts for VLM
VLM_PROMPTS = {
"fi": (
"Luo vaihtoehtoinen tekstikuvaus, joka on tarkoitettu henkilöille, jotka eivät näe kuvaa. "
"Kuvaile kuvan todellista sisältöä, älä tulkitse mitään. "
"Aloita yleisellä kuvauksella ja siirry sitten yksityiskohtiin. "
"Kuvaile yksityiskohtia ainakin viiden lauseen verran. "
"Jos kuvassa näkyy tekstiä, kerro mitä siinä lukee ja jos teksti ei ole suomea, käännä se myös suomeksi. "
'Vastaa vain lopullisella alt-tekstillä, älä lisää "tässä on alt-teksti", selityksiä tai väliotsikoita. '
),
"en": (
"Create an alternative text description for people who cannot see the image. "
"Describe the actual content of the image, do not interpret anything. "
"Start with a general description and then move to details. "
"Describe details in at least five sentences. "
"If there is text in the image, state what it says and translate it into English if it is not in English. "
"Respond only with the final alt text, do not add explanations or headings."
),
"sv": (
"Skapa en alternativ textbeskrivning för personer som inte kan se bilden. "
"Beskriv bildens faktiska innehåll, tolka ingenting. "
"Börja med en allmän beskrivning och gå sedan vidare till detaljer. "
"Beskriv detaljerna med minst fem meningar. "
"Om det finns text i bilden, ange vad det står och översätt det till svenska om det inte är på svenska. "
"Svara endast med den slutliga alt-texten, lägg inte till förklaringar eller rubriker."
),
}
def run_app(image, language, project):
prompt = VLM_PROMPTS.get(language, VLM_PROMPTS["fi"])
# Compose Annif project identifier
project_id = f"{project}-{language}"
caption = get_caption(image, prompt)
try:
subjects = get_subjects(caption, project_id)
return caption, subjects
except gr.Error:
gr.Warning("Sorry, there was a problem getting subject suggestions.")
return caption, {}
submit_btn.click(
run_app,
inputs=[image_input, language_dropdown, project_dropdown],
outputs=[caption_output, subjects_output],
)
clear_btn.click(lambda: ("", {}), outputs=[caption_output, subjects_output])
def update_submit_btn(img):
return gr.update(interactive=img is not None)
image_input.upload(update_submit_btn, inputs=image_input, outputs=submit_btn)
demo.launch()