""" llm.py – LLM local über Ollama (z.B. qwen2.5:1.5b-instruct) Kein HF Inference, komplett kostenlos. """ from langchain_community.chat_models import ChatOllama MODEL_NAME = "qwen2.5:1.5b-instruct" def load_llm(): """ Erstellt ein ChatOllama-Modell, das auf den lokal laufenden Ollama-Server (http://localhost:11434) zugreift. """ print(f">>> Lade lokales Ollama-LLM: {MODEL_NAME}") llm = ChatOllama( model=MODEL_NAME, temperature=0.0, # deterministisch base_url="http://127.0.0.1:11434", ) print(">>> LLM ready.\n") return llm if __name__ == "__main__": llm = load_llm() print(llm.invoke("Sag einen kurzen Satz auf Deutsch."))