Chat AI – Eine Einführung

Chat AI ist ein Chatbot der Gesellschaft für wissenschaftliche Datenverarbeitung mbH (GWDG), der mehrere große Sprachmodelle (Large Language Models, kurz LLMs) auf einer Plattform bereitstellt.

Große Sprachmodelle

Große Sprachmodelle sind KI-Systeme, die auf riesigen Datensätzen trainiert werden, um menschenähnliche Antworten auf Texteingaben zu liefern. Sie finden Anwendung in Bereichen wie Textgenerierung, Übersetzung oder Datenanalyse.

Bei Chat AI können Sie unterschiedliche LLMs nutzen, um im Dialog mit dem System z. B. Texte zu erstellen. Neben Open-Source-Modellen wie LLaMa oder Mistral sind dort auch kommerzielle Modelle wie ChatGPT der Firma OpenAI verfügbar.

Ein wesentlicher Unterschied zwischen Open-Source- und kommerziellen Modellen liegt in ihrer Verfügbarkeit und Nutzung. Open-Source-Modelle sind frei zugänglich und können angepasst werden, doch „offen“ bedeutet bei großen Sprachmodellen nicht, dass alles transparent ist. Während der Quellcode einsehbar ist, bleiben die oft entscheidenden Trainingsdaten meist unzugänglich. Statt vollständiger Offenheit bieten solche Modelle also häufig nur die Möglichkeit der kostenlosen Nutzung. Kommerzielle Tools hingegen bieten meist bessere Performance und zusätzliche Funktionen, sind dafür jedoch kostenpflichtig.

Die GWDG stellt einige Open-Source-Modelle auf interner Hardware bereit. Diese Modelle leiten keine personenbezogenen Daten von Nutzer:innen an Drittanbieter weiter. Eingaben (Prompts) werden lediglich für die Dauer der Sitzung und nur lokal bei den Nutzer:innen gespeichert.

Kommerzielle Modelle wie ChatGPT von OpenAI werden von Drittanbietern (hier Microsoft) zur Verfügung gestellt. Microsoft behält sich das Recht vor, Prompts und Prompt-Konversationen bis zu 30 Tage zu speichern. Die Inhalte der Prompts werden damit an Microsoft übermittelt. Die Anfragen werden über die Server der GWDG an Microsoft gesendet. Daher werden durch die Anfrage als solche keine personenbezogenen Daten der Nutzer:innen weitergeleitet.

Beachten Sie bitte, dass die Nutzung der kommerziellen OpenAI-Modelle nach dem Verbrauch so genannter Token (Wörter oder Satzfragmente) abgerechnet wird und damit für die UDE kostenpflichtig ist. Es lohnt sich daher, die Open-Source-Modelle zu vergleichen und zu nutzen, da sie kostenfrei und leistungsstark sind.

Mit Token werden die kleinsten Einheiten eines LLM bezeichnet, mit denen Texte verarbeitet oder erstellt werden. Je nach LMM kann ein Token einzelne Umlaute oder Buchstabenfolgen umfassen.

Funktionalitäten von Chat AI

Chat AI ist Teil der Service-Angebote der Academic Cloud. Für UDE-Mitglieder ist die föderierte Anmeldung via Shibboleth möglich.

Die nachfolgenden Ausführungen sind teils Übersetzung der Webseiten der GWDG .

Das Web-Interface bietet die folgenden Funktionen:

Anhängen von Textdateien (+ Button): Dateien (.txt) als Kontext für Ihre Eingaben hinzufügen.
Sprechen (Mikrofon): Direkt mit dem ausgewählten Modell sprechen. Bitte beachten Sie, dass Sie den Mikrofonzugriff in den Browsereinstellungen erlauben müssen. Nach entsprechenden Testläufen möchten wir Sie darauf hinweisen, dass diese Funktion ggf. nicht zuverlässig arbeitet.
Import/Export: Vorherige Konversationen importieren oder exportieren.
System-Prompt: Definiert die Rolle des Modells. Mehr dazu unter System-Prompt.
Generierungsoptionen: Einstellungen zur Feinabstimmung der Modellantworten, temp und top_p. Details unter Generierungsoptionen.
Teilen-Button: Erstellen einer URL mit Ihren aktuellen Einstellungen (ohne Gesprächsinhalt).
Löschen-Button: Entfernt alle gespeicherten Daten und Konversationen.
Memory-Funktion (Erinnerungsfunktion): Fähigkeit des Systems, Informationen aus früheren Interaktionen zu speichern und bei Bedarf wieder abzurufen.
- „None“: Deaktiviert die Memory-Funktion – jedes Gespräch wird unabhängig behandelt.
- „Recall“: Fügt Memory-Kontext zum System-Prompt hinzu, wodurch das LLM auf frühere Teile Ihres Gesprächs verweisen kann.
- „Learn“: Das System erhält automatische Memory-Updates. Diese Funktion generiert eine möglichst natürliche Gesprächserfahrung.

Außerdem bietet die Oberfläche den Zugriff auf die Nutzungsbedingungen, FAQs und die Sprachumschaltung (Deutsch/Englisch). Nutzer:innen können zwischen einem Hell- und Dunkelmodus umschalten.

System-Prompt

Ein System-Prompt ist eine Eingabe, die die Rolle oder das Verhalten des Modells für die aktuelle Sitzung definiert. Es handelt sich damit sozusagen um den Arbeitsauftrag an das Sprachmodell. Durch das Festlegen eines System-Prompts können Sie steuern, wie das Modell auf Ihre Eingaben reagiert. Beispielsweise können Sie das Modell anweisen, als Lehrkraft, Übersetzer:in oder Programmierer:in zu agieren.

Wir empfehlen, vor jeder Sitzung einen System-Prompt festzulegen, um das gewünschte Verhalten des Modells zu definieren.

Der System-Prompt ist nur bei Open-Source-Modellen (nicht bei den OpenAI-Modellen) anpassbar.

Reasoning

Sowohl die DeepSeek-Modelle, als auch OpenAI o1 und o1-mini verfügen über sogenannte Reasoning-Kapazitäten. Diese Funktion erlaubt es den Modellen, komplexere Aufgaben zu bewältigen, die eine schrittweise Analyse erfordern. Beispiele sind mehrstufige Berechnungen, Datenanalysen oder die Ableitung von Schlussfolgerungen. Modelle mit dieser Funktionalität sind in der Modell-Liste rechts durch ein spezielles Symbol gekennzeichnet. Bitte beachten Sie, dass Reasoning-Prozesse mehr Rechenzeit benötigen, weshalb die Antwort bei diesen Aufgaben nicht sofort sichtbar ist und etwas länger dauert. Reasoning-Modelle sind teilweise nicht in der Lage, Inhalte in Echtzeit zu streamen.

Bildverarbeitung

Zwar können die verfügbaren Modelle noch keine Bilder generieren, einige von ihnen bieten jedoch die Möglichkeit zur Bildanalyse. Sie können beispielsweise hochgeladene Bilder auswerten, um Inhalte wie Diagramme oder Statistiken zu analysieren. Modelle mit Bildverarbeitungsfunktionen sind in der Modell-Liste durch ein Kamerasymbol gekennzeichnet.

Einstellungsoptionen

Zwei wichtige Einstellungen beeinflussen die Antworten eines Modells:

Temperatur (0–2): Steuert die Kreativität. Niedrigere Werte liefern vorhersehbare Antworten, höhere fördern Kreativität.
Top_p (0–1): Legt fest, wie viele mögliche Antworten einbezogen werden bzw. wie hoch die Variabilität der kumulierten Wahrscheinlichkeiten ist. Höhere Werte erhöhen somit die Vielfalt der generierten Texte.

Für präzise Aufgaben wie Programmieren empfiehlt sich eine niedrige Temperatur und Top_p. Kreative Aufgaben profitieren von höheren Werten.

Diese Optionen können nur bei Open-Source-Modellen (nicht bei den OpenAI-Modellen) angepasst werden.

Bitte beachten Sie, dass standardmäßig das Modell Llama 3.3-8B Instruct ausgewählt ist

Überblick: Verfügbare Modelle

Codestral 22B
DeepSeek R1
DeepSeek R1 Distill Llama 70B
E5 Mistral 7B Instruct
Gemma 3 27B Instruct
GPT-4.1
GPT-4.1 Mini
GPT-4o

GPT-4o Mini
InternVL2.5 8B MPO
Llama 3.1 8B Instruct
Llama 3.1 SauerkrautLM 70B Instruct
Llama 3.3 70B Instruct
MedGemma 27B Instruct
Mistral Large Instruct
o3

o3-mini
Qwen 2.5 Coder 32B Instruct
Qwen 2.5 VL 72B Instruct
Qwen 3 235B A22B
Qwen 3 32B
Qwen QwQ 32B
Teuken 7B Instruct Research

Herkunftsland	Modellname	Entwickler	Open Source	Wissensstand	Kontextfenster	Vorteile	Limitationen	Empfohlene Konfiguration
USA	Llama 3.1 8B Instruct	Meta	Ja	Dezember 2023	128k Tokens	Schnellste Gesamtleistung	-	Default[1] (Temp= 0.5; Top_p= 0.5)
USA	Gemma 3 27B Instruct	Google	Ja	März 20024	128k Tokens	Vision[2]-Language Model, sehr gute Gesamtleistung	-	Default
China	InternVL2.5 8B MPO	OpenGVLab	Ja	September 2021	32k Tokens	Vision, klein/ressourcenschonend und schnell	-	Default
China	Qwen 3 32B	Alibaba Cloud	Ja	September 2024	32k Tokens	Gute Gesamtleistung, multilingual, globale Themen, Logik	-	Default
China	Qwen 3 235B A22B	Alibaba Cloud	Ja	September 2024	32k Tokens	Sehr gute Gesamtleistung, multilingual, globale Themen, Logik	-
USA	Llama 3.3 70B Instruct	Meta	Ja	Dezember 2023	128k Tokens	Gute Gesamtleistung, Reasoning und kreatives Schreiben	-	Temp= 0.7; Top_p= 0.8
China	Qwen 2.5 72B Instruct	Alibaba Cloud	Ja	September 2024	128k Tokens	Gute Gesamtleistung, multilingual, globale Themen, Logik	-	Temp= 0.2; Top_p= 0.1
China	InternVL2.5 8B MPO	OpenGVLab	Ja	September 2021	32k Tokens	Vision-Language Model, klein und schnell	-	Default
China	Qwen QwQ 32B	Alibaba Cloud	Ja	September 2024	131k Tokens	Gute Gesamtleistung, Reasoning, Problemlösung	Politische Voreingenommenheit	Default (Temp=0.6, Top_p=0.95)
China	DeepSeek R1	DeepSeek	Ja	Dezember 2023	32k Tokens	Gute Gesamtleistung, Reasoning, Problemlösung	Zensur[3], Politische Voreingenommenheit	Default
China	DeepSeek R1 Distill Llama 70B	DeepSeek	Ja	Dezember 2023	32k Tokens	Gute Gesamtleistung, schneller als R1	Zensur, Politische Voreingenommenheit	Temp: 0.7; Top_p: 0.8
Frankreich	Mistral Large Instruct	Mistral	Ja	Juli 2024	128k Tokens	Gute Gesamtleistung, Coding und multilinguales Reasoning	-	Default
China	Qwen 2.5 Coder 32B Instruct	Alibaba Cloud	Ja	September 2024	128k Tokens	Coding-Aufgaben	-	Default
Frankreich	Codestral 22B	Mistral	Ja	Ende 2021	33k Tokens	Coding-Aufgaben	-	Temp= 0.2; Top_p=0.1 Temp=0.6; Top_P=0.7
USA	MedGemma 27B Instruct	Google	Ja	März 2024	128k Tokens	Vision, medical knowledge	-	Default
Deutschland	Llama 3.1 SauerkrautLM 70B Instruct	VAGOsolutions x Meta	Ja	Dezember 2023	128k Tokens	Optimiert für die deutsche Sprache	-	Default
Deutschland	Teuken 7B Instruct Research	OpenGPT-X	Ja	September 2024	128k Tokens	Europäische Sprachen	-	Default
USA	OpenAI GPT-4.1	OpenAI	Nein	Juni 2024	1M Tokens	Sehr gute Gesamtleistung	-	Default
USA	OpenAI GPT-4o	OpenAI	Nein	Oktober 2023	128k Tokens	Gute Gesamtleistung, Vision	-	Default
USA	OpenAI o1	OpenAI	Nein	Oktober 2023	128k Tokens	Gute Gesamtleistung, Reasoning	kein Streaming	Default
USA	OpenAI-GPT4.1 Mini	OpenAI	Nein	Juni 2024	1M Tokens	Schnelle Gesamtleistung	-	Default
USA	OpenAI GPT-4o Mini	OpenAI	Nein	Oktober 2023[4]	128k Tokens	Kostenschonend, Vision-Language Model	-	Default
USA	OpenAI o1 Mini	OpenAI	Nein		128k Tokens	Schnell, Reasoning	kein Streaming	Default

[1] Default = Voreinstellung

[2] Vision = Bildeingabe

[3] https://www.promptfoo.dev/blog/deepseek-censorship/ (Stand: 30.05.2025)

[4] https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4

Legende: Was bedeuten die Spalten?

Herkunftsland: Entwicklungsland der Modelle.
Modellname und Größe: Die Bezeichnung eines LMMs besteht aus dem Namen des Modells (z. B. LLaMa) und der Angabe zur Größe bzw. Leistungsfähigkeit (z. B. 8B, 70B). Die Leistungsfähigkeit hängt von der Anzahl der Modellparameter (Konfigurationsvariablen) ab: 8B = 8 Milliarden Parameter. Größere Modelle bieten in der Regel präzisere und vielseitigere Antworten, benötigen aber auch mehr Rechenressourcen. Je nach Komplexitätsgrad einer Aufgabe, ist es von Vorteil, ein größeres Modell auszuwählen.
Wissensstand: Der Wissensstand gibt an, bis zu welchem Zeitpunkt das Modell mit Daten trainiert wurde. Ein aktueller Wissensstand bedeutet, dass das Modell auf neuere Entwicklungen und Informationen reagieren kann.
Kontextfenster: Das Kontextfenster beschreibt, wie viele Tokens das Modell in einem Gesprächsverlauf speichern und berücksichtigen kann. Ein größeres Kontextfenster ermöglicht komplexere und längere Gespräche.
Vorteile: Listet Anwendungsbereiche auf.
Limitationen: Zeigt Grenzen der Modelle auf.
Empfohlene Konfiguration: Jede Aufgabe erfordert unterschiedliche Einstellungen. Die empfohlene Konfiguration (z. B. Temperatur, Top_p) hilft, das Modell optimal für spezifische Anwendungszwecke einzusetzen.

Deep Seek

Die DeepSeek-Modelle sind KI-Sprachmodelle aus China, die für allgemeine Aufgaben entwickelt wurden. Sie bieten eine gute Leistung und unterstützen Reasoning-Funktionalitäten, was sie für komplexe Aufgaben nützlich macht. Allerdings wurde bei diesen Modellen festgestellt, dass die ausgegebenen Texte politisch zensiert werden, wenn es bei den Anfragen um die chinesische Regierung geht.

Um die Modelle effizienter zu gestalten, nutzt DeepSeek das Verfahren der Destillation. Dabei werden aus größeren Modellen kleinere, optimierte Modelle erstellt. Diese bewahren dabei einen Großteil ihrer Argumentations- und Rechenkapazität, während sie gleichzeitig weniger Ressourcen benötigen. Ein Beispiel ist das Modell DeepSeek R1 Distill LLaMa 70B.

Sauerkraut

Das Modell LLaMa 3.1 SauerkrautLM wurde von VAGOsolutions, einer deutschen Firma, auf Basis von Metas LLaMa 3.1-Modell veröffentlicht. Der Fokus liegt auf der Anpassung des Sprachmodells an die deutsche Sprache und Kultur. Dies verbessert die Genauigkeit und Qualität der Antworten in deutschsprachigen Anwendungsfällen.

Coding-Modelle

Coding-Modelle wie Qwen 2.5 Coder und Codestral 22B sind speziell darauf trainiert, bei Programmieraufgaben zu unterstützen. Sie können Code generieren, bestehende Programme analysieren und Fehler erkennen und beheben. Diese Modelle sind für Entwickler:innen nützlich.

Chat-AI-Login in der Academic Cloud

Digitalisierung

Nachhaltige & smarte Universität