Große Sprachmodelle
Große Sprachmodelle sind KI-Systeme, die auf riesigen Datensätzen trainiert werden, um menschenähnliche Antworten auf Texteingaben zu liefern. Sie finden Anwendung in Bereichen wie Textgenerierung, Übersetzung oder Datenanalyse.
Bei Chat AI können Sie unterschiedliche LLMs nutzen, um im Dialog mit dem System z. B. Texte zu erstellen. Neben Open-Source-Modellen wie LLaMa oder Mistral sind dort auch kommerzielle Modelle wie ChatGPT der Firma OpenAI verfügbar.
Ein wesentlicher Unterschied zwischen Open-Source- und kommerziellen Modellen liegt in ihrer Verfügbarkeit und Nutzung. Open-Source-Modelle sind frei zugänglich und können angepasst werden, doch „offen“ bedeutet bei großen Sprachmodellen nicht, dass alles transparent ist. Während der Quellcode einsehbar ist, bleiben die oft entscheidenden Trainingsdaten meist unzugänglich. Statt vollständiger Offenheit bieten solche Modelle also häufig nur die Möglichkeit der kostenlosen Nutzung. Kommerzielle Tools hingegen bieten meist bessere Performance und zusätzliche Funktionen, sind dafür jedoch kostenpflichtig.
Die GWDG stellt einige Open-Source-Modelle auf interner Hardware bereit. Diese Modelle leiten keine personenbezogenen Daten von Nutzer:innen an Drittanbieter weiter. Eingaben (Prompts) werden lediglich für die Dauer der Sitzung und nur lokal bei den Nutzer:innen gespeichert.
Kommerzielle Modelle wie ChatGPT von OpenAI werden von Drittanbietern (hier Microsoft) zur Verfügung gestellt. Microsoft behält sich das Recht vor, Prompts und Prompt-Konversationen bis zu 30 Tage zu speichern. Die Inhalte der Prompts werden damit an Microsoft übermittelt. Die Anfragen werden über die Server der GWDG an Microsoft gesendet. Daher werden durch die Anfrage als solche keine personenbezogenen Daten der Nutzer:innen weitergeleitet.
Beachten Sie bitte, dass die Nutzung der kommerziellen OpenAI-Modelle nach dem Verbrauch so genannter Token (Wörter oder Satzfragmente) abgerechnet wird und damit für die UDE kostenpflichtig ist. Es lohnt sich daher, die Open-Source-Modelle zu vergleichen und zu nutzen, da sie kostenfrei und leistungsstark sind.
Mit Token werden die kleinsten Einheiten eines LLM bezeichnet, mit denen Texte verarbeitet oder erstellt werden. Je nach LMM kann ein Token einzelne Umlaute oder Buchstabenfolgen umfassen.
Funktionalitäten von Chat AI
Chat AI ist Teil der Service-Angebote der Academic Cloud. Für UDE-Mitglieder ist die föderierte Anmeldung via Shibboleth möglich.
Die nachfolgenden Ausführungen sind teils Übersetzung der Webseiten der GWDG .
Das Web-Interface bietet die folgenden Funktionen:
- Anhängen von Textdateien (+ Button): Dateien (.txt) als Kontext für Ihre Eingaben hinzufügen.
- Sprechen (Mikrofon): Direkt mit dem ausgewählten Modell sprechen. Bitte beachten Sie, dass Sie den Mikrofonzugriff in den Browsereinstellungen erlauben müssen. Nach entsprechenden Testläufen möchten wir Sie darauf hinweisen, dass diese Funktion ggf. nicht zuverlässig arbeitet.
- Import/Export: Vorherige Konversationen importieren oder exportieren.
- System-Prompt: Definiert die Rolle des Modells. Mehr dazu unter System-Prompt.
- Generierungsoptionen: Einstellungen zur Feinabstimmung der Modellantworten, temp und top_p. Details unter Generierungsoptionen.
- Teilen-Button: Erstellen einer URL mit Ihren aktuellen Einstellungen (ohne Gesprächsinhalt).
- Löschen-Button: Entfernt alle gespeicherten Daten und Konversationen.
-
Memory-Funktion (Erinnerungsfunktion): Fähigkeit des Systems, Informationen aus früheren Interaktionen zu speichern und bei Bedarf wieder abzurufen.
-
„None“: Deaktiviert die Memory-Funktion – jedes Gespräch wird unabhängig behandelt.
-
„Recall“: Fügt Memory-Kontext zum System-Prompt hinzu, wodurch das LLM auf frühere Teile Ihres Gesprächs verweisen kann.
-
„Learn“: Das System erhält automatische Memory-Updates. Diese Funktion generiert eine möglichst natürliche Gesprächserfahrung.
-
Außerdem bietet die Oberfläche den Zugriff auf die Nutzungsbedingungen, FAQs und die Sprachumschaltung (Deutsch/Englisch). Nutzer:innen können zwischen einem Hell- und Dunkelmodus umschalten.
System-Prompt
Ein System-Prompt ist eine Eingabe, die die Rolle oder das Verhalten des Modells für die aktuelle Sitzung definiert. Es handelt sich damit sozusagen um den Arbeitsauftrag an das Sprachmodell. Durch das Festlegen eines System-Prompts können Sie steuern, wie das Modell auf Ihre Eingaben reagiert. Beispielsweise können Sie das Modell anweisen, als Lehrkraft, Übersetzer:in oder Programmierer:in zu agieren.
Wir empfehlen, vor jeder Sitzung einen System-Prompt festzulegen, um das gewünschte Verhalten des Modells zu definieren.
Der System-Prompt ist nur bei Open-Source-Modellen (nicht bei den OpenAI-Modellen) anpassbar.
Reasoning
Sowohl die DeepSeek-Modelle, als auch OpenAI o1 und o1-mini verfügen über sogenannte Reasoning-Kapazitäten. Diese Funktion erlaubt es den Modellen, komplexere Aufgaben zu bewältigen, die eine schrittweise Analyse erfordern. Beispiele sind mehrstufige Berechnungen, Datenanalysen oder die Ableitung von Schlussfolgerungen. Modelle mit dieser Funktionalität sind in der Modell-Liste rechts durch ein spezielles Symbol gekennzeichnet. Bitte beachten Sie, dass Reasoning-Prozesse mehr Rechenzeit benötigen, weshalb die Antwort bei diesen Aufgaben nicht sofort sichtbar ist und etwas länger dauert. Reasoning-Modelle sind teilweise nicht in der Lage, Inhalte in Echtzeit zu streamen.
Bildverarbeitung
Zwar können die verfügbaren Modelle noch keine Bilder generieren, einige von ihnen bieten jedoch die Möglichkeit zur Bildanalyse. Sie können beispielsweise hochgeladene Bilder auswerten, um Inhalte wie Diagramme oder Statistiken zu analysieren. Modelle mit Bildverarbeitungsfunktionen sind in der Modell-Liste durch ein Kamerasymbol gekennzeichnet.
Einstellungsoptionen
Zwei wichtige Einstellungen beeinflussen die Antworten eines Modells:
- Temperatur (0–2): Steuert die Kreativität. Niedrigere Werte liefern vorhersehbare Antworten, höhere fördern Kreativität.
- Top_p (0–1): Legt fest, wie viele mögliche Antworten einbezogen werden bzw. wie hoch die Variabilität der kumulierten Wahrscheinlichkeiten ist. Höhere Werte erhöhen somit die Vielfalt der generierten Texte.
Für präzise Aufgaben wie Programmieren empfiehlt sich eine niedrige Temperatur und Top_p. Kreative Aufgaben profitieren von höheren Werten.
Diese Optionen können nur bei Open-Source-Modellen (nicht bei den OpenAI-Modellen) angepasst werden.
Bitte beachten Sie, dass standardmäßig das Modell Llama 3.3-8B Instruct ausgewählt ist
Überblick: Verfügbare Modelle
- Codestral 22B
- DeepSeek R1
- DeepSeek R1 Distill Llama 70B
- E5 Mistral 7B Instruct
- Gemma 3 27B Instruct
- GPT-4.1
- GPT-4.1 Mini
- GPT-4o
- GPT-4o Mini
- InternVL2.5 8B MPO
- Llama 3.1 8B Instruct
- Llama 3.1 SauerkrautLM 70B Instruct
- Llama 3.3 70B Instruct
- MedGemma 27B Instruct
- Mistral Large Instruct
- o3
- o3-mini
- Qwen 2.5 Coder 32B Instruct
- Qwen 2.5 VL 72B Instruct
- Qwen 3 235B A22B
- Qwen 3 32B
- Qwen QwQ 32B
- Teuken 7B Instruct Research
| Herkunftsland | Modellname | Entwickler | Open Source | Wissensstand | Kontextfenster | Vorteile | Limitationen | Empfohlene Konfiguration |
|---|---|---|---|---|---|---|---|---|
| USA | Llama 3.1 8B Instruct | Meta | Ja | Dezember 2023 | 128k Tokens | Schnellste Gesamtleistung | - | Default[1] (Temp= 0.5; Top_p= 0.5) |
| USA | Gemma 3 27B Instruct | Ja | März 20024 | 128k Tokens | Vision[2]-Language Model, sehr gute Gesamtleistung | - | Default | |
| China | InternVL2.5 8B MPO | OpenGVLab | Ja | September 2021 | 32k Tokens | Vision, klein/ressourcenschonend und schnell | - | Default |
| China | Qwen 3 32B | Alibaba Cloud | Ja | September 2024 | 32k Tokens | Gute Gesamtleistung, multilingual, globale Themen, Logik | - | Default |
| China | Qwen 3 235B A22B | Alibaba Cloud | Ja | September 2024 | 32k Tokens | Sehr gute Gesamtleistung, multilingual, globale Themen, Logik | - | |
| USA | Llama 3.3 70B Instruct | Meta | Ja | Dezember 2023 | 128k Tokens | Gute Gesamtleistung, Reasoning und kreatives Schreiben | - | Temp= 0.7; Top_p= 0.8 |
| China | Qwen 2.5 72B Instruct | Alibaba Cloud | Ja | September 2024 | 128k Tokens | Gute Gesamtleistung, multilingual, globale Themen, Logik | - | Temp= 0.2; Top_p= 0.1 |
| China | InternVL2.5 8B MPO | OpenGVLab | Ja | September 2021 | 32k Tokens | Vision-Language Model, klein und schnell | - | Default |
| China | Qwen QwQ 32B | Alibaba Cloud | Ja | September 2024 | 131k Tokens | Gute Gesamtleistung, Reasoning, Problemlösung | Politische Voreingenommenheit | Default (Temp=0.6, Top_p=0.95) |
| China | DeepSeek R1 | DeepSeek | Ja | Dezember 2023 | 32k Tokens | Gute Gesamtleistung, Reasoning, Problemlösung | Zensur[3], Politische Voreingenommenheit | Default |
| China | DeepSeek R1 Distill Llama 70B | DeepSeek | Ja | Dezember 2023 | 32k Tokens | Gute Gesamtleistung, schneller als R1 | Zensur, Politische Voreingenommenheit | Temp: 0.7; Top_p: 0.8 |
| Frankreich | Mistral Large Instruct | Mistral | Ja | Juli 2024 | 128k Tokens | Gute Gesamtleistung, Coding und multilinguales Reasoning | - | Default |
| China | Qwen 2.5 Coder 32B Instruct | Alibaba Cloud | Ja | September 2024 | 128k Tokens | Coding-Aufgaben | - | Default |
| Frankreich | Codestral 22B | Mistral | Ja | Ende 2021 | 33k Tokens | Coding-Aufgaben | - | Temp= 0.2; Top_p=0.1 Temp=0.6; Top_P=0.7 |
| USA | MedGemma 27B Instruct | Ja | März 2024 | 128k Tokens | Vision, medical knowledge | - | Default | |
| Deutschland | Llama 3.1 SauerkrautLM 70B Instruct | VAGOsolutions x Meta | Ja | Dezember 2023 | 128k Tokens | Optimiert für die deutsche Sprache | - | Default |
| Deutschland | Teuken 7B Instruct Research | OpenGPT-X | Ja | September 2024 | 128k Tokens | Europäische Sprachen | - | Default |
| USA | OpenAI GPT-4.1 | OpenAI | Nein | Juni 2024 | 1M Tokens | Sehr gute Gesamtleistung | - | Default |
| USA | OpenAI GPT-4o | OpenAI | Nein | Oktober 2023 | 128k Tokens | Gute Gesamtleistung, Vision | - | Default |
| USA | OpenAI o1 | OpenAI | Nein | Oktober 2023 | 128k Tokens | Gute Gesamtleistung, Reasoning | kein Streaming | Default |
| USA | OpenAI-GPT4.1 Mini | OpenAI | Nein | Juni 2024 | 1M Tokens | Schnelle Gesamtleistung | - | Default |
| USA | OpenAI GPT-4o Mini | OpenAI | Nein | Oktober 2023[4] | 128k Tokens | Kostenschonend, Vision-Language Model | - | Default |
| USA | OpenAI o1 Mini | OpenAI | Nein | 128k Tokens | Schnell, Reasoning | kein Streaming | Default |
[1] Default = Voreinstellung
[2] Vision = Bildeingabe
[3] https://www.promptfoo.dev/blog/deepseek-censorship/ (Stand: 30.05.2025)
[4] https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4
Legende: Was bedeuten die Spalten?
- Herkunftsland: Entwicklungsland der Modelle.
- Modellname und Größe: Die Bezeichnung eines LMMs besteht aus dem Namen des Modells (z. B. LLaMa) und der Angabe zur Größe bzw. Leistungsfähigkeit (z. B. 8B, 70B). Die Leistungsfähigkeit hängt von der Anzahl der Modellparameter (Konfigurationsvariablen) ab: 8B = 8 Milliarden Parameter. Größere Modelle bieten in der Regel präzisere und vielseitigere Antworten, benötigen aber auch mehr Rechenressourcen. Je nach Komplexitätsgrad einer Aufgabe, ist es von Vorteil, ein größeres Modell auszuwählen.
- Wissensstand: Der Wissensstand gibt an, bis zu welchem Zeitpunkt das Modell mit Daten trainiert wurde. Ein aktueller Wissensstand bedeutet, dass das Modell auf neuere Entwicklungen und Informationen reagieren kann.
- Kontextfenster: Das Kontextfenster beschreibt, wie viele Tokens das Modell in einem Gesprächsverlauf speichern und berücksichtigen kann. Ein größeres Kontextfenster ermöglicht komplexere und längere Gespräche.
- Vorteile: Listet Anwendungsbereiche auf.
- Limitationen: Zeigt Grenzen der Modelle auf.
- Empfohlene Konfiguration: Jede Aufgabe erfordert unterschiedliche Einstellungen. Die empfohlene Konfiguration (z. B. Temperatur, Top_p) hilft, das Modell optimal für spezifische Anwendungszwecke einzusetzen.
Deep Seek
Die DeepSeek-Modelle sind KI-Sprachmodelle aus China, die für allgemeine Aufgaben entwickelt wurden. Sie bieten eine gute Leistung und unterstützen Reasoning-Funktionalitäten, was sie für komplexe Aufgaben nützlich macht. Allerdings wurde bei diesen Modellen festgestellt, dass die ausgegebenen Texte politisch zensiert werden, wenn es bei den Anfragen um die chinesische Regierung geht.
Um die Modelle effizienter zu gestalten, nutzt DeepSeek das Verfahren der Destillation. Dabei werden aus größeren Modellen kleinere, optimierte Modelle erstellt. Diese bewahren dabei einen Großteil ihrer Argumentations- und Rechenkapazität, während sie gleichzeitig weniger Ressourcen benötigen. Ein Beispiel ist das Modell DeepSeek R1 Distill LLaMa 70B.
Sauerkraut
Das Modell LLaMa 3.1 SauerkrautLM wurde von VAGOsolutions, einer deutschen Firma, auf Basis von Metas LLaMa 3.1-Modell veröffentlicht. Der Fokus liegt auf der Anpassung des Sprachmodells an die deutsche Sprache und Kultur. Dies verbessert die Genauigkeit und Qualität der Antworten in deutschsprachigen Anwendungsfällen.
Coding-Modelle
Coding-Modelle wie Qwen 2.5 Coder und Codestral 22B sind speziell darauf trainiert, bei Programmieraufgaben zu unterstützen. Sie können Code generieren, bestehende Programme analysieren und Fehler erkennen und beheben. Diese Modelle sind für Entwickler:innen nützlich.