Unterschiede zwischen den Revisionen 1 und 2
Revision 1 vom 2025-11-30 12:03:44
Größe: 2934
Kommentar: Ein paar Infos zu cogito
Revision 2 vom 2025-11-30 12:10:39
Größe: 4837
Kommentar:
Gelöschter Text ist auf diese Art markiert. Hinzugefügter Text ist auf diese Art markiert.
Zeile 30: Zeile 30:
Das Konzept sieht vor, die Dienste als Docker Container laufen zu lassen. Die compose Dateien liegen in Unterverzeichnissen unter /opt.

Die S-ATA SSD ist unter /var/local eingehängt.

Die PM951 NVMe SSD dient alt Bootlaufwerk und enthält auch das OS.
Zeile 33: Zeile 39:

{{{
$ lsblk -f
NAME FSTYPE FSVER LABEL UUID FSAVAIL FSUSE% MOUNTPOINTS
sda
└─sda1 ext4 1.0 ssd500 c57d324d-3c4f-4f5d-90ca-3859ca87f550 434.1G 0% /var/local
nvme0n1 linux_raid_member 1.2 cogito:0 ebe75b1c-af8f-5e3a-aa0f-9464c3951451
└─md0 ext4 1.0 RAID f57d1a53-8b0c-4119-a02b-e06632c7933d 2.9T 15% /opt
nvme1n1 linux_raid_member 1.2 cogito:0 ebe75b1c-af8f-5e3a-aa0f-9464c3951451
└─md0 ext4 1.0 RAID f57d1a53-8b0c-4119-a02b-e06632c7933d 2.9T 15% /opt
nvme3n1 linux_raid_member 1.2 cogito:0 ebe75b1c-af8f-5e3a-aa0f-9464c3951451
└─md0 ext4 1.0 RAID f57d1a53-8b0c-4119-a02b-e06632c7933d 2.9T 15% /opt
nvme2n1 linux_raid_member 1.2 cogito:0 ebe75b1c-af8f-5e3a-aa0f-9464c3951451
└─md0 ext4 1.0 RAID f57d1a53-8b0c-4119-a02b-e06632c7933d 2.9T 15% /opt
nvme4n1
├─nvme4n1p1 vfat FAT32 7006-F657 1G 1% /boot/efi
├─nvme4n1p2 ext4 1.0 8256bdab-088d-437e-a82b-b94470729f4c 1.5G 17% /boot
└─nvme4n1p3 LVM2_member LVM2 001 XbVKNc-zwqt-qe2c-fj2e-8MRA-p8e0-XDQdsz
  └─ubuntu--vg-ubuntu--lv ext4 1.0 98bd9894-3827-42bb-a0f4-d92931530cab 178.9G 54% /
}}}
Zeile 39: Zeile 66:
Diese Dienste laufen alle in Docker Containern. Das Docker compose file liegt unter /'''opt/ollama/''' Das Docker compose file liegt unter /'''opt/ollama/'''
Zeile 51: Zeile 78:

PING hat 2025 einen KI-Server angeschafft. Er heißt cogito.ping.de und befindet sich im Rechnerraum des Gebäudes in der Joseph-von-Fraunhofer-Strasse.

Technische Daten

  • CPU AMD Threadripper Pro 5955WX 16 cores 32 threads 4.5Ghz, boxed
  • Mainboard Asus Pro WS WRX80E Sage SE Wifi
  • 2x RAM Corsair Dominator Platinum RGB White UDIMM 64GB Kit DDR4-3600 CL18-19-19-39 (128GB gesamt)
  • GPU NVIDIA GeForce RTX 3090 Founders Edition 24 GB

  • GPU Zotac Gaming GeForce RTX 3090 Trinity OC 24 GB mit Noctua Lüftern

  • Fractal Design Define 7 XL Black TG Dark Tint schallgedämmt Big-Tower
  • Enermax LiqTech TR4 II 280 CPU-Wasserkühlung

  • Antec Neo Eco Gold Modular NE1300G m 1300W ATX 3.0 Netzteil
  • 4x SSD Lexar NM790 1TB M.2 NVMe PCIe 4.0
  • SSD Samsung EVO 850 500GB S-ATA
  • SSD Samsung PM951 512GB M.2 NVMe
  • 4x Noctua NF-P12 redux-1700 PWM 120mm Lüfter

siehe auch https://geizhals.de/wishlists/3870524

Zu dem Mainboard gehört auch eine PCIe 4.0 x16 Karte um vier PCIe 4.0 x4 NVMe SSDs anzuschließen. Dort befinden sich die 4 Lexar SSDs.

Durch die 2 GPUs stehen derzeit 48GB schnelles VRAM zur Verfügung.

Der Hauptspeicher ist auf 8 Module verteilt und nutzt so die 8 Speicherkanäle der AMD Threadripper Pro Architektur.

Software

Auf dem Rechner läuft derzeit Ubuntu 24.04 LTS.

Die 4 Lexar NMVe SSDs bilden ein RAID0 das unter /opt eingehängt ist.

Das Konzept sieht vor, die Dienste als Docker Container laufen zu lassen. Die compose Dateien liegen in Unterverzeichnissen unter /opt.

Die S-ATA SSD ist unter /var/local eingehängt.

Die PM951 NVMe SSD dient alt Bootlaufwerk und enthält auch das OS.

Mit nvtop kann der Status der GPUs angezeigt werden.

Über das Script /usr/local/bin/set-gpu-power.sh sind die GPUs aktuell auf 280W gedrosselt. Das führt zu nur sehr geringen Leistungseinbußen.

$ lsblk -f
NAME                      FSTYPE            FSVER    LABEL    UUID                                   FSAVAIL FSUSE% MOUNTPOINTS
sda
└─sda1                    ext4              1.0      ssd500   c57d324d-3c4f-4f5d-90ca-3859ca87f550    434.1G     0% /var/local
nvme0n1                   linux_raid_member 1.2      cogito:0 ebe75b1c-af8f-5e3a-aa0f-9464c3951451
└─md0                     ext4              1.0      RAID     f57d1a53-8b0c-4119-a02b-e06632c7933d      2.9T    15% /opt
nvme1n1                   linux_raid_member 1.2      cogito:0 ebe75b1c-af8f-5e3a-aa0f-9464c3951451
└─md0                     ext4              1.0      RAID     f57d1a53-8b0c-4119-a02b-e06632c7933d      2.9T    15% /opt
nvme3n1                   linux_raid_member 1.2      cogito:0 ebe75b1c-af8f-5e3a-aa0f-9464c3951451
└─md0                     ext4              1.0      RAID     f57d1a53-8b0c-4119-a02b-e06632c7933d      2.9T    15% /opt
nvme2n1                   linux_raid_member 1.2      cogito:0 ebe75b1c-af8f-5e3a-aa0f-9464c3951451
└─md0                     ext4              1.0      RAID     f57d1a53-8b0c-4119-a02b-e06632c7933d      2.9T    15% /opt
nvme4n1
├─nvme4n1p1               vfat              FAT32             7006-F657                                   1G     1% /boot/efi
├─nvme4n1p2               ext4              1.0               8256bdab-088d-437e-a82b-b94470729f4c      1.5G    17% /boot
└─nvme4n1p3               LVM2_member       LVM2 001          XbVKNc-zwqt-qe2c-fj2e-8MRA-p8e0-XDQdsz
  └─ubuntu--vg-ubuntu--lv ext4              1.0               98bd9894-3827-42bb-a0f4-d92931530cab    178.9G    54% /

Ollama mit Open-WebUI

Für Inferenz läuft i.d.R ein Ollama Server. Als WebUI gibt es dafür ein open-webui.

Für das Umwandeln von Office Dokumenten (zum Beispiel ODT) läuft Apache Tika.

Das Docker compose file liegt unter /opt/ollama/

Auf buero.ping.de läuft ein nginx der open-webui unter https://buero.ping.de erreichbar macht. Für den Login nutzt bitte unser Single Sign-On.

Im Model-Selektor von Open-WebUI erscheint ein grüner Punkt neben den LLMs, die derzeit im GPU Speicher sind.

Der Ollama Server ist auch aus dem Internet erreichbar. Details dazu findet ihr unter Ollama-Brave-Leo-AI

Das Script /usr/local/bin/ollama-nogpu.sh ist dafür da den Ollam Container neu zu starten falls dieser mal wieder die GPUs nicht erkennt.

ComfyUI

ComfyUI (primär für KI-Bildergenerierung) ist noch nicht fertig installiert, es liegt unter /opt/comfyui und kann bei Bedarf gestartet werden. Vorher sollte ollama gestoppt werden, weil nicht genügend GPU VRAM für beide Dienste gleichzeitig vorhanden ist.

Systeme/KI-Server (zuletzt geändert am 2026-01-28 18:54:53 durch SvenNeuhaus)