LLMs sind stromhungrig, niemand leugnet das. Es ist der Elefant im Raum bei jeder Diskussion von ihrem Potenzial als Zukunftstechnologie. Es ist die Pointe von schwarzem Humor unter den Entwickelnden: „Keine Ahnung wieviele Hektar Regenwald ich jetzt für dieses Dokument verheizt habe.“.
Aber während ein Teil der Welt sich hektisch nach hochskalierten Energiequellen umschaut und der andere immer bessere (und größere) Modelle baut, gibt es wenige, die sich in der Tiefe mit LLMs beschäftigen und versuchen, sie in ihrer Interaktion mit der Hardware effizienter zu machen.
Genau das haben wir getan. Erfolgreich.
Während unser Paper im Peer Review ist darf ich jetzt schon in groben Zügen über unsere Ergebnisse reden. Dafür ist es wichtig, dass ich kurz aushole.
Kompetenz ist gefragt
Der Dienstleistungsmarkt im Bereich KI ist umkämpft. Jeder hat seit die ersten ChatGPT-Prompts geschrieben wurden auf der Website stehen, dass er sich mit KI auskennt. Experten, die Kunden wirklich weiterbringen können, ganz gleich ob es stimmt oder nicht. Wir haben schnell gemerkt, dass wir uns profilieren mussten, um hier wirklich die Nase vorn zu haben.
Wir sind deshalb zweigleisig gefahren: Zum ersten mit einem vorgebauten Softwarestack, mit dem wir an Kunden herantreten können (auf Basis von Brezn-7b), denn welcher Kunde möchte denn erstmal ordentlich ausgeben für einen einfachen Chatbot?
Zum zweiten, mit echten KI-Experten die sich in der Tiefe mit diesem Thema auskennen. Für uns durfte ein LLM einfach nicht mehr eine Blackbox sein. Wir mussten die Arbeit investieren, um echte Fortschritte zu machen. Und da der Arbeitsmarkt in diesem Bereich – verständlicherweise – komplett leergefegt ist, haben wir die Bleistifte gespitzt und kurzer Hand selbst unsere Leute weitergebildet.
Projekt Matterhorn
So gab es schlussendlich zwei Teams (drei Teams, wenn wir unseren High-Order-Vibe-Coding-Stack dazu zählen). Das eine Team baute einen Softwarestack, das andere verfolgte – beflügelt von ihrer tiefen Kompetenz – ein eigenes Ziel. Es verfolgte einen Ansatz, den (so weit wir feststellen können) bis heute niemand anders auf der ganzen Welt verfolgt hat.
In einer Besetzung von zunächst drei Leuten wurden Berechnungen angestellt, Prototypen gebaut und ersteinmal eine Menge Whiteboards gefüllt. Projekt Matterhorn – so unser interner Codename – war mathelastig und verkopft und wurde von vielen Seiten zweifelnd angeschaut. Das Problem, so stellten sie fest, war die Art und Weise, wie LLMs mit ihrer Hardware interagieren. Und obgleich Softwaresimulationen eindeutig positiv ausfielen, würde der Beweis erst geliefert sein, wenn wir echte, funktionierende Hardware gebaut hätten.
Ingenieure mussten her
Techies sind meistens in vielen Bereichen Techies, auch wenn es nicht unmittelbar ihr Beruf ist. Klar hatten wir viele Bastler in der Firma. Klar hatten wir Leute in der Firma, die Informatik damals mit dem Lötkolben in der Hand gelernt hatten. Für Projekt Matterhorn mussten wir nun wirklich harte Maschinenbaukompetenz herschaffen.
Es führte zu einem Wandel innerhalb der Firmenkultur. Nicht zuletzt, weil wir so wenig wie möglich auf externe Partner setzen wollten. Zu groß war die Sorge, unsere Investition zu verspielen, weil wichtige Details über unsere Idee in die falschen Hände geraten könnten. Wir mieteten uns also zusätzliche Räume, unsere „Werkstatt“, wo viele leidenschaftliche Leute mit wenig Mitteln dennoch eine Menge Iterationen bewerkstelligen konnten. Es war hier, in einem mit halbkaputten Lithographiemaschinen gefüllten, unter dem Dröhnen einer fast schon antiken Absauganlage, Raum, in dem uns die zündende Idee kam.
Physik an ihren Grenzen
Für eine Weile galt Moore’s Law. Die Anzahl an Transistoren auf einem Chip hatte sich grob alle anderthalb Jahre verdoppelt. Mittlerweile, in der modernen Zeit, stoßen wir an fundamentale physikalische Grenzen. Strukturgrößen von unter drei Nanometern sind Alltag, und wir nähern uns einem Punkt, an dem einzelne Atome den Unterschied zwischen einem funktionierenden und einem nicht funktionierenden Gate ausmachen. Die Branche reagiert darauf mit immer größeren Chips, immer parallelerem Compute, mit immer stärkeren Seiteneffekten.
Unsere Idee fiel auf eine einzige Frage zurück, die sich vielleicht heute niemand mehr stellt: Warum Von-Neuman-Architektur? Warum muss jeder Computer, jeder Server, jedes Laptop, jedes Handy, ja jede moderne Telefonanlage, in der Lage sein, jedwede Kalkulation auszuführen? Warum muss dieselbe Maschine die ein Large Language Model hostet auch in der Lage sein, Doom auszuführen?
Aufweichung von Schichten
Kosten. Das war bisher der Grund. Massenproduktion von Chips gab einen erheblichen Vorteil gegenüber spezialisierten Maschinen. Daraus ergab sich ein wackliger Jenga-Turm aus uraltem Code, auf dem moderne Software versucht zu balancieren. Wir emulieren Betriebssysteme in immer komplexeren DevOps-Setups und akzeptieren einfach, dass sie hin und wieder mal abstürzen. Aber muss das sein?
Wir fanden uns in der Position wieder, in der wir nicht nur eine – zugegebenermaßen provisorische – Fertigungsanlage, sondern auch moderne Coding-Agenten zur Verfügung hatten. Was hielt uns also davon ab, „das Rad neu zu erfinden“ – nur anstatt eines universellen Computers, spezialisierte LLM-Hardware zu bauen? Ein Schritt, den GPUs ja bereits zaghaft versucht haben auszuführen.
Projekt Matterhorn begab sich also auf den Pfad den Anti-Stack zu bauen. Einen betriebssystem-freien Computer. Eine LLM-Maschine.
Das reicht noch nicht
Als wir also ikonoklastisch die Grundlagen moderner Computer in Frage stellten, wussten wir, dass wir es nicht bei einem Schritt belassen durften. Es war schön und gut, eine LLM-Maschine zu entwickeln, aber marktstrategisch würden größere Firmen mit mehr Ressourcen uns bald das Wasser abgraben. Unsere konkreten Methoden mochten patentierbar gewesen sein, aber schlussendlich kann eine Idee wie „spezialisierte Hardware für LLMs“ natürlich nicht geschützt werden. Tatsächlich haben wir Grund zu glauben, dass wir nicht die einzigen sind, die in diese Richtung arbeiten.
Unser Vorteil ist unsere Agilität. Wie uns die ersten sechs Monate des Projekts gezeigt hatten, konnten wir furchtlos und schnell Innovationen schaffen. Deshalb war unser einziger Weg vorwärts … der Weg vorwärts. Mehrere Schritte. Bis unser gewonnenes Wissen so fortgeschritten sein würde, dass potenzielle Mitwerber uns lediglich kaufen, aber nicht so leicht einholen können würden.
Eine neue Art von Computern
Was, wenn der Schlüssel des KI-Zeitalters in der Vergangenheit liegt?
Die erste mechanische Uhr wurde 1283 in der Dunstable Priorei in England installiert. Seitdem wurden die feinen Mechanismen von Uhrwerken kontinuierlich verbessert … fanden aber nach der Ablösung mechanischer Rechengeräte durch elektrische niemals ihren Weg zurück in die Informatik, wo sie ja – zumindest nach den logischen, mathematischen Modellen, die ihnen zugrundeliegen – einzuordnen sind.
Die mathematischen Operationen, die ein LLM während der Inferenz ausführt (Matrixmultiplikationen, Aktivierungsfunktionen, Normalisierungen), sind im Kern logische Zustandstransformationen. Sie brauchen keine Elektronen. Sie brauchen Zustandsänderungen. Und Zustandsänderungen lassen sich auf mehr als eine Art realisieren.
Mathematisch gesehen, gibt es keinen Unterschied zwischen einem Transistor und einem mechanischen Logikgatter, gebaut aus präzisiongefertigten Metallelementen. In der Tat gab es in der jüngsten Vergangenheit erstaunlich wenig Forschung, die in diese Richtung ging. Das ist nicht zuletzt der Beschaffenheit moderner Computerarchitektur geschuldet. Jeder Server, jedes Laptop, jedes Handy, ja jede modernere Telefonanlage ist in der Lage, jedwede Funktion auszuführen.
KI-generierte Mechanik
Auch hier halfen uns KI-Agenten. Unsere ersten Befürchtungen, dass intellektuelles Eigentum gestohlen werden könne, bewahrheiteten sich nicht. Das eigentliche Kern-Problem, das diesen Ansatz in der Vergangenheit undenkbar gemacht hat, stellte sich genau als die Lösung für unser Problem heraus: Komplexität.
Computer machen Komplexität beherrschbar … bis zu einem gewissen Grad. Der Flaschenhals der Softwareentwicklung war schon immer das menschliche Gehirn. Mit Coding-Agenten und moderner Automatisierung lassen sich nun Probleme lösen, die vor fünf Jahren noch völlig unüberwindbar gewesen sind.
Wir können also Uhrwerke in beliebiger Verkettung konzipieren, iterativ algorithmisch optimieren und dann in ihren Grundbestandteilen kostengünstig anfertigen lassen. Dasselbe Prinzip von Massenfertigung, dass Computer in den letzten Jahrzehnten erschwinglich gemacht hat, ist – mit bestimmten Einschränkungen – auch für die Fertigung moderner LLM-Maschinen anwendbar. Sprungfedern und Zahnräder werden günstiger, je mehr man von ihnen bestellt.
Skaliert es denn?
Oh ja. Unser aktueller Prototyp wird im Tag-und-Nacht-Betrieb von FließbandkollegInnen stetig weitergebaut. Für ein ein 7B-Parameter-Modell nimmt „Pendelina“ eine Fläche von gerade einmal 340 Quadratmetern ein. Bei einem Gewicht von lediglich 26 Tonnen.
Unsere Ambition ist es jetzt ein 70B-Äquivalent aufzubauen. Leider skaliert die benötigte Grundfläche dafür nicht linear sondern eher … etwas stärker.
Ein Aufruf zur Unterstützung
Wir hatten für „Pendelina“ einen Flugzeughangar gemietet (dessen genaue Adresse wir aktuell noch vertraulich behandeln wollen). Leider ist unser Problem aktuell kein technisches, sondern erschreckend mundan: Wir suchen im Großraum München eine zusammenhängende, überdachte Fläche von mindestens 8000 Quadratmetern, mit verstärktem Boden (Mindesttraglast 800 kg/Quadratmeter). Wir sind in Gesprächen mit mehreren Gemeinden in Oberbayern. Eine Umnutzung eines stillgelegten Bahnbetriebswerks ist im Gespräch. Ein Alpentunnel wurde vorgeschlagen. Wir schließen nichts aus.
Falls Sie Gewerbeimmobilien im Großraum München betreuen und etwas Passendes kennen: Bitte melden Sie sich. Wirklich. Das meinen wir ernst. Es ist dringend.
Ein Ausblick in die Zukunft
Gerne sind wir schon jetzt bereit potenziellen Investoren unsere Maschine vorzuführen – Gehörschutz wird selbstverständlich gestellt – und natürlich schicken wir Ihnen auf Anfrage gerne schon einmal ein Preview unseres Talks, den wir halten, sobald unser Paper veröffentlicht ist.
Wir glauben, dass wir erst am Anfang stehen. Die Prinzipien hinter Projekt Matterhorn lassen sich nicht nur auf Inferenz anwenden; wir skizzieren bereits Architekturen für mechanisches Training. Die Designdateien unserer Nockenprofile für Aktivierungsfunktionen werden wir als Open Source veröffentlichen.
Des Weiteren: Wir stellen ein.
Wenn Sie Feinmechaniker:in, Werkstoffwissenschaftler:in, Uhrmacher:in, Orgelbauer:in oder Industriearchitekt:in sind und die Zukunft der KI mitgestalten möchten – im wahrsten Sinne des Wortes – schauen Sie auf unsere Karriereseite.
Die Zukunft der KI dreht sich. Buchstäblich.


Schreibe einen Kommentar