Die KI am Rande des Netzwerks bedeutet selten nur Rückschluss. Der reale Einsatz umfasst typischerweise Hochgeschwindigkeits-Eingabe/Ausgabe (I/O), Signalaufbereitung und Echtzeit-Regelkreise, die alle gleichzeitig ausgeführt werden. Diese multifunktionalen Arbeitslasten erfordern eine enge Koordination und hohe Sicherheit, und Designer fanden es schwierig, diese Anforderungen mit gängiger KI-Hardware zu erfüllen.
Zwei Faktoren machen dieses Problem noch komplexer. Erstens entwickeln sich KI-Modelle erstaunlich schnell, was Designer dazu veranlasst, Plattformen einzuführen, die schnelle Algorithmusaktualisierungen unterstützen. Mittlerweile sind viele Edge-Systeme bereits seit bis zu zehn Jahren oder länger vor Ort im Einsatz, was eine langfristige Anpassungsfähigkeit erschwert. Zweitens ist der Weg von gut trainierten Modellen zur Systembereitstellung und -implementierung immer noch fragmentiert. Datenwissenschaftler verwenden PyTorch und TensorFlow, während eingebettete Teams völlig andere Toolchains verwenden, was zu Reibungen während des Übergabeprozesses führt und die Produktionsgeschwindigkeit verlangsamt.
Um diese Herausforderungen zu bewältigen, müssen Plattformen in der Lage sein, KI-Verarbeitung mit hohem Durchsatz mit deterministischem Verhalten, flexiblen I/O und langfristiger Anpassungsfähigkeit zu kombinieren, was alles innerhalb des typischen Stromverbrauchsbereichs einer begrenzten Edge-Bereitstellung erreicht werden muss.
Dieser Artikel konzentriert sich auf die Anwendungsszenarien und die damit verbundenen Anforderungen, die Designer dazu herausfordern, neue Edge-KI-Architekturen zu erkunden. Anschließend wurden die Field Programmable Gate Array (FPGA)-Geräte und Softwaretools von Altera vorgestellt, die Edge-KI unterstützen, und es wurde demonstriert, wie man sie nutzen kann, um die unterschiedlichen Leistungs- und Energieanforderungen dieser Anwendungen zu erfüllen.
Die Entwicklung der Edge-KI erfordert architektonische Innovationen
Edge-Systeme übernehmen zunehmend verschiedene KI-Technologien, darunter klassisches maschinelles Lernen (ML) zur Anomalieerkennung, Faltungs-Neuronale Netze (CNN) zur Wahrnehmung und Konverter für große Sprachmodelle (LLM). Diese rechenintensiven Algorithmen koexistieren häufig mit anspruchsvollen Nicht-KI-Funktionen wie Signalverarbeitung, Netzwerkkommunikation und Echtzeitsteuerung.
Autonome Systeme sind ein gutes Beispiel. Sie müssen typischerweise Daten von mehreren Sensormodalitäten wie Video, Audio, Radar, LiDAR und Bewegungs-/Positionsrückmeldungen erfassen, diese Datenströme mit hohem Durchsatz vorverarbeiten, die Ergebnisse mithilfe komplexer KI analysieren und dann hochpräzise Regelkreise verwalten, was alles eine zuverlässige Bestimmung erfordert.
Es gibt viele ähnliche Beispiele in den Bereichen Industrieautomation, medizinische Bildgebung, Verteidigung und Telekommunikationsanwendungen. Eine häufige Herausforderung für sie besteht darin, dass sich herkömmliche Architekturen nur schwer an ständig konvergierende Arbeitslasten anpassen lassen.
Warum FPGA besonders für Edge AI geeignet ist
Im Gegensatz dazu sind diese Anforderungen vollständig kompatibel mit der Funktionalität von FPGA. Der Kern von FPGA besteht darin, konfigurierbare Logik bereitzustellen, um Vorgänge wirklich parallel auszuführen, wobei das Zeitverhalten zur Entwurfszeit eingebettet ist und nicht zur Laufzeit schwankt. Diese Architektur kann einen Determinismus mit geringer Latenz erreichen, was für Edge-KI von entscheidender Bedeutung ist. Flexible Logik kann auch leistungsstarke I/O nutzen: FPGAs bieten typischerweise reichlich Hochgeschwindigkeits-I/O, die mit verschiedenen Sensoren und Aktoren verbunden werden können, um eine enge Kopplung mit der KI-Verarbeitung zu erreichen.
FPGA umfasst außerdem einen verteilten internen Speicher, der den Datenzugriff durch die darauf arbeitende Logik ermöglicht. Dies reduziert den Engpass, der entsteht, wenn mehrere Verarbeitungsstufen um den Zugriff auf den gemeinsam genutzten Speicherbus konkurrieren müssen, was eine häufige Einschränkung in prozessorbasierten Architekturen darstellt.
Viele FPGAs integrieren auch spezielle Hardware für die digitale Signalverarbeitung (DSP). Im Vergleich zu herkömmlichen Strukturen bieten diese verbesserten Schaltkreise eine höhere Leistung und eine bessere Energieeffizienz für Signalverarbeitungsaufgaben. Einige FPGAs integrieren auch fest verdrahtete Prozessorsysteme, die Standard-Software-Stacks (einschließlich Linux) ausführen können, und ermöglichen so die traditionelle Softwareentwicklung für Aufgaben wie Netzwerk, Geräteverwaltung und Benutzeroberfläche.
Kurz gesagt, ein einzelnes FPGA kann Funktionen integrieren, die andernfalls möglicherweise separate I/O-Chips, KI-Beschleuniger, DSPs und Steuerungsebenenprozessoren erfordern würden. Dies kann die Stückliste (BOM) reduzieren, die Leiterplattenfläche verkleinern, den Stromverbrauch senken und gleichzeitig die für Edge-KI-Anwendungen erforderliche niedrige Latenz und Sicherheit aufrechterhalten.
Wie Sie durch die Hinzufügung von KI-Tensorblöcken neue Möglichkeiten eröffnen
Herkömmliche FPGA-DSP-Hardware eignet sich bereits sehr gut für viele Edge-Workloads, die KI-Inferenz basiert jedoch häufig auf dichten Multiplikationsoperationen mit geringer Präzision. Um dieses Problem zu lösen, verwenden die Agilex 3- und Agilex 5-Geräte von Altera verbesserte DSPs mit KI-Tensorblöcken. Hierbei handelt es sich um spezielle Hardware für die Matrix-Matrix- und Vektor-Matrix-Multiplikation, die in KI-Berechnungsdiagrammen immer wieder auftaucht.
Der Kern dieser Methode ist die Skalarprodukt- und Addierer-/Akkumulator-Engine (Abbildung 1). Im Tensormodus verwendet die fest verdrahtete Punkt-Engine eine 8-Bit-Eingabe und vorinstallierte 8-Bit-Gewichte, um ein Skalarprodukt mit 10 Elementen zu erstellen. Um den Dynamikbereich zu erweitern, kann der Datenpfad auch einen gemeinsamen „gemeinsamen Index“ für die Block-Gleitkomma-Skalierung verwenden, um typische Szenarien zu bewältigen, in denen KI-Inferenz typischerweise einen hohen Dynamikbereich, aber geringe Genauigkeit erfordert.

