Im ersten Teil Beitrag dieser Serie wurde bereits vorgestellt, welche Möglichkeiten Snowflake bietet, um KI mit den eigenen Daten einzusetzen. Dieser hilft als Basis für diesen Blogbeitrag, schaut auch gerne zuerst Arbeiten mit KI auf Snowflake an.
In diesem Teil sollen nun einige der Tools genauer vorgestellt werden:
- Document AI: Stammt aus der Reihe der LLM-Tools und kann zum Auswerten von Dokumenten genutzt werden.
- Feature Store: Bietet die Möglichkeit die Logik für generierte Features zentral abzuspeichern
- ML Function: Mit den Functions können auch in SQL schnell und unkompliziert Modelle trainiert werden.
- Streamlit: Eine Anwendung mit welcher Modelle in einer Web-App eingebunden werden können.
Document AI
Ein Tool für die Nutzung von LLMs ist Documents AI. Dort wird das von Snowflake entwickelte „Arctic“-Modell verwendet, um aus unstrukturierten Daten (z.B. Fließtexte, wie E-Mails) Informationen zu extrahieren und in strukturierter Form (z.B. in einer Tabelle) festzuhalten. Dabei können die Informationen nicht nur aus Texten, sondern auch aus Grafiken und handschriftliche Notizen in den Dokumenten erkannt und interpretiert werden.
Document AI funktioniert dabei ohne jegliches zusätzliche Training, kann jedoch nach Wunsch auf einen bestimmten Anwendungsfälle nachtrainiert werden. Zugriff auf so ein angepasstes Modell haben nur berechtigte Benutzer aus der eigenen Organisation, anderen Snowflake-Kunden bleibt das Modell grundsätzlich verborgen. Somit wird gewehrleistet, dass keine ungewollten Datenlecks entstehen.
Feature Store
Mit Snowpark ML können, wie im ersten Teil beschrieben, eigene Machine-Learning-Modelle (ML-Modelle) trainiert werden. Als zusätzliche Unterstützung bietet Snowflake dem Feature Store an, um ML-Workflows zu optimieren. Dort können Entwickler konsistent über Projekte und Experimente hinweg Feature Engineering betreiben. Werden für einen Datensatz neue Features erstellt, können diese im Feature Store abgelegt werden und von jedem berechtigten Entwickler für den eigenen Workflow genutzt werden.

Abbildung 5 In diesem Feature Store wird die Logik für zwei erstellte Features gespeichert (Screenshot aus Demo Video)
So werden Doppelungen von Arbeitsschritten vermieden und vor allem kann verhindert werden, dass dasselbe Feature in unterschiedlichen Projekten unterschiedlich berechnet wird. Somit wird für eine über Abteilungen hinweg einheitliche Definition des Features gesorgt.
Ein Feature kann aus Python mit wenigen Zeilen Code in dem Feature Store hinterlegt werden, vgl. hierzu Abb. 6.
ML Functions
Für Benutzer, die bevorzugt mit SQL arbeiten, bietet Snowflake eine weitere Option an: Die ML Functions. Diese können in SQL-Anfragen aufgerufen werden und so einen ML-Workflow auslösen. Es gibt drei Arten von Funktionen: Es kann zwischen Klassifikation, Anomalie Erkennung und Zeitreihen Vorhersage gewählt werden. Grundsätzlich müssen der Funktion nur die Daten übergeben werden und im Hintergrund wird dann ein passendes Modell trainiert (s. Abb. 7).
Eine ML-Function kann auch aus der UI erstellt werden. Im Studio kann in einer Reihe an kleinen Schritten ein zu den eigenen Daten passender Workflow zusammengesetzt werden. Snowflake generiert schließlich ein SQL-Skript mit welchem ein Modell trainiert wird.
Streamlit
Ist ein Modell trainiert und einsatzfähig, soll es auch allen Nutzern zur Verfügung gestellt werden. Eine einfache Möglichkeit dies zu tun ist Streamlit. Auch Streamlit ist direkt in Snowflake integriert und kann von der UI aufgerufen werden. Mit dem Tool lässt sich in wenigen Zeilen Python Code eine Web-App erstellen. Diese hat direkten Zugriff auf die Daten und die erstellten ML-Modelle. Über Eingabemasken können neue Vorhersagen durchgeführt werden (s. Abb. 8).
Ergebnisse lassen sich direkt visualisieren und in Form von Plots oder Tabellen ausgeben (s. Abb. 9).
Die fertige App kann schließlich in der Organisation geteilt werden.
Fazit
Ob Python, SQL oder über die UI: Snowflake bietet eine breite Palette an Möglichkeiten, um mit KI die eigenen Daten anzureichern. Mit umfassender Expertise und maßgeschneiderten Ansätzen unterstützten wir von PRODATO Sie dabei, die optimale Lösung sowohl im Bereich Datenorganisation als auch im Bereich Künstliche Intelligenz zu finden und so ihre Geschäftsprozesse nachhaltig zu optimieren.
Kontaktieren Sie uns gerne, um mehr darüber zu erfahren, wie unser Expertenteam Ihre Snowflake- und KI-Strategie unterstützen kann.