Wenn die Leute über die Skalierung des E-Commerce sprechen, konzentrieren sie sich auf große technische Herausforderungen: verteilte Suche, Echtzeit-Inventar, Empfehlungsmaschinen und Checkout-Optimierung. Aber darunter liegt ein stilleres, hartnäckigeres Problem, mit dem fast jeder Einzelhändler kämpft: Attributwerte.
Attribute sind das Rückgrat der Produktentdeckung. Sie treiben Filter, Vergleiche, Suchranking und Empfehlungslogik an. Aber in echten Katalogen sind Attributwerte selten sauber. Sie sind inkonsistent, dupliziert, falsch formatiert oder semantisch mehrdeutig.
Nehmen Sie etwas so Einfaches wie Größe. Sie könnten sehen:
Code
["XL", "Small", "12cm", "Large", "M", "S"]
Oder Farbe:
Code
["RAL 3020", "Crimson", "Red", "Dark Red"]
Einzeln betrachtet sehen diese Inkonsistenzen harmlos aus. Aber multiplizieren Sie sie über mehr als 3 Millionen SKUs, jede mit Dutzenden von Attributen, und das Problem wird systemisch. Filter verhalten sich unvorhersehbar, Suchmaschinen verlieren an Relevanz, Händler ertrinken in manueller Bereinigung, und die Produktentdeckung wird für Kunden langsamer und frustrierender.
Das war die Herausforderung, der ich als Full-Stack-Software-Ingenieur bei Zoro gegenüberstand, ein Problem, das leicht zu übersehen war, aber jede Produktseite betraf.
Ich wollte keine mysteriöse Black-Box-KI, die einfach Dinge sortiert. Solche Systeme sind schwer zu vertrauen, zu debuggen oder zu skalieren. Stattdessen zielte ich auf eine Pipeline ab, die:
Das Ergebnis war eine hybride KI-Pipeline, die kontextuelles Denken von LLMs mit klaren Regeln und Händlerkontrollen kombiniert. Sie handelt intelligent, wenn nötig, bleibt aber immer vorhersehbar. Dies ist KI mit Leitplanken, nicht KI außer Kontrolle.
Die gesamte Attributverarbeitung erfolgt in Offline-Hintergrund-Jobs, nicht in Echtzeit. Dies war kein Kompromiss; es war eine strategische architektonische Entscheidung.
Echtzeit-Pipelines klingen verlockend, aber im E-Commerce-Maßstab führen sie zu:
Offline-Jobs hingegen gaben uns:
Die Trennung von kundenbezogenen Systemen und Datenverarbeitungs-Pipelines ist entscheidend, wenn man mit Millionen von SKUs arbeitet.
Bevor ich KI auf die Daten anwendete, führte ich einen klaren Vorverarbeitungsschritt durch, um Rauschen und Verwirrung zu entfernen. Dieser Schritt mag einfach klingen, aber er verbesserte das Denkvermögen des LLM erheblich.
Die Reinigungs-Pipeline umfasste:
Dies stellte sicher, dass das LLM saubere, klare Eingaben erhielt, was der Schlüssel zu konsistenten Ergebnissen ist. Müll rein, Müll raus. In diesem Maßstab können selbst kleine Fehler später zu größeren Problemen führen.
Das LLM sortierte nicht nur Werte alphabetisch. Es dachte über sie nach.
Der Service erhielt:
Mit diesem Kontext konnte das Modell verstehen:
Das Modell lieferte zurück:
Dies ermöglicht der Pipeline, verschiedene Attributtypen zu handhaben, ohne Regeln für jede Kategorie fest zu codieren.
Nicht jedes Attribut benötigt KI.
Tatsächlich werden viele Attribute besser durch deterministische Logik gehandhabt.
Numerische Bereiche, einheitenbasierte Werte und einfache Mengen profitieren oft von:
Die Pipeline erkannte diese Fälle automatisch und verwendete für sie deterministische Logik. Dies hielt das System effizient und vermied unnötige LLM-Aufrufe.
Händler benötigten noch Kontrolle, insbesondere für geschäftskritische Attribute.
Daher konnte jede Kategorie gekennzeichnet werden als:
Dieses duale Tag-System ermöglicht es Menschen, die endgültigen Entscheidungen zu treffen, während KI den Großteil der Arbeit erledigte. Es baute auch Vertrauen auf, da Händler das Modell bei Bedarf überschreiben konnten, ohne die Pipeline zu unterbrechen.
Alle Ergebnisse wurden direkt in einer Product MongoDB-Datenbank gespeichert, wodurch die Architektur einfach und zentralisiert blieb.
MongoDB wurde zum einzigen operativen Speicher für:
Dies erleichterte das Überprüfen von Änderungen, Überschreiben von Werten, Wiederaufbereiten von Kategorien und Synchronisieren mit anderen Systemen.
Nach der Sortierung flossen Werte in:
Dies stellte sicher, dass:
Die Suche ist der Ort, an dem Attributsortierung am sichtbarsten ist und wo Konsistenz am wichtigsten ist.
Um dies über Millionen von SKUs hinweg zum Laufen zu bringen, entwarf ich eine modulare Pipeline, die um Hintergrund-Jobs, KI-Reasoning und Suchintegration herum aufgebaut war. Das untenstehende Architekturdiagramm erfasst den vollständigen Ablauf:
Dieser Ablauf stellt sicher, dass jeder Attributwert, ob von KI sortiert oder manuell festgelegt, in Suche, Merchandising und Kundenerfahrung reflektiert wird.
So wurden chaotische Werte transformiert:
| Attribut | Rohwerte | Sortierte Ausgabe | |----|----|----| | Größe | XL, Small, 12cm, Large, M, S | Small, M, Large, XL, 12cm | | Farbe | RAL 3020, Crimson, Red, Dark Red | Red, Dark Red, Crimson, Red (RAL 3020) | | Material | Steel, Carbon Steel, Stainless, Stainless Steel | Steel, Stainless Steel, Carbon Steel | | Numerisch | 5cm, 12cm, 2cm, 20cm | 2cm, 5cm, 12cm, 20cm |
Diese Beispiele zeigen, wie die Pipeline kontextuelles Denken mit klaren Regeln kombiniert, um saubere, leicht verständliche Sequenzen zu erstellen.
Echtzeitverarbeitung hätte eingeführt:
Offline-Jobs gaben uns:
Der Kompromiss war eine kleine Verzögerung zwischen Datenaufnahme und Anzeige, aber der Vorteil war Konsistenz im großen Maßstab, was Kunden viel mehr schätzen.
Die Ergebnisse waren signifikant:
Dies war nicht nur ein technischer Gewinn; es war auch ein Gewinn für Benutzererfahrung und Umsatz.
Attributwerte zu sortieren klingt einfach, aber es wird zu einer echten Herausforderung, wenn man es für Millionen von Produkten tun muss.
Durch die Kombination von LLM-Intelligenz mit klaren Regeln und Händlerkontrolle habe ich ein komplexes, verstecktes Problem in ein sauberes, skalierbares System verwandelt.
Es ist eine Erinnerung daran, dass einige der größten Erfolge aus der Lösung der langweiligen Probleme kommen, diejenigen, die leicht zu übersehen sind, aber auf jeder Produktseite auftauchen.
\n \n \n


