Multimodale Shop-Suche: Bilder, Voice, Text und Datei

Die Suchleiste im Shop ist seit Jahren das gleiche Eingabefeld: ein paar Wörter eintippen, hoffen, dass der Index sie kennt. Wer „rotes Halfter aus Leder für mein Fohlen" sucht, bekommt im klassischen Live-Search-Setup oft nur die Treffer für „Halfter" – die spezifizierenden Wörter rutschen unter den Tisch. Wer das Produkt nicht benennen kann, sondern es nur auf einem Foto gesehen hat, kommt gar nicht erst weit.

Mit multimodaler KI-Suche ändert sich dieses Eingabefeld grundlegend. Es wird zur Schnittstelle für vier Input-Modi: Text, Bild, Voice und Datei. In diesem Beitrag geht es darum, was technisch dahintersteckt, wann sich der Einbau wirklich lohnt – und worauf bei der UX zu achten ist, damit aus einer beeindruckenden Demo ein nützliches Werkzeug wird.

Was „multimodal" eigentlich meint

Klassische Shop-Suche arbeitet keyword-basiert. Ein Index liest die Produktfelder, der Algorithmus sortiert nach Treffern und Gewichtung. Multimodale Suche arbeitet stattdessen mit Embeddings – numerische Vektoren, die den Bedeutungsraum eines Inputs abbilden. „rotes Lederhalfter" und „kirschrotes Halfter aus Vollleder" landen in diesem Raum nahe beieinander, obwohl sie kein gemeinsames Keyword teilen.

Der Clou: für Bild, Voice und Text-Dokumente lassen sich heute Embeddings im gleichen Bedeutungsraum erzeugen. Das Modell weiß, dass das Foto eines roten Lederhalfters und der Text „rotes Lederhalfter" auf dieselbe Stelle des Vektorraums zeigen. Die Suche reduziert sich auf einen Nearest-Neighbor-Lookup gegen die vorberechneten Produkt-Embeddings.

Die vier Modi in der Praxis

Text

Der häufigste Modus. Der Unterschied zur klassischen Suche: Synonyme, Tippfehler und Long-Tail-Anfragen sind kein Problem mehr. „halfter günstig fohlen rot" liefert sinnvolle Ergebnisse, ohne dass ein Mensch jemals einen Synonym-Eintrag gepflegt hat.

Bild

Der Wow-Moment bei Demos. Kunde fotografiert ein Produkt, das er beim Nachbarn gesehen hat, zieht es in die Suchleiste, bekommt ähnliche Produkte. In Möbel-, Mode- und Deko-Shops sehen wir hier die größten Effekte. In sehr generischen Sortimenten (Schrauben, Verbrauchsmaterial) ist der Nutzen kleiner.

Voice

Voice wird unterschätzt. Auf Mobilgeräten ist die Hemmschwelle, drei Sätze zu sprechen, niedriger als drei Sätze zu tippen. Wer das gut macht, holt sich die längeren, beschreibenderen Suchanfragen ab – genau die, bei denen multimodale Suche glänzt.

Datei

Der spannendste Modus für B2B-Shops. Ein Einkäufer lädt eine Excel- oder PDF-Bestellliste hoch, das System sucht die passenden Produkte heraus und legt sie sammelnd in den Warenkorb. Das ersetzt klassische CSV-Importer-UIs durch eine Suchleiste – und macht Bulk-Aufträge in Sekunden möglich.

Wann sich der Einbau lohnt

Wir empfehlen multimodale Suche nicht reflexartig. Drei Indikatoren helfen bei der Entscheidung:

Hohe Such-Quote. Wenn mehr als 30 % der Sessions die Suche aktiv nutzen, ist jede Verbesserung dort direkter Umsatzhebel.
Visuelles Sortiment. Mode, Möbel, Deko, Sportausrüstung – überall, wo „so etwas Ähnliches" eine gültige Kundenmotivation ist.
B2B mit Bulk-Aufträgen. Datei-Upload + Bulk-Mapping ist hier ein Killer-Feature, das klassische Shop-Software so nicht abbildet.

Pragmatisch testen

Vor einem Voll-Rollout reicht ein A/B-Test auf 10 % des Traffics, der nur den Text-Modus austauscht (Embedding statt Keyword). Wenn dort die Conversion in der Suche schon merkbar steigt, ist der Business-Case für die anderen Modi mit derselben Engine deutlich leichter zu rechnen.

UX: woran die meisten Implementierungen scheitern

Multimodale Suche ist technisch heute kein Problem mehr. Was sie verbraucht oder rettet, ist die UX. Die häufigsten Fehler, die wir sehen:

Zu viele Modi gleichzeitig

Wer Text, Bild, Voice und Datei auf einmal in der Suchleiste sichtbar macht, verwirrt mehr, als er befähigt. Standardmodus ist Text. Die anderen Modi werden über kleine Icons angeboten – sichtbar, aber nicht aufdringlich.

Keine Erklärung beim ersten Bild-Upload

Wenn Kunden zum ersten Mal ein Bild hochladen, wollen sie wissen, was gleich passiert. Ein einzeiliger Hint („Wir suchen optisch ähnliche Produkte – kein Bild wird gespeichert") nimmt die Hürde.

Score-Werte zeigen, die niemand versteht

Ähnlichkeits-Scores (0.94, 0.81) sind nützlich fürs Debugging, aber Gift für Endkunden. Auf der Ergebnisseite zeigen wir stattdessen relative Sortierung – beste Treffer oben, ohne Zahlen daneben.

Keine Klick-Daten lernen

Multimodale Suche wird mit jedem Klick besser. Was Kunden tatsächlich anklicken, ist das stärkste Signal für die Relevanz. Wer das nicht zurückführt ins Modell, lässt 30–40 % der erreichbaren Qualität auf dem Tisch.

Wo wir das einsetzen

In Axon ist multimodale Suche das Modul 04. Wir bieten es als SaaS-Komponente für Magento 2 / Hyvä – mit fertigem Frontend-Modul und einer API für eigene Integrationen. Datenverarbeitung in der EU, kein Bild verlässt unser Rechenzentrum, Klick-Logs gehen ausschließlich anonymisiert ins Modell zurück.

Wenn Sie testen möchten, wie eine multimodale Suche auf Ihrem Sortiment wirkt: schicken Sie uns einen Produkt-Export, wir spielen einen Demo-Index gegen Ihre Daten auf und Sie können es selbst ausprobieren, bevor irgendetwas live geht.

Multimodale Shop-Suche: Wenn Kunden Bilder statt Wörter nutzen

Was „multimodal" eigentlich meint

Die vier Modi in der Praxis

Text

Bild

Voice

Datei

Wann sich der Einbau lohnt

Pragmatisch testen

UX: woran die meisten Implementierungen scheitern

Zu viele Modi gleichzeitig

Keine Erklärung beim ersten Bild-Upload

Score-Werte zeigen, die niemand versteht

Keine Klick-Daten lernen

Wo wir das einsetzen

Janina Pätzel

Was „multimodal" eigentlich meint

Die vier Modi in der Praxis

Text

Bild

Voice

Datei

Wann sich der Einbau lohnt

Pragmatisch testen

UX: woran die meisten Implementierungen scheitern

Zu viele Modi gleichzeitig

Keine Erklärung beim ersten Bild-Upload

Score-Werte zeigen, die niemand versteht

Keine Klick-Daten lernen

Wo wir das einsetzen

Janina Pätzel

// Verwandte Beiträge