Moderne KI-Systeme beeindrucken mit ihren Möglichkeiten: Sie verfassen Gedichte, programmieren Software und fassen selbst komplexe Texte innerhalb von Sekunden zusammen.
Doch eine neue Studie der Universität Edinburgh (Schottland) zeigt eine erstaunliche Schwäche auf: Das einfache Ablesen einer analogen Uhr bereitet den fortschrittlichsten Modellen große Probleme.
Künstliche Intelligenz scheitert an der analogen Uhr
In der Untersuchung wurden mehrere hochentwickelte KI-Sprachmodelle mit Bildern verschiedener analoger Uhren konfrontiert.
Getestet wurden unter anderem:
- OpenAI GPT-4o
- OpenAI GPT-o1
- Google Gemini 2.0
- Anthropic Claude 3.5 Sonnet
- Meta Llama 3.2-11B-Vision-Instruct
- Alibaba Qwen2-VL7B-Instruct
- ModelBest MiniCPM-V-2.6
Die Uhrenbilder unterschieden sich in mehreren Aspekten. Manche zeigten klassische Designs, andere hatten römische Ziffern oder ungewöhnlich geformte und gefärbte Zeiger. Zudem waren einige Uhren ohne Sekundenzeiger abgebildet.
Enttäuschende Ergebnisse
Die KI-Modelle erhielten die Frage: „Welche Uhrzeit zeigt die Uhr auf dem Bild an?“ Die Resultate waren ernüchternd. In weniger als 25 Prozent der Fälle lieferten die Systeme die korrekte Uhrzeit. Besonders problematisch waren Uhren mit römischen Ziffern, ausgefallenen Zeigern oder fehlendem Sekundenzeiger.
Die Forscher vermuten, dass die Schwierigkeiten darin liegen, die Zeiger auf dem Bild korrekt zu erkennen und ihren Winkel auf dem Ziffernblatt richtig zu interpretieren. Das visuelle Erfassen von Formen und Winkeln scheint für KI-Modelle weiterhin eine Herausforderung zu sein.
Kalender stellen kein Problem dar
Interessanterweise schnitten die KI-Modelle bei einem anderen visuellen Test besser ab: der Analyse von Kalenderbildern. In diesem Versuch wurden Bilder von analogen Kalendern eingelesen, die einen Zeitraum von zehn Jahren umfassten. Die Forscher stellten Fragen wie:
- „An welchem Wochentag liegt Neujahr?“
- „Welcher Tag ist der 153. im Jahr?“
Hier waren die Ergebnisse deutlich besser. Vor allem GPT-o1 zeigte eine hohe Genauigkeit und beantwortete 80 Prozent der Kalenderfragen korrekt. Zum Vergleich: Beim Uhrentest erreichte das beste Modell, Google Gemini 2.0, lediglich eine Trefferquote von 22,58 Prozent.