Топовые нейросети ужасно определяют время по аналоговым часам
Прямо как зумеры.
В копилку фактов для буллинга ИИ отправляются результаты теста ClockBench: всего в 13,3 % случаев самая умная нейросеть (тут это Gemini 2.5 Pro) правильно определяет время по аналоговым часам. Для сравнения: люди показывают результат в 89,1 %. Создатель бенчмарка Олег Чичигин таким образом хотел показать, что простое определение времени ставит LLM в тупик, несмотря на то, что они справляются с «Последним экзаменом человечества».

Для теста были отобраны 5 человек и 11 нейромоделей, умеющих воспринимать визуальную информацию. Нейронкам скормили 36 вариантов аналоговых часов и задали вопросы, связанные со временем. Не только «Который час?», но и, например, «Какое время будет спустя 15 минут?».

Автор пишет, что LLM в лучшем случае ошибались на час, а в худшем — на три. Люди же отклонялись всего на 3 минуты в среднем. Ещё из интересного: тяжелее всего анализу поддавались римские циферблаты. Полностью их понимаем. Даже для многих людей это задачка со звёздочкой.
Почему же нейронкам так сложно определить время? Чичигин предположил, что для решения этой задачи модели должны уметь выстраивать причинно-следственные связи. Кроме того, LLM сложно перенести данные часов в текстовое пространство, где они чувствуют себя как в рыба в воде.
В общем, кожаные мешки снова победили терминаторов.