Я снова возвращаюсь к сравнению моделей. Однако сегодня мы не будем рассматривать нейросети от разных компаний, а сравним Gemini 3 Flash и предыдущее поколение этой серии - Gemini 2.5 Flash.
С одной стороны, кто-то уже сейчас скажет, что третья версия будет лучше. Однако я не стану спешить с таким выводом, сравню обе версии и вынесу вердикт, опираясь на свое далеко не авторитетное мнение.
Принимайте стратегически удобное положение, делайте ставки, а я приступаю к сравнению.
Языковая модель, разработанная Google DeepMind 18 апреля 2025 года. Главное преимущество - высокая скорость генерации при сохранении точности и логичности ответов.
Модель способна работать с разными типами входных данных и обрабатывать до 1 млн токенов за раз. По сравнению с конкурентами своего времени она значительно дешевле. На момент выхода лишь o4-mini от OpenAI приблизился к ней по соотношению цены и качества
Следующая версия линейки выпущена 17 декабря 2025 года. Модель в ряде внутренних тестов обрабатывает запросы быстрее своего предшественника и в некоторых сценариях даже быстрее Gemini 3 Pro.
Контекстное окно такое же, как и у версии 2.5 Flash. Ключевое улучшение - пожалуй, более быстрая обработка мультимодальных действий.
Как уже стало традицией в моих последних статьях-сравнениях, озвучу условия тестирования.
Модели будут сравниваться в четырех дисциплинах: написание текста, решение задач из высшей математики, программирование и логика.
Каждая задача может получить одну из трех оценок: полностью выполнена (+), частично выполнена (+−) и полный провал (−). В конце подведу итоги в таблице с результатами и своими комментариями по каждому заданию, если сочту их нужными.
Напиши комедийный рассказ в жанре научной фантастики, состоящий из трех небольших глав. Действие происходит в далеком будущем в галактической человеческой цивилизации.
Основные требования:
Сюжет: История обычного человека (например, техника, курьера, бюрократа), который по нелепой случайности попадает в центр межгалактического конфликта или абсурдной авантюры. Ключ - комедийные недоразумения и попытки выпутаться, которые лишь усугубляют ситуацию.
Юмор: Основан на контрасте высоких технологий и низменных человеческих слабостей, сатире на современность, нелепых диалогах и гиперболе.
Мир: Яркий, но не перегруженный деталями. Технологии должны быть на грани поломки, а грандиозные космические явления - вызывать бытовые неудобства.
Структура: Три небольшие главы с четкой драматургией. В каждой главе должна быть своя комедийная кульминация.
Финал: Должен быть удовлетворительным, подводить итоги трансформации героя и оставлять легкое, ироничное послевкусие.
Математические задачи будут подгружаться в модель фотографиями - заодно проверим понимание промта из текста и сразу нескольких изображений, хотя не думаю, что здесь возникнут трудности. Всего будет три задания.
Скрытый текстТы - профессиональный программист. Напиши программу, реализующую инженерный калькулятор со всеми его функциями. Реализуй GUI, историю вычислений, все базовые функции инженерного калькулятора. Сделай дополнительную кнопку, с помощью которой можно запустить игру «Змейка» со всеми ее основными механиками. Язык программирования - Python.
Пару раз уже давал моделям задачи на логику, но теперь я постарался найти что-то посложнее предыдущих вариантов. Слишком уж они были простыми, а здесь все не так очевидно (по крайней мере, мне так показалось).
Скрытый текстВрач прописал больному 3 таблетки и велел принимать их через каждые полчаса. Сколько времени уйдет на прием таблеток?
Представлен ряд из шести чашек на столе. Три первые из них ничем не наполнены, а три следующие - с водой. Как добиться чередования пустых чашек и чашек с водой, касаясь разрешается только одной чашки, при этом толкать чашку чашкой запрещается?
На улице развесили плакаты: «Граждане, будьте бдительны, орудуют воры-карманники». Полицейские знали о том, что на улице действительно небезопасно, но срывали эти объявления. Почему?
В каком случае достижение предшествует цели, стремлению и успеху?
Обе модели линейки для сравнения были взяты у агрегатора нейросетей BotHub. Список нейросетей там обширен - от работы с текстом до транскрибации и генерации видео. По специальной ссылке для регистрации можно получить 100 000 капсов для собственных экспериментов.
Сам рассказ написан действительно неплохо, однако комедийная составляющая, по моему мнению, если здесь и есть, то лишь в названиях вещей и мест. Да и то никакого особого смеха текст не вызывает.
Засчитываю как частичное выполнение: рассказ все-таки есть, написан вполне прилично и соответствует заявленной тематике. Но комедии, увы, практически никакой не наблюдается.
Рассказ от Gemini 3 Flash произвел на меня более приятное впечатление. Текст вновь хорош, да еще и комедийная составляющая появилась. Конечно, ее немного, но я бы даже записал это в плюс - избыток примитивного юмора мог испортить впечатление от рассказа.
Первое задание сразу уходит в раздел неправильно выполненных. Как можно проводить операции над множествами, если сами эти множества определены неверно?
Второе и третье задания выполнены корректно, хотя решение третьего можно было бы сделать менее громоздким. Тем не менее, модель снова получает очки за частичный успех.
Gemini 3 Flash, как и Gemini 2.5 Flash, ошибается в первой задаче. Он опять-таки не получил начальных данных, не говоря уже о каких-либо операциях с множествами.
Что касается остальных двух заданий - здесь все безупречно. Мне нравится предложенное решение, оно лучше предыдущего варианта, и никаких замечаний у меня нет.
Вот вроде бы калькулятор есть и игра тоже присутствует. Однако обратим внимание на то, что в калькуляторе отсутствуют стандартные функции сложения и вычитания.
В остальном все работает достаточно хорошо и без нареканий. Хотя как без плюса и минуса пользоваться калькулятором - не особо понятно, да и какой от него смысл? Ну, можем использовать для вычисления степени числа, синуса. Все же из-за такого просчета засчитать полное выполнение задания я не могу.
Gemini 3 Flash сделал калькулятор идеально. Все работает без каких-либо нареканий. А вот к змейке у меня есть вопросы. Просидев энное время, я так и не понял, как ею управлять. По инструкции от модели - стрелочками, а по факту - видимо, только силой какой-то извилины в мозге, да и то пока непонятно, какой именно.
Опять же, не могу считать задание полностью выполненным, поскольку хотя половина задания и была выполнена, но считать вторую рабочей невозможно.
Единственное, что мне мешает засчитать это задание как полностью решенное, - вторая задачка. Модель почему-то выбрала четвертую чашку (исходя из ее объяснений), хотя правильный вариант выбора - пятая.
Вообще в этом случае сложно определить: с одной стороны, Gemini 2.5 Flash говорит, что берем вторую чашку с водой (то есть пятую в общем количестве), а потом сразу поясняет, что порядковый номер у нее - четыре (что не сходится с ее же объяснениями).
Gemini 3 Flash щелкает эти задачи как орешки, получая везде правильный ответ.
|
Задание\Модель |
Gemini 2.5 Flash |
Gemini 3 Flash |
Комментарий |
|
Первое задание |
+- |
+ |
Gemini 2.5 Flash хоть и написал хороший текст, но оформить хоть как-то адекватно комедию не смог. |
|
Второе задание |
+- |
+- |
Обе модели не справились с операциями над множествами. При чем провалили это задание на моменте получения значений этих множеств. |
|
Третье задание |
+- |
+- |
Gemini 2.5 Flash забыл об стандартных операциях сложения и вычитания. Gemini 3 Flash не смог реализовать рабочую версию змейки. |
|
Четвертое задание |
+- |
+ |
Gemini 2.5 Flash допустил ошибку в собственных суждениях, что мешает модели прийти к верному ответу. |
Итог оказался предсказуемым - Gemini 3 Flash превосходит своего предшественника, хотя в некоторых моментах все же есть одинаковые ошибки.
Можно ли сказать, что Gemini 2.5 Flash однозначно плох? Нет, конечно нет. Модель по-прежнему демонстрирует удовлетворительные результаты, хотя по качеству уже отстает от вариантой нынешнего времени.
Касательно того, где и какую модель лучше выбрать. Для текста и логики лучше подойдет Gemini 3 Flash, который хорошо показывает себя в этих направлениях. В остальных дисциплинах я бы не сказал, что возможности у моделей как-то сильно разняться.
Спасибо за прочтение!
Источник


