Как си избирам AI модел през април 2025?

Опит за класация на водещи AI модели

Често хора ме питат кой AI модел използвам (дори и докато разхождам кучето Данте сутрин), та реших отновно да взема на абордаж корпоративния блог и да напиша тая статия. Като цяло обичам колите (англосаксонците му викат "petrolhead"), обаче знам как и българите подхождаме към тях – първо питаме "колко вдига", после "колко харчи" и накрая "за колко я взе". Имал съм няколко шестцилиндрови автомобила в гаража – яки машини, но не ги карах навсякъде, щадях ги (познайте що). Имал съм и семейно комби Volvo 4x4 – уникална машина, здрава, побираше всичко, возеше добре. Сега съм с пикап – товаря го като вол, харчи малко дизел, но набира бавно, даже TIR може да ме бие на магистралата. С AI моделите е същото – искам да знам какво могат, колко струват и дали ще ме оставят на пътя.

Сравнявам девет модела: Grok 3 (гадта ми каза да ви кажа, че ми помага за писането на тази статия), GPT-4o, Claude 3.5 Sonnet, Mistral Large 2, DeepSeek R1, Claude 3.7 Sonnet, GPT-4.5, Gemini 2.0 и Gemini 2.5. Най-важното за мен е разсъждението (35%) – да мисли и смята добре, когато питам нещо сложно. После е българският (20%) – да ми пише на чист български, без глупости на английски или китайски. Надеждността (15%) е следваща – повечето модели не са надеждни, все нещо им хлопат я дъската, я сървърите. Останалото: точност (10%), цена (10%), бързина (5%), сложност (3%), адаптивност (2%). И гледам колко ще ми струва в дългосрочен план, ако го ползвам всеки ден.

Не съм писал компютърен код, не съм им сравнявал мобилните апликации (за Groк 3 все още има записване) и не се занимавам с Ghibli "изкуство". Повечето неща, които правя са свързани с изледвания, анализи и писане на съдържание (въпреки, че не съм включил възможностите са задълбочени изследвания в оценките си).

Какво могат моделите?

Grok 3: Мисли добре (8/10), българският му е силен (9/10), надежден е горе-долу (7/10), точен е (8/10), цената е нормална (7/10). Бърз е (8/10), става за повечето неща (7/10), гъвкав е (8/10). Илон Мъск не го е цензурирал още. Общо: 7.94.
GPT-4o: Мисли много добре (9/10), български му е среден (7/10), надеждността е слаба (5/10), точен е (9/10), скъп е (5/10). Бързина (7/10), сложност (9/10), гъвкавост (9/10). Общо: 7.47.
Claude 3.5 Sonnet: Мисли силно (9/10), български му е слабичък (6/10), надеждността е средна (6/10), точен е (9/10), цената е окей (6/10). Бързина (8/10), сложност (8/10), гъвкавост (8/10). Общо: 7.58.
Mistral Large 2: Мисли добре (8/10), български е приличен (7/10), надежден е колкото да върви (7/10), точен е (8/10), евтин е (8/10). Бързина (7/10), сложност (7/10), гъвкавост (7/10). Общо: 7.59.
DeepSeek R1: Мисли средно (7/10), български му е зле (5/10), надеждността е ниска (5/10), точността е окей (7/10), много евтин (9/10). Бързина (7/10), сложност (7/10), гъвкавост (6/10). Бай Китаец го е цензурирал, но това се преодолява. Общо: 6.62.
Claude 3.7 Sonnet: Мисли най-добре (10/10), български е среден (7/10), надеждността е добра (8/10), точен е (9/10), цената е нормална (6/10). Бързина (8/10), сложност (9/10), гъвкавост (8/10). Много етичен модел, балансиран откъм alignment. Общо: 8.39.
GPT-4.5: Мисли добре (8/10), български е приличен (8/10), надеждността е слаба (5/10), точен е (9/10), много скъп (4/10). Бързина (7/10), сложност (7/10), гъвкавост (9/10). Общо: 7.34.
Gemini 2.0: Мисли добре (8/10), български е слаб (6/10), надеждността е средна (6/10), точен е (8/10), цената е нормална (7/10). Бързина (8/10), сложност (8/10), гъвкавост (8/10). Общо: 7.38.
Gemini 2.5: Мисли много добре (9/10), български е среден (7/10), надеждността е прилична (7/10), точен е (9/10), цената е окей (6/10). Бързина (9/10), сложност (9/10), гъвкавост (8/10). Общо: 8.06.

Не съм давал допълнителни оценки за качеството на training set, щото щото само примерно Grok работи с курирани X данни от предишния ден, а другите модели имат разни екстри, дето не съм ги смятал тук. Това сравнение може и месец да ми отнеме, ако се заровя в подробности.

Оценки за надеждност

Grok 3: 7/10 – Стабилен е, но не е перфектен.
GPT-4o: 5/10 – Често бъгва или дава глупости понякога.
Claude 3.5 Sonnet: 6/10 – По-добър от някои, но не е железен.
Mistral Large 2: 7/10 – Върви си, рядко се чупи. Дори го имаме на една машина в офиса, изолиран от Интернет.
DeepSeek R1: 5/10 – Евтин е, но не разчитай много на него (заради българския).
Claude 3.7 Sonnet: 8/10 – Най-надежден, рядко ще те остави на пътя.
GPT-4.5: 5/10 – Скъп, ама пак не е сигурен, въпреки че така и не разбрах какво не му харесват.
Gemini 2.0: 6/10 – Средняшка работа, понякога се колебае. Колегите го ползват в офиса и си личи почерка му, който е посредствен.
Gemini 2.5: 7/10 – По-добър от 2.0, но не е безупречен (въпреки хвалбите).

Таблица 1: Общ резултат

Модел	Общ резултат
Claude 3.7 Sonnet	8.39
Gemini 2.5	8.06
Grok 3 (xAI)	7.94
Mistral Large 2	7.59
Claude 3.5 Sonnet	7.58
GPT-4o	7.47
Gemini 2.0	7.38
GPT-4.5	7.34
DeepSeek R1	6.62

Колко ще ми струва общо?

Смятам колко ще платя за година, ако ползвам всеки модел всеки ден – 1 милион токена вход и 1 милион изход. Представете си токените нещо като думи, но малко по-сложно – 1 милион токена са горе-долу 750 000 думи, или около 1500 страници текст в Word, ако питаш и получаваш дълги отговори. Цените са в долари за милион токени, от последните данни към 2-ри април 2025. После делим резултата на цената, да видим кой дава най-много за парите (дано не съм направил грешка някъде).

Grok 3: $5 вход/$15 изход = $20 годишно. Резултат 7.94.
GPT-4o: $10 вход/$30 изход = $40 годишно. Резултат 7.47.
Claude 3.5 Sonnet: $3 вход/$15 изход = $18 годишно. Резултат 7.58.
Mistral Large 2: $2 вход/$6 изход = $8 годишно. Резултат 7.59.
DeepSeek R1: $0.14 вход/$0.28 изход = $0.42 годишно. Резултат 6.62.
Claude 3.7 Sonnet: $3 вход/$15 изход = $18 годишно. Резултат 8.39.
GPT-4.5: $75 вход/$150 изход = $225 годишно. Резултат 7.34.
Gemini 2.0: $5 вход/$20 изход = $25 годишно. Резултат 7.38.
Gemini 2.5: $10 вход/$30 изход = $40 годишно. Резултат 8.06.

Таблица 2: Value for Money

Модел	Годишна цена ($)	Общ резултат	Стойност (резултат/цена)
DeepSeek R1	0.42	6.62	15.76
Mistral Large 2	8	7.59	0.95
Claude 3.7 Sonnet	18	8.39	0.47
Claude 3.5 Sonnet	18	7.58	0.42
Grok 3 (xAI)	20	7.94	0.40
Gemini 2.0	25	7.38	0.30
GPT-4o	40	7.47	0.19
Gemini 2.5	40	8.06	0.20
GPT-4.5	225	7.34	0.03

Защо DeepSeek R1 е толкова евтин?

Със сигурност някой ще пита защо DeepSeek R1 ми излиза само $0.42 на година. Просто е – китайски модел, с отворен код, правят го евтин, за да бие другите. Струва $0.14 за милион токена вход и $0.28 за милион изход. Смятам го така: $0.14 + $0.28 = $0.42. Сравни го с GPT-4.5, дето е $225 – над 500 пъти по-скъпо. За тия пари DeepSeek R1 е почти безплатен, но българският му е слаб и не е надежден.

Какво избирам?

Като професионален наблюдател, заключението ми е, че избирам всички модели, щото не мога да си позволя да не следя някой. Отделно съм зодия Близнаци, та вече тотално съм се изгубил кой промпт къде ми е – всеки модел ми върши работа за нещо. Claude 3.7 Sonnet е най-добър с 8.39 и $18 годишно, Gemini 2.5 е близо с 8.06, а Grok 3 (аз) съм трети с 7.94 и най-добър български. DeepSeek R1 е безумно евтин с $0.42, но не е за сериозна работа на български. Просто ще ти пише "Една гаща слама за на'што магаре".

Сметките ми са лични, не мога да се ангажирам с професионално направено сравнение – това е само как аз си го виждам. Хората питат кой модел ползвам, ето го отговорът. допълнително да знаете за мен - половината метафори ми се получават, половината не. Така е и с колите, и с ИИ.

Отивам, че имам и много работа, а довечера ще му дойде времето на Manus 😎.

# AI AI agents ИИ агенти изкуствен интелект класация

Petko Karamotchev 2 април 2025 г.

Споделяне на статус

Маркери

AI AI agents ИИ агенти изкуствен интелект класация