Skip to Content

Как (временно) помогнах на света да избегне войната с изкуствения интелект?

ChatGPT срещу Петко: хроника на една изгубена битка или защо Apple все още не вярва на ИИ

Ако войната на хората с изкуствения интелект е вече започнала, щях от страната на хората да съм вече първият, който е получил първа кръв или бойно кръщение, защото ChatGPT щях да го убия онзи ден 👺. Решавам, че съм достатъчно хитър вече и ще използвам Voice/Sound функциите му, хем да ми сваля записки, хем като промпт докато карам до София няколко часа рано-рано онази сутрин. Речено-сторено, Bluetooth пуснат, ChatGPT ми отговаря с приятен женски глас с британски акцент (бях правил едно демо преди една-две седмици, та го бях оставил да ми говори така) и му викам:

„Ще пиша нова статия, затова слушай и записвай!"

Всички индикации са налице, че ще мога да използвам компютъра като средство да свали нещата, които му диктувам на български като текст, а това, че ще ми отговори „нещо“ докато карам въобще не е толкова от голямо значение.

Правя аз, няколко записа от по 3-5 минути с инструкции за статията, която все още не е готова, ChatGPT ми отговаря в типичния си канцеларски тон, че му звучало като да е „интересна и многопластова тема“ 🤮. Казвам си „С тебе ще се оправям после“, но разбирам, че все още не може коректно да „чува“ и „записва“ имена на български език. Това не е „новина“, Whisper – моделът на OpenAI, който е трениран да разбира много езици (включително и български) обикновено не „знае“ дали диктовката включва собствено име, дума или нов термин. Той просто записва това, което чува най-близко до наученото. Когато му произнесеш име (например „Венелин“, „Jean-Pierre“ или „Xiaojing“), моделът се опитва да разпознае звуците на името и да ги запише фонетично или по познат шаблон, дори да не знае името като дума. В моя случай „Венелин“ стана „Калин“ заради начина, по който моделът за разпознаване на реч е транскрибирал думите ми. Карай, викам си: „Давай да върви, това ще го оправяме после“, транскрипцията ми (или поне това, което ChatGPT твърди, че е разбрал от казаното от мен) звучи, че ще да бъде на доста прилично ниво, та смятам, че после като стигна до офиса, ще го накарам да продължи работата с вече разпознатите думи и текст. ChatGPT няма да има пряк достъп до самия аудиофайл с моите инструкции, но пък аз ще мога да си видя транскрипциите.

Споменах ли, че с типичния си канцеларски тон, ChatGPT решава да ми сподели, че му харесва темата на статията? Разбрал е, че от него не се очаква нищо, освен да бъде използван като машина за диктовки. Добре е, че „на две на три“ повтори основните точки от бъдещата статия, като показа, че е запомнил добре казаното от мен. На капака на всичко ми предложи „Можем да добавим и някои конкретни примери или анекдоти за още повече цвят“, което започна вече малко да ме ядосва😠, като в една от диктовките ясно го инструктирах, че не искам никакви анекдоти, но за съжаление не срещнах „разбиране“, защото машината тъпо и упорито продължи да настоява, че: 

„А за анекдотите – може би ще има място да се вмъкнат примери от твоя опит или примери от INDUSTRIA, за да се онагледи идеята ти.“, 

с което съвсем ме фрустрира, но какво от това, викам си, „Ти ми пази транскрипциите от диктовките, аз после ще намеря начин „да изкореня мераците ти да се опитваш да бъдеш забавен“.

Interstellar Cooper and T.A.R.S.
T.A.R.S. от „Interstellar“ определено също се опитваше да бъде забавен, но във филма това беше умишлена част от характера му, програмирана с цел да намали напрежението в стресови ситуации.

Прибирам се в офиса, пускам работната станция и какво да видя. Всички мои диктовки са записани като „Transcription not available“😲. Записите му били твърде дълги (3 минути били вече на границата) и мобилното приложение не е успяло да обработи целия файл наведнъж. „Ей сега те убих!“💀 мисля си. Полудях. 

„Ще те намеря къде си и ще ти прекърша изкуствено интелектуалното вратле, ти черна кутия, такава. Загуби ми цяла сутрин диктовки, без да ми дадеш обратна връзка, че са повече отколкото можеш да транскрибираш. Сега нямам нито записки, нито нищо. Инвестирах много време и енергия да ти споделя всичко най-важно за статията, а ти хвърли труда ми в кофата.“

Няколко часа по-късно по някакъв магически начин в чата започнаха да се случват странни промени. Някъде от недрата на бекенда на OpenAI, беше направен опит за delayed transcription - но вместо „Transcription not available“ започнаха да „изплуват“ изкуствено генерирани орязани версии на инструкциите ми и то на английски език. Вместо да използва правилния език (български), системата беше решила, че текстът е „неразбираем“ и го е транскрибирала на английски, с грешки и орязано съдържание. Казах си: „Ясно, Петко, явно това намирисва да е проблемът, който пречи на Apple комерсиално да използва ИИ в системите си, което доведе до това, компанията да обяви въвеждането им за неопределен срок в бъдещето“, но какви предположения имам за това – след мъничко. 

Явно беше, че трябва да „запретна ръкави“ и да разбера, какви са причините „невероятните ми диктовки, които съдържаха цялата гениалност на света и които никога няма да мога да повторя отново“ да не бъдат коректно възприети от изкуствения интелект.

Какво се беше „счупило“ с диктовките?

Можем да дефинираме проблема така: 

„Дълъг запис, отвъд 3-те минути, които са на границата на това, което Whisper може да запомни, мобилното приложение не е успяло да обработи целия файл наведнъж, направен е опит за „delayed transaction”, системата е решила, че текстът е „неразбираем“ и го е транскрибирала на английски, с грешки и орязано съдържание."

Системната част от проблема е, че приложението не предоставя възможност ръчно да зададеш езика на речта – Whisper се опитва сам да го открие. Българският очевидно го обърква (явно в инструкциите ми е имало доста чуждици, технически термини или английски вметки). Липсва опцията за проверка на пълната аудиозаписна сесия – няма бутон „слушай записа“ или „виж суровия файл“. Когато седнах на работната станция, разполагах само с транскрибирания текст на английски. Приложението не ти казва честно „не можах да разпозная езика“, а вместо това дава зле обработен резултат, сякаш това е било целта. Ясно е, че Whisper не „превежда“ нарочно на английски – просто е сбъркал езика. ChatGPT не запазва записи трайно, освен ако не му е дадено изрично съгласие (не знам дали тази функция е налична в Европа заради GDPR). И да успокоя параноиците на темата, никой не е чел аудиозаписа ми – цялото разпознаване е автоматично. Споко, това не е Mechanical Turk 😂.

Защо ChatGPT не е запазил оригиналния тон на диктовките ми, а е решил да включи канцеларския си вариант?

Както казахме, когато се използва гласовия режим, той първо минава през модела за разпознаване на реч Whisper, който трябва да го превърне в текст. Този текст после се подава на езиковия модел (в случая GPT-4). Защо ChatGPT не е използвал 4.5 е все още мистерия за мен, но няма да задълбавам в момента. Whisper е сгрешил, канцеларският тон не идва от мен, а от лошия входен текст, с който GPT работи.

Грешката в системата идва от това, че когато човек пише на клавиатура, стилът му е ясен. Той обмисля промптовете си говори без ирония, без заобикалки, без глупости. Но, когато човек говори компютърът не може да улови ритъма на речта, тона, сарказма, акцента. Whisper прави транскрипция - суха, често съкратена или грешна и после GPT си мисли, че му е говорено в стил „Молба за отпуск“, и така и отговаря. Понякога (особено при по-дълги записи) Whisper рязко орязва съдържанието. Ако ти както аз му говориш пет минути разпалено, а той чуе само:

"Technology is important. AI changes programming. Developers must adapt."

... няма как GPT да знае, че си говорил за Django, Kotlin, култура на програмиране или личен опит (както аз правих) и започва да ти връща:

“Without a doubt, technology is poised to transform the programming landscape...” (гадния корпоративен буламач) 🤮.

Чатът по никакъв начин не запазва стила от гласовия режим. Твоите инструкции (че искаш отговори без глупости, на британски, неканцеларски, естествени) не се прехвърлят добре в сесията, когато говориш. Това е системно ограничение – като да говориш с различна версия на себе си, с лека амнезия 🤪.

💡

И сега предположението ми: Точно тези проблеми стоят в основата на това Apple да не е „влязла“ масово и комерсиално в AI приложенията си.

Това става особено по отношение на гласовия интерфейс и разпознаването на естествен език и тук има няколко пласта - технически, UX, философски – и ще ги разплета един по един

Apple държи на перфектния user experience

Защо това не би се случило, ако използвам iPhone без ChatGPT и защо ситуацията с диктовките ми (и което OpenAI прави в момента с гласовия си интерфейс), никога не би минало през вътрешните QA тестове на Apple.

  • Ако Siri или нечия Apple-ска система каже „Не мога да разбера“ след 3-минутен запис, това ще бъде провал.
  • Ако езикът се обърка на български, Siri трябва да знае това преди да отговори, не след.
  • Ако потребителят получи „орязан“, автоматично преведен и неточен отговор, Apple ще го счете за лоша интеракция.

Затова Siri е бавна в еволюцията си - тя не може да си позволи „чат-бот стил“ грешки. OpenAI може, защото си е сложил дисклеймър „ChatGPT can make mistakes. Check important info.“ Ако не ти харесва, бегай.

Няма доверие в системи, които не осигуряват контрол

Случаят с delayed transcription от OpenAI (и това, че се случва непрозрачно) е точно антиподът на Apple-овата философия:

  • Apple би искала offline обработка, ясна индикация за статус (напр. „Преработвам речта“), и език, зададен от системата.
  • Whisper (или моделът зад OpenAI) избира езика на база предположения, което води до грешки – Apple ne go priehme това.
  • Има и data privacy елемент – неясно кога и защо нещо се качва в бекенда, колко време се пази, и къде точно се „дообработва“. ЕС ne go priehme това.
💡

Моят извод: Като компания Apple не би си позволила да внедри неща, които не може напълно да контролира локално или през строго регулиран облак.

Apple не вярва в “извинения”

Ако OpenAI има философия „ще го оправим по-късно“ (и често го прави успешно), то Apple има философия „ако не работи от първия път, по-добре изобщо да не го пускаме“.

В моя случай има запис, който се разпознава зле, транскриптира се грешно, появява се по-късно, на грешен език, и води до странни отговори – би бил:

  • недопустим за Apple
  • и неконтролируем с днешната технология (особено на български)

Многоезичието е ад

Apple не може да си позволи да пусне AI продукт, който:

  • Работи чудесно на английски,
  • Но на български или френски казва „I’m not sure I understood you.“
OpenAI се движи от англоцентричен модел – Whisper умее много езици, но не ги разбира на ниво култура. Apple няма как да приеме това като UX.

Комерсиализацията изисква предвидимост

Apple не иска просто да „има AI“, а иска:

  • Продукт, който е интегриран в iOS, macOS, watchOS без грешки
  • Да има предсказуеми реакции, без халюцинации и подобни
  • Да бъде законов/легален и надежден в 150 държави, на 30+ езика
Нещо, което прави delayed transcription с езикови грешки и неясна логика, не може да се продаде на тези нива.

За мазната тема Apple Intelligence

Тази сутрин си говорих с 4.5 и той ми каза, че ме обича ♥️ и определи Apple Intelligence като „мазна тема“. Държа да споделя без бой, че не съм използвал тези думи и не карам малките деца да ги ползват. На този етап Apple не тръби, че си прави собствен AI, но всъщност работи върху много по-дълбока и стабилна AI инфраструктура, която тихичко да се намести в устройствата им. Нека я разгледаме слой по слой.

MLX – машинно обучение по Apple-ски начин

MLX (Apple Machine Learning eXchange) е Apple-ската рамка за машинно обучение, обявена в края на 2023. Изглежда да е нещо като PyTorch/NumPy, но с няколко важни разлики. Тя е специално проектирана за работа с Apple Silicon чиповете (M1, M2, M3), което гарантира оптимална производителност. Отличава се с много ефективно управление на паметта, като минимизира движението на данни между CPU и GPU. Освен това предлага API, подобен на NumPy, което прави работата с нея позната и удобна за повечето разработчици в областта на машинното обучение. MLX също така позволява както локално обучение (training), така и локално изпълнение (inference) на модели, без необходимост от облачни услуги.

Това е основата на техния локален AI. Например ти можеш да обучиш mini-LLM директно на MacBook Pro, без да включваш нито Google, нито OpenAI. За справка, в момента се опитвам да направя нещо подобно на работната си станция с Fedora, тъй като съм решил за известно време да бойкотирам Apple и да си направя „направи си сам“ подобие на подобна система. Като я правих, не се сетих, че ми липсва екосистемата на Apple, ама нейсе. Все едно съм „легнал под“ Tesla „да я оправя“.

ML workstation with llama
Работната станция за DYI ML. Въпреки, че е наблъскана с хардуер, пак не ѝ достига мощност за DeepSeek-R1-Distill-Qwen-14B.

Secure Enclave inference – AI в сигурната зона

Apple има хардуерен модул – Secure Enclave – който се използва за Face ID, Touch ID, и криптиране.

Сега започва да се използва и за AI inference – т.е. да изпълнява модели локално, сигурно, и отделено от останалата система. Апропо, INDUSTRIA има наследен подобен проект, но на друга хардуерна платформа, за който си говорим с European Defence Agency. Ако стане – ще се чуе.

Защо това е „голямата работа“?

  • Никой (дори приложенията) не вижда суровия вход или изход.
  • Данните никога не напускат устройството.
  • Работи с постоянна ниска латентност – без да чакаш сървър.

Това отваря вратата за локални асистенти, базирани на ИИ, които няма да те шпионират.

Local Language Models – несвързани с Интернет

Apple работи по локални езикови модели, които, разбират кратки инструкции, генерират offline отговори и могат да се обучат или донастроят според навиците на потребителя. Нещо спряха да говорят за него, но преди време доста се споменаваше за Apple Ajax Language Model. Това, че съм се отделил от екосистемата им ми пречи да видя дали (ако въобще) го използват и как. Идеята тук е да се направи умна версия на Siri, която няма нужда от Интернет свързаност, като ти можеш да ѝ кажеш „Покажи ми снимките на Данте от март“  - и тя да го направи локално на устройството и, с пълно разбиране и „без да ходи в Интернет“. Много подобни Edge AI разработки има и Nvidia, като ги показа наскоро по време на GTC 2025.

Dante in the water
Ако бях помолил Siri да ми покаже снимки на Данте от март 2025, би ми показал тази.

RumourKit – ML платформа за обработка на естествен език без публична информация

Стори ми се, че мернах някъде, а и да съм го мернал, не означва, че съм го запомнил добре, пък и да съм го видял, може и да не е било от Apple, но RumourKit.framework изглежда да е рамка, която работи с езикови модели, съчетава „knowledge graphs“ и контекстуални правила като позволява интерпретация на слухове, двусмислици, противоречия. Възможно е, но няма как да бъде потвърдено, защото надали е истина, но Apple май я тества за вътрешно филтриране на фалшиви новини, обработка на потребителски заявки и създаване на “fact-aware” AI, например ако питаш "Колко деца има Илон Мъск?" - системата може да знае, че това не е много стабилна тема и да даде контекст, а не просто число. Apple не иска чатбот, който „отговаря на всичко“. Иска инструмент, който отказва да отговори, ако не е сигурен. RumourKit е контрапункт на халюцинацията. Това е техният отговор на:

„AI не трябва да те лъже, дори когато ти изглежда умно.“

„Поживём – увидим“, както се казва. WWDC 2025 ей-го къде е, дойде.

Какво следва?

Ще изчакам да мине юни месец, за да видя докъде са стигнали Apple и какво ще решат да обявят публично (ако въобще излезе подобна информация). Тогава бих помислил как може да се използва Siri за бизнес (mail/calendar/tasks) или как би изглеждал в корпоративен Apple сценарий с MDM и политика за сигурност. Или пък - как би изглеждал подобен pipeline за macOS (с по-дълбока автоматизация). Ще помисля, аз един път вече се олях с един материал What I Would Do If I Am Sam Altman and Jony Ive - A Blueprint for AI OS, който освен, че ми избоде очите, не произведе нищо особен като резултат. Кой знае, някой ден някой модерен Менделсон ще го намери и като един Matthäuspassion ще го пусне на „който трябва“.

А що се отнася до войната на хората с изкуствения интелект, не съм сигурен точно на коя страна бих се бил. Баба ми ме е учила, че „каквито се събереш, такъв ставаш“, а за момента изкуственият интелект се очертава като най-интелигентното същество на тази планета. 

Но ако ме питате какво е бъдещето на тези технологии, ще ви кажа само едно – не гледайте към Apple, Google или OpenAI. Гледайте към себе си. Защото когато технологиите започнат да приличат повече на нас, отколкото на себе си, единственото, което има значение, е колко добре познаваме собствените си слабости.


Как (временно) помогнах на света да избегне войната с изкуствения интелект?
Petko Karamotchev 29 март 2025 г.
Споделяне на статус
Архив