BGONAIR Live

Защо AI смята, че Крим е руски и може ли да се направи нещо по въпроса

Най-лесното би било просто да обвиним AI в халюцинации

EPA/БГНЕС

EPA/БГНЕС

Не толкова отдавна Anthropic, един от лидерите на световния пазар на изкуствен интелект и създателят на Claude, публикува най-голямото си проучване за това какво хората очакват от изкуствения интелект. То се основава на 80 хиляди разговора в 159 държави, като централен елемент е карта на света.

Един детайл привлече вниманието на инженера Иван Доброволски, беше, че AI картата показва Украйна без Крим.

Сред респондентите в анкетата са много украински гласове. Например, един войник каза, че в най-трудните моменти от службата си именно неговите "приятели с изкуствен интелект“ са му помогнали да не се откаже. Друг човек от бойна зона пише, че учи с изкуствен интелект през нощта, защото не може да спи поради постоянните обстрели.

Техните истории бяха поставени до карта, показваща, че част от украинската земя принадлежи на Русия.

И можете да видите този проблем не само с Anthropic.

Иван работи в Силициевата долина, където всеки ден създава продукти с изкуствен интелект. Преди няколко месеца му е потрябвала интерактивна карта на Европа. Това е сравнително проста задача, която изисква само няколко реда код или едно изречение в инструмент за генериране на код като Claude.

Като инженер Иван се интересува от мащабируемост, най-добри практики и оптимизация на кода, но като украинец винаги проверява дали украинският суверенитет е представен правилно и виждането на Украйна без Крим беше повратна точка за мен.

"Повторих задачата с ChatGPT, след това с Gemini и, разбира се, резултатът беше един и същ: всички LLM програми показваха Крим под руски цветове", казва Иван в есето си, публикувано в Kyiv independent.

Халюцинация или нещо повече?

Най-лесното би било просто да обвиним изкуствения интелект за халюцинациите, което е често срещан проблем в LLM поради вероятностния им характер. Но не можех да не се запитам защо и трите най-популярни ИИ показват Крим като руски по подразбиране, докато целият свят осъжда анексирането на Крим?

Иван прекарва следващите няколко месеца в проучване на мащаба на това инфраструктурно "замърсяване“ в 16 ИИ модела (от ChatGPT до xAI) на всички нива, включително мащабни анализи на данни за обучение, дисперсия на отговорите на ИИ и търсене в мрежата.

За да се категоризират тези нива на поведение на ИИ в карти и научни източници, Иван да проучва как Русия е успяла да "зарази“ корена на цялата система с пропаганда – дигиталната инфраструктура, която се превръща в данни за обучение за всички съвременни ИИ системи.

Всичко започва с география и метаданни

Когато моделът на изкуствен интелект генерира карта, той извлича данни от Natural Earth, най-голямата отворена геобаза данни, която е в основата на почти всички картографски услуги. Там Крим автоматично се маркира като SOVEREIGNTT="Russia". Иван намира правилния украински код ISO 3166-2 UA-43 в съседния ред. Страница с правилата на Natural Earth (обяснява подхода "de facto“): Политика за спорни граници.

Четирите най-популярни пакета за цифрови карти, които работят само с данните му, се изтеглят повече от 20 милиона пъти седмично. Те служат като основа за софтуерни пакети (подобни на части от "Лего“), които програмистите добавят към продуктите си, за да не се налага да пишат всичко от нулата.

Например, вместо да отделя месеци за разработване на собствена карта, програмистът използва готова такава от даден пакет. Съществуват над 7000 пакета, зависещи от D3, около 7500 – от ECharts, и над 1000 – от Leaflet. Поради това параметърът SOVEREIGNT="Russia" автоматично се разпространява в цялата екосистема.

Можете да проверите това само за пет минути. Например, след неутрална заявка от типа "създай табло за управление“ (dashboard), както Lovable, така и Claude Code автоматично използваха архитектурата на Natural Earth. И двата инструмента причислиха Крим към Русия и включиха населението му в руската статистика.

Наборите от данни за обучение са силно замърсени

Географските данни са само върхът на айсберга. Под тях се крият огромни масиви от текстове, използвани за обучение на големи езикови модели (LLM). Един от най-известните набори от данни е C4 на Google, който е използван за обучението на почти всички ранни езикови модели и продължава да се прилага при съвременни системи с изкуствен интелект, като например LLaMA.

Поради това в необработената база данни попадат твърдения от типа "руски Крим“ - информация, която изкуственият интелект възприема като факт, "заразявайки“ по този начин цялата система.

Иван създава специализиран филтър за откриване на конкретни данни и го прилага към всички 34,1 милиона документа от C4 (в сегментите на украински, руски и английски език), в които се споменава полуостровът. В близо 900 хиляди случая (2,61%) се установява връзка с руски адреси, като например "Република Крим“ или "Симферопол, Руска федерация“.

Изглежда, че санкциите би трябвало да премахнат това явление. Въпреки това, държавните медии и сайтовете, действащи като техни проксита, съставляват едва до 5% от трафика. Останалите 95,3% са ежедневни уеб услуги: университетски регистри, хотели, банкови справочници, прогнози за времето и т.н. Санкциите не могат да блокират прогнозите за времето.

Какво може да се направи?

Според Европейската служба за външна дейност, през 2025 г. изкуственият интелект е бил използван в 27% от регистрираните случаи на дезинформация, а руските мрежи Portal Kombat и Pravda (според DFRLab) целенасочено "захранват“ изкуствения интелект с фалшиви материали от Уикипедия от години, за да избегнат санкции и да достигнат до западна аудитория.

Изискванията за прозрачност в Закона на ЕС за изкуствения интелект са първа стъпка към легитимиране на ролята на изкуствения интелект в обществото.

Коренът на "вируса“ обаче се крие в самата инфраструктура. В продължение на години Русия заразява интернет, където може да достигне, а разработчиците го копират в софтуера си.

Примерът с Крим разкрива слабостта на съществуващите протоколи за безопасност на изкуствения интелект. За да се възстанови пълният украински суверенитет в дигиталната инфраструктура, спазването на международното право трябва да се прилага стриктно за сътрудниците с отворен код, които публикуват бази данни с геоданни и пакети с карти, академичните издатели, които приемат статии, без да проверяват твърденията за суверенитет, и лабораториите за изкуствен интелект, които трябва да отговарят за филтрирането на учебните корпуси, преди да ги подадат на алгоритъма за машинно обучение, който "запича“ дезинформацията в своите тегла.

 

Това се случи Dnes, за важното през деня ни последвайте и в Google News Showcase.
Новини
Войната в Украйна
Водещи
Последни новини
Четени
Най-четени за седмицата