OpenAI представи нов инструмент за оценка на способностите на своите модели ChatGPT, наречен GDPval, който измерва колко добре ИИ се справя с „икономически ценни задачи от реалния свят“ в полето на 44 професии.
Целта е да се оцени потенциалът на моделите на базата на реални резултати, а не на догадки.
Според OpenAI „най-добрите съвременни модели вече се доближават до качеството на работа, извършвана от експерти в индустрията“.
Очертават се 44 професии, в които ИИ може да окаже най-голямо влияние върху продуктивността. Сред тях са тези на адвокати, фармацевти, частни детективи и служители в сферата на обслужването на клиенти. В изследването се дават конкретни примери за това как ИИ може да е полезен: финансовите анализатори могат да разчитат на него за анализ на конкурентната среда, медицинските сестри – за оценка на кожни лезии, а агентите по недвижими имоти – за създаване на маркетингови брошури.
В тестовете моделът Claude Opus 4.1 на Anthropic се представя най-добре, следван от GPT-5, който се отличава с точността си. По-мощната версия GPT-5-high достига резултати равни или по-добри от експертите в над 40% от задачите, докато GPT-4o - едва 13,7%.
OpenAI подчертава, че ИИ няма да замести изцяло човешкия труд, а ще подпомага хората в ежедневната им работа. Въпреки това, индустрията отдавна се стреми към автоматизация и намаляване на разходите, което поражда скептицизъм относно истинските цели на компаниите.
Въпреки впечатляващите резултати, ИИ инструментите все още имат проблеми – особено с халюцинациите и непредсказуемостта при по-дълги или комплексни задачи.
OpenAI признава, че „повечето работни места са нещо повече от сбор от добре дефинирани задачи“ и че ИИ засега е най-ефективен при повтарящи се и ясно специфицирани дейности, отбелязва Futurism.
Това се случи Dnes, за важното през деня ни последвайте и в Google News Showcase.
Европейските акции затвориха с ръстове в четвъртък
Л. Динев: Светът има нужда от сътрудничество между САЩ и Китай
Общи заявки и дългосрочни договори предлага България за Вертикалния газов коридор
„Уайзър“ удължава програмата за обратно изкупуване на акции с още три години
Анализатор: Печалбите от AI засенчват войната в Залива
SOFIX отчете минимален спад от 0,07% до 1260 пункта
Йотова: Истинската наука се прави тихо и далеч от прожекторите
Централна емисия
Централна емисия
Кокинов: ВСС е развял белия флаг, управляващите имат смазващо мнозинство
Величков, ПП: Без политически лица и влияние във ВСС
Мартин Димитров: Намесата в цените ще покачи инфлацията
ОФИЦИАЛНО: Карло Анчелоти ще води Бразилия още 4 години + ВИДЕО
"Мона Лиза" е зад "сините": Фланелката на Левски е в Лувъра!
А1 и MAX Sport предоставят безвъзмездно правата за излъчване на Диамантената лига в Шанхай с участието на Божидар Саръбоюков на bTV
Ботев Враца би минимално изпадналия Монтана
Италианец спечели шестия етап на Джирото
Секси блондинка заличи звезда на Арсенал + СНИМКИ
Домашни пуканки без излишни мазнини
Дневен хороскоп за 15 май, петък
Какво означава, ако видите черен кос?
Баница със зеленчуци "Пролетна спирала"
Магнезиев бисглицинат – сравнение с други форми на магнезий: Кой е подходящият избор?
УНИКА: Времето, спокойствието и здравето са най-ценните ресурси
Срещата с Тръмп даде на Си Дзинпин нещо, за което отдавна копнееше
Министър Ивкова: Онкологичният скрининг, като метод за вторична профилактика, е сред приоритетите ми
Ще поскъпнат ли самолетните билети в Европа заради кризата в Иран?
ЕС активно ще следи разпространението на хантавируса
Кой избива делфините в Черно море?
Българите са сред най-малкото пътуващи с влак в ЕС
Огромен астероид, способен да унищожи цял град, се приближава към Земята
Curiosity на НАСА засне скалата, заседнала в роботизираната му ръка
Една невероятна теория гласи: Други версии на вас може би вече влияят на живота ви
Вулкани може да са „заключили“ Земята в 56-милионна ледникова епоха
Китай наблюдава изкуствени човешки ембриони в космоса
Perseverance изпрати ново завладяващо селфи от Марс