OpenAI представила модель GPT-4, которая может понимать не только текст, но и изображения


Долгожданный инструмент, который может описывать изображения словами, знаменует собой огромный скачок вперед для возможностей искусственного интеллекта.

OpenAI во вторник представила новейшую версию своего лингвистического программного обеспечения GPT-4, продвинутого инструмента для анализа изображений и имитации человеческой речи, расширяя технические и этические границы быстро распространяющейся волны ИИ.

Предыдущий продукт OpenAI, ChatGPT, очаровал и обеспокоил общественность своей удивительной способностью генерировать изящную письменную речь, вызвав вирусную волну студенческих эссе, сценариев и разговоров - хотя он опирался на старое поколение технологий, которые не были передовыми уже более года.

GPT-4, напротив, представляет собой современную систему, способную создавать не только слова, но и описывать изображения в ответ на простые письменные команды человека. Например, когда человеку показывают фотографию боксерской перчатки, висящей над деревянными качелями с мячом на одной стороне, он может спросить, что произойдет, если перчатка упадет, и GPT-4 ответит, что она ударится о качели и заставит мяч взлететь вверх.

У публики был предварительный просмотр этого инструмента: Во вторник компания Microsoft объявила, что чатбот Bing AI, выпущенный в прошлом месяце, все это время использовал GPT-4.

Во вторник в своем блоге разработчики пообещали, что эта технология может еще больше революционизировать работу и жизнь. Но эти обещания также подогрели беспокойство по поводу того, как люди смогут конкурировать за рабочие места, переданные на аутсорсинг жутко совершенным машинам, или доверять точности того, что они видят в Интернете.

Представители лаборатории в Сан-Франциско заявили, что "мультимодальное" обучение GPT-4 с использованием текста и изображений позволит ему выйти за рамки чата и более полно имитировать мир цвета и образов, превосходя ChatGPT в "расширенных возможностях рассуждения". Человек мог бы загрузить изображение, а GPT-4 мог бы сделать для него подпись, описав объекты и сцену.

Компания откладывает выпуск функции описания изображений из-за опасений злоупотреблений, а версия GPT-4, доступная членам службы подписки OpenAI ChatGPT Plus, предлагает только текст.

Исследователь политики OpenAI сообщила, что компания придержала функцию, чтобы лучше понять потенциальные риски. В качестве примера она сказала, что модель может посмотреть на изображение большой группы людей и предложить известную информацию о них, включая их личности - возможный вариант использования функции распознавания лиц, который может быть использован для массовой слежки, планируется внедрить меры предосторожности для предотвращения распознавания частных лиц.



Размещено в разделе Новости

14.03.2023

Комментарии:


Dima
2023-03-23 07:05:21

Любопытно конечно, но мне пока и GPT 3.5 хватает, главное уметь пользоваться.