OpenAI наконец-то раскрыл все свои карты — позади конференция Spring Update, на которой были продемонстрированы последние улучшения ChatGPT и новая модель, GPT-4-o. Больше всего впечатляет возможность общаться в режиме реального времени и распознавание эмоций через объектив камеры — функция, которую Сэм Альтман назвал «волшебной».
В данной статье речь пойдет о:
Конференция OpenAI Spring Update
Каждая конференция технологических гигантов, таких как OpenAI, представляет собой важный момент для технологий и искусственного интеллекта. Новости от ведущих компаний в области искусственного интеллекта привлекают внимание профессионалов отрасли, исследователей и любителей технологий со всего мира. В этот раз на встрече под названием OpenAI Spring Update, которая состоялась 13 мая 2024 года в 20:00 по киевскому времени, компания сосредоточилась на демонстрации последних разработок и обновлений, связанных с ChatGPT. Одним из основных моментов стала презентация GPT-4o и новых возможностей ChatGPT.
Новая модель — GPT-4o
OpenAI представляет новую модель под названием GPT-4o, которая будет доступна всем, включая пользователей бесплатной версии ChatGPT. На демонстрации было показано приложение для Mac, включающее голосовой режим, который в настоящее время доступен только на мобильных устройствах. Новая функция будет выпущена в ближайшие несколько недель.
Технический директор OpenAI Мира Мурати, которая вела конференцию, отметила, что важной частью миссии компании является обеспечение свободного использования передовых инструментов ИИ, в том числе устранение необходимости регистрации в ChatGPT.
Живые беседы в ChatGPT
Одним из ключевых усовершенствований GPT-4o является функция обработки живой речи. Эта модель способна напрямую преобразовывать звуки в ответы, минуя этап транскрипции. Во время демонстрации этой технологии сотрудник OpenAI показал, как модель справляется с анализом дыхания собеседника. ChatGPT в режиме реального времени подсказывала, что нужно сделать, чтобы улучшить технику дыхания. Более того, модель позволяет прерывать собеседника во время разговора, обеспечивая динамичное живое взаимодействие.
Дальнейший эксперимент с этой функцией продемонстрировал возможность придания голосу ChatGPT различных характеристик. Во время тестов модель попросили рассказать историю, используя различные модуляции голоса: механическую, певучую и полную драматизма. Роботизированный тон чатбота вызвал особую реакцию аудитории.
ChatGPT сделает за вас домашнее задание
Новая способность GPT4-o «видеть» представляет собой значительный прогресс во взаимодействии между искусственным интеллектом и пользователями. Эта возможность позволяет программе видеть окружающую обстановку с помощью камеры телефона. Эта функция действительно кажется новаторской.
Во время демонстрации команда OpenAI использовала эту возможность, показав ChatGPT уравнение, написанное на листе бумаги. Вместо прямого ответа искусственный интеллект начал пошаговое обсуждение того, как решить задачу. Представитель компании разговаривал с ним так же естественно, как с коллегой.
В кульминационный момент демонстрации, когда камера еще была активна, ChatGPT заметил наряд ведущего и с восторгом выразил свое восхищение, сказав:
Вау, мне нравится ваш наряд!
Это еще не все — используя удивительно естественную манеру разговора, ChatGPT смог просмотреть написанный программный код и проанализировать его. Он также описывал то, что видел на графике, в том числе выявлял потенциальные проблемы.
Перевод чата в реальном времени
Во время демонстрации команда OpenAI показала новую функцию ChatGPT — инструмент живого перевода. Распознав предложения на итальянском языке, произнесенные Мирой Мурати, программа на лету перевела их на английский. Затем она мгновенно отвечала на вопросы, переводя ответы на английском обратно на итальянский. Эта инновация, несомненно, произведет революцию в сфере путешествий, облегчая межкультурное общение и устраняя языковые барьеры.
ChatGPT распознает эмоции
И, наконец, то, что, несомненно, напомнило фильм «Она» и умного голосового помощника, в которого влюбилась главная героиня. На конференции было показано, как GPT-4o распознает и называет эмоции, основываясь на наблюдении камеры за лицами. Во время конференции было показано улыбающееся лицо одного из представителей OpenAI (момент запечатлен на фото выше), на что искусственный интеллект ответил вопросом:
Не хотите ли вы поделиться причиной своего хорошего настроения?
Сам Альтман назвал технологию волшебной, что как нельзя лучше передает ее потенциал. Голосовой помощник, за работой которого мы смогли понаблюдать во время презентации, обещает произвести революцию во взаимодействии с ИИ, перейдя от традиционных текстовых методов общения к более прямым и интуитивным.
Как было объявлено, все новые функции будут постепенно внедряться в течение ближайших недель, открывая новую главу в том, как мы взаимодействуем с технологиями ИИ.