OpenAI Giới Thiệu ChatGPT GPT-4o: Trợ Lý Ảo Có Khả Năng Trò Chuyện Thời Gian Thực với Giọng Nói Tự Nhiên

Fviets

OpenAI đã công bố mô hình trí tuệ nhân tạo mới GPT-4o, biến ChatGPT thành một trợ lý cá nhân kỹ thuật số có khả năng tham gia vào cuộc trò chuyện thời gian thực với giọng nói tự nhiên. Ngoài ra, ChatGPT cũng có khả năng tương tác với văn bản và hình ảnh, học từ các cuộc trò chuyện trước đó và dịch ngôn ngữ thời gian thực. Cập nhật này đến trong bối cảnh sự cạnh tranh ngày càng tăng của các công ty trong lĩnh vực trí tuệ nhân tạo.

Ngày 13 tháng 5 năm 2024, OpenAI vừa công bố một mô hình trí tuệ nhân tạo mới nhất mang tên GPT-4o, có khả năng làm cho ChatGPT thông minh hơn và dễ sử dụng hơn. Mô hình mới này được cập nhật từ mô hình GPT-4 trước đó của công ty, được phát hành cách đây chưa đầy một năm. Theo công ty, mô hình này sẽ có sẵn cho người dùng không trả phí, nghĩa là bất kỳ ai cũng có thể truy cập vào công nghệ tiên tiến nhất của OpenAI thông qua ChatGPT.

Dựa trên cuộc trình diễn của công ty vào thứ Hai, GPT-4o sẽ biến ChatGPT thành một trợ lý cá nhân kỹ thuật số có thể tham gia vào cuộc trò chuyện thời gian thực bằng giọng nói. Nó cũng có thể tương tác bằng văn bản và "tầm nhìn", có nghĩa là nó có thể xem ảnh chụp màn hình, hình ảnh, tài liệu hoặc biểu đồ được tải lên bởi người dùng và thảo luận về chúng.

OpenAI đang đối mặt với áp lực mở rộng cơ sở người dùng của ChatGPT. CEO Sam Altman, như trên ảnh. AFP

Ngoài ra, phiên bản cập nhật của ChatGPT sẽ có khả năng ghi nhớ, có nghĩa là nó có thể học từ các cuộc trò chuyện trước đó với người dùng và có thể dịch ngôn ngữ thời gian thực.

Sự ra mắt này đến trong bối cảnh OpenAI đang cố gắng giữ vững vị thế dẫn đầu trong cuộc đua của công nghệ trí tuệ nhân tạo. Các đối thủ như Google và Meta đã làm việc để xây dựng các mô hình ngôn ngữ lớn mạnh mẽ ngày càng mạnh mẽ để cung cấp sức mạnh cho các chatbot và có thể được sử dụng để đưa công nghệ trí tuệ nhân tạo vào các sản phẩm khác nhau.

Sự kiện của OpenAI diễn ra một ngày trước Hội nghị phát triển hàng năm của Google, dự kiến sẽ công bố các cập nhật cho mô hình AI của mình là Gemini. Giống như GPT-4o mới, Gemini của Google cũng là đa phương tiện, có nghĩa là nó có thể hiểu và tạo ra văn bản, hình ảnh và âm thanh. Cập nhật của OpenAI cũng đến trước thông báo dự kiến về trí tuệ nhân tạo từ Apple tại Hội nghị Phát triển Toàn cầu của mình vào tháng sau, có thể bao gồm cách mới để tích hợp trí tuệ nhân tạo vào iPhone hoặc phiên bản iOS tiếp theo.

Đồng thời, bản phát hành GPT mới có thể là một lợi ích cho Microsoft, đã đầu tư hàng tỷ đô la vào OpenAI để nhúng công nghệ trí tuệ nhân tạo của nó vào các sản phẩm của Microsoft.

Giám đốc điều hành của OpenAI giới thiệu các cải tiến sản phẩm của công ty trên sân khấu và trong một buổi trình diễn trực tiếp vào thứ Hai. Các nhà lãnh đạo của OpenAI đã thể hiện một cuộc trò chuyện nói với ChatGPT để nhận hướng dẫn thời gian thực để giải quyết một vấn đề toán học, kể một câu chuyện trước giờ đi ngủ và nhận lời khuyên về lập trình. ChatGPT có thể nói bằng một giọng điệu tự nhiên, giống như giọng người, cũng như giọng robot - và thậm chí hát một phần trong một câu trả lời. Công cụ cũng có thể nhìn vào một hình ảnh của biểu đồ và thảo luận về nó.

CHẠY QUẢN CÁO JAVASCRIPT GOOGLE TẠI ĐÂY

Họ cũng đã cho thấy mô hình phát hiện cảm xúc của người dùng; trong một trường hợp, nó lắng nghe hơi thở của một nhân viên và khuyến khích anh ấy bình tĩnh xuống.

"Anh không phải là một chiếc máy hút bụi!" giọng nữ của ChatGPT (nghe rất giống với trợ lý kỹ thuật số được lồng tiếng bởi Scarlett Johansson trong bộ phim "Her" năm 2013) nói đùa với nhân viên.

ChatGPT cũng có thể trò chuyện bằng nhiều ngôn ngữ bằng cách dịch và trả lời tự động. Công cụ này hiện hỗ trợ hơn 50 ngôn ngữ, theo OpenAI.

"Chế độ âm thanh (và video) mới này là giao diện máy tính tốt nhất mà tôi đã sử dụng," CEO Sam Altman của OpenAI viết trong một bài đăng trên blog sau thông báo. "Cảm giác như trí tuệ nhân tạo trong các bộ phim; và đến giờ vẫn là một chút ngạc nhiên với tôi rằng nó là thật. Việc đạt được thời gian và sự phong phú cấp độ của phản hồi giống con người hóa hóa ra là một sự thay đổi lớn."

Murati cho biết OpenAI sẽ ra mắt một ứng dụng máy tính để bàn ChatGPT với các tính năng GPT-4o, mang lại cho người dùng một nền tảng khác để tương tác với công nghệ của công ty. GPT-4o cũng sẽ có sẵn cho các nhà phát triển muốn xây dựng chatbot tùy chỉnh của riêng họ từ cửa hàng GPT của OpenAI, một tính năng mà hiện cũng sẽ có sẵn cho người dùng không trả phí.

Công nghệ và tính năng cập nhật này được dự kiến sẽ được triển khai vào ChatGPT trong những tháng tới. Người dùng ChatGPT miễn phí sẽ có một số lượng giao tiếp hạn chế với mô hình GPT-4o mới trước khi công cụ tự động quay lại sử dụng mô hình GPT-3.5 cũ; người dùng trả phí sẽ có quyền truy cập vào một số lượng tin nhắn lớn hơn với mô hình mới nhất.

OpenAI cho biết hơn 100 triệu người đã sử dụng ChatGPT. Nhưng một trải nghiệm ChatGPT cập nhật - và khả năng tương tác với nó trên máy tính để bàn và thông qua các cuộc trò chuyện giọng nói được cải thiện - có thể làm cho thêm nhiều người sử dụng công nghệ của họ. Những bước đi này đến vào thời điểm tích hợp trí tuệ nhân tạo vào các sản phẩm tiêu dùng phổ biến hơn bởi Google và Meta, như Instagram và Google Assistant, có thể làm cho công nghệ của họ trở nên rộng lớn và dễ dàng tiếp cận hơn.

Hữu Thu

CHẠY QUẢN CÁO JAVASCRIPT GOOGLE TẠI ĐÂY