Thứ Năm ngày 22 tháng 5 năm 2025

Google I/O 2025: Các ứng dụng AI từ nghiên cứu đến hiện thực hóa giúp cải thiện cuộc sống

Hội nghị các nhà lập trình thường niên Google I/O 2025 đã được Google tổ chức trong hai ngày 20 và 21-5-2025 (theo giờ Mỹ) tại trụ sở ở Mountain View (bang California, Mỹ). Sự kiện lớn nhất trong năm của Google này mang đến những thông tin cập nhật quan trọng về các sản phẩm và công nghệ của Google, đặc biệt là những tiến bộ vượt trội của Gemini trong kỷ nguyên trí tuệ nhân tạo.

Ông Sundar Pichai, CEO Google và Alphabet, ngày 20-5-2025 đã có bài keynote tại sự kiện Google I/O 2025 với tựa đề: “Google I/O 2025: From research to reality” (Google I/O 2025: Từ nghiên cứu đến hiện thực). Với sự hỗ trợ từ agency truyền thông của Google tại Việt Nam, Tech.MediaOnline xin chia sẻ với bạn đọc bản biên tập lại bài phát biểu của ông Sundar Pichai tại Google I/O 2025, được điều chỉnh để bao quát đầy đủ hơn các thông tin được công bố tại sự kiện

Ông Sundar Pichai, CEO Google và Alphabet, phát biểu tại Google I/O 2025.

Thông thường, chúng tôi không tiết lộ nhiều thông tin vào những tuần trước I/O, bởi lẽ chúng tôi muốn để dành thông tin về những mô hình tiên tiến nhất công bố ngay tại sự kiện. Thế nhưng, trong kỷ nguyên Gemini này, chúng tôi đã ra mắt mô hình thông minh nhất vào một ngày thứ Ba của tháng 3-2025, và một đột phá thực sự ấn tượng như AlphaEvolve chỉ một tuần trước sự kiện.

Mục tiêu của chúng tôi là nhanh chóng mang đến những mô hình tốt nhất để bạn trải nghiệm và tích hợp vào các sản phẩm của mình; vì vậy, chúng tôi đang đẩy nhanh tốc độ triển khai hơn bao giờ hết.

Không ngừng cải tiến mô hình

Tôi thực sự phấn khích về tiến trình phát triển nhanh chóng của mô hình. Điểm Elo, thước đo tiến trình, đã tăng hơn 300 điểm kể từ thế hệ đầu tiên của mô hình Gemini Pro. Ngày hôm nay, Gemini 2.5 Pro đã bứt phá bảng xếp hạng LMArena ở mọi hạng mục.

Sự tiến bộ của mô hình được thúc đẩy nhờ vào cơ sở hạ tầng hàng đầu thế giới của chúng tôi. TPU thế hệ thứ bảy, Ironwood, là sản phẩm đầu tiên được thiết kế chuyên biệt để xử lý các tác vụ AI suy luận (inferential AI) và tư duy ở quy mô lớn, mang lại hiệu năng gấp 10 lần so với thế hệ trước và đạt khả năng tính toán 42,5 exaflops đáng kinh ngạc trên mỗi cụm vi xử lý (pod) – thật tuyệt vời.

Chính sức mạnh của cơ sở hạ tầng, đặc biệt là các TPU, giúp chúng tôi có thể mang đến những mô hình vượt trội về tốc độ, ngay cả khi chi phí mô hình đã giảm đi đáng kể. Chúng tôi đã nỗ lực không ngừng để có thể cung cấp các mô hình tốt nhất với mức giá tối ưu nhất. Hiện tại, Google không chỉ ở vị trí tiên phong trên Biểu đồ Pareto Frontier mà còn đang mở rộng ranh giới đó.

Thế giới đang đón nhận AI

Ngày càng nhiều mô hình trí tuệ nhân tạo (AI) đang phổ biến hơn cho mọi người, ở mọi nơi; và thế giới cũng đang đón nhận AI một cách nhanh chóng và mạnh mẽ hơn bao giờ hết. Dưới đây là một số cột mốc quan trọng trong sự phát triển này:

  • Vào thời điểm này năm 2024, chúng tôi xử lý 9,7 nghìn tỷ token mỗi tháng trên các sản phẩm và API của mình. Giờ đây, con số này đã vượt hơn 480 nghìn tỷ token — tức tăng gấp 50 lần.
  • Hơn 7 triệu nhà phát triển đang xây dựng sản phẩm với Gemini, gấp 5 lần so với cùng kỳ năm 2024, và mức độ sử dụng Gemini trên Vertex AI đã tăng gấp 40 lần.
  • Ứng dụng Gemini hiện có hơn 400 triệu người dùng hoạt động hằng tháng (MAU). Chúng tôi đang chứng kiến sự tăng trưởng và tương tác mạnh mẽ, đặc biệt là với dòng mô hình Gemini 2.5. Mức độ người dùng sử dụng mô hình 2.5 Pro trong ứng dụng Gemini đã tăng 45%.

Từ nghiên cứu đến hiện thực

Tất cả những tiến bộ này cho thấy chúng ta đang bước vào một giai đoạn mới của quá trình chuyển đổi nền tảng AI. Những thành quả nghiên cứu suốt nhiều thập kỷ qua nay đang được hiện thực hóa, phục vụ mọi người, các doanh nghiệp và cộng đồng trên toàn cầu.

Từ Dự án Starline đến Google Beam và dịch thuật giọng nói

Vài năm trước tại sự kiện I/O, chúng tôi đã giới thiệu Dự án Starline (Project Starline) – công nghệ video 3D đột phá với mục tiêu tạo ra trải nghiệm chân thực như đang trò chuyện trực tiếp cùng một người, dù bạn đang ở cách xa họ.

Không ngừng bứt phá những tiến bộ kỹ thuật, hôm nay chúng tôi giới thiệu một chương mới của dự án: Google Beam, một nền tảng giao tiếp video mới được xây dựng ưu tiên trên nền tảng AI. Beam sử dụng một mô hình video tiên tiến mới để biến đổi luồng video 2D thành trải nghiệm 3D sống động. Nó sử dụng một dãy sáu camera và AI để hợp nhất các luồng video lại với nhau và hiển thị bạn trên màn hình trường ánh sáng 3D (3D lightfield display). Google Beam có khả năng theo dõi chuyển động đầu gần như hoàn hảo, chính xác đến từng milimet, với tốc độ 60 khung hình mỗi giây, tất cả đều diễn ra trong thời gian thực. Điều này mang lại một trải nghiệm trò chuyện tự nhiên và chân thực hơn một cách đáng kể. Các thiết bị Google Beam đầu tiên hợp tác cùng HP sẽ được cung cấp cho những khách hàng đầu tiên vào cuối năm nay.

Trong những năm qua, chúng tôi cũng đã tạo ra nhiều trải nghiệm sống động hơn trong Google Meet, trong đó có công nghệ giúp mọi người phá vỡ rào cản ngôn ngữ với tính năng dịch giọng nói, sẽ sớm có mặt trên Google Meet. Với thời gian gần như tức thì, tính năng này có thể khớp chính xác giọng điệu, ngữ điệu và thậm chí cả biểu cảm của người nói, giúp chúng ta tiến gần hơn đến những cuộc trò chuyện tự nhiên và trôi chảy giữa các ngôn ngữ. Tính năng dịch từ tiếng Anh sang tiếng Tây Ban Nha đang được triển khai dưới dạng beta cho người đăng ký Google AI Pro và Ultra, với nhiều ngôn ngữ hơn sẽ ra mắt trong vài tuần tới. Tính năng này cũng sẽ được cung cấp cho khách hàng doanh nghiệp của Workspace để thử nghiệm sớm trong năm nay.

Sử dụng tính năng dịch giọng nói của Google Meet để kết nối gần như
theo thời gian thực trên nhiều ngôn ngữ

Từ Dự án Astra đến Gemini Live

Một dự án nghiên cứu thú vị khác được giới thiệu lần đầu tại I/O là Dự án Astra (Project Astra), hướng tới việc phát triển một trợ lý AI toàn năng có thể hiểu thế giới xung quanh bạn. Hiện tại, Gemini Live đã tích hợp khả năng chia sẻ camera và màn hình từ Dự án Astra Mọi người đang sử dụng nó trong nhiều trường hợp thú vị, từ chuẩn bị phỏng vấn đến huấn luyện chạy marathon. Tính năng này đã có mặt cho tất cả người dùng Android và sẽ được triển khai cho người dùng iOS bắt đầu từ hôm nay.

Chúng tôi cũng đang đưa các tính năng tương tự này vào các sản phẩm như Search.

Tham khảo Blog Google Tiếng Việt: Tầm nhìn của chúng tôi về việc kiến tạo một trợ lý AI toàn năng

Từ Dự án Mariner đến Agent Mode

Chúng tôi xem các tác nhân (agents) là những hệ thống kết hợp trí tuệ của các mô hình AI tiên tiến với khả năng truy cập công cụ, để chúng có thể thực hiện công việc thay mặt bạn và dưới sự kiểm soát của bạn.

Nguyên mẫu nghiên cứu ban đầu của chúng tôi, Dự án Mariner (Project Mariner), là một bước tiến sớm trong việc phát triển các tác nhân (agents) có khả năng sử dụng máy tính để tương tác với web và hoàn thành công việc giúp bạn. Kể từ khi ra mắt nguyên mẫu nghiên cứu ban đầu vào tháng 12-2024, chúng tôi đã đạt được nhiều tiến bộ đáng kể, bao gồm các khả năng đa nhiệm mới. Một phương pháp được gọi là “dạy và lặp lại” (teach and repeat) giúp nó học hỏi: chỉ cần chỉ dẫn một lần, nó sẽ tự động lập kế hoạch cho những tác vụ tương tự sau này. Chúng tôi đang mang các khả năng sử dụng máy tính của Dự án Mariner đến các nhà phát triển thông qua API Gemini. Các nhà thử nghiệm đáng tin cậy như Automation Anywhere và UiPath đã bắt đầu phát triển sản phẩm dựa trên công nghệ này, và dự kiến nó sẽ được cung cấp rộng rãi hơn vào mùa Hè.

Việc sử dụng máy tính là một phần của bộ công cụ rộng hơn mà chúng ta cần xây dựng để hệ sinh thái tác nhân phát triển mạnh mẽ. Giống như Giao thức Agent2Agent mở của chúng tôi, để các tác nhân có thể nói chuyện với nhau hoặc Giao thức Bối cảnh Mô hình (Model Context Protocol) do Anthropic giới thiệu, để các tác nhân có thể truy cập các dịch vụ khác. Chúng tôi rất vui được thông báo rằng kể từ hôm nay, API và SDK Gemini của chúng tôi đã tương thích hoàn toàn với các công cụ MCP.

Chúng tôi đang dần tích hợp các khả năng tác nhân này vào Chrome, Search và ứng dụng Gemini. Ví dụ, một Agent Mode mới trong ứng dụng Gemini sẽ giúp bạn hoàn thành được nhiều đầu việc hơn. Nếu bạn đang tìm thuê căn hộ, Agent Mode sẽ giúp tìm các căn hộ phù hợp với tiêu chí của bạn trên các trang web như Zillow, điều chỉnh bộ lọc và sử dụng MCP để truy cập danh sách, thậm chí sắp xếp lịch hẹn xem nhà cho bạn. Phiên bản thử nghiệm của Agent Mode trong ứng dụng Gemini sẽ sớm được cung cấp cho những người đăng ký. Tính năng này mang lại lợi ích lớn cho các công ty như Zillow, giúp họ thu hút khách hàng và tăng tỷ lệ chuyển đổi.

Đây là một lĩnh vực mới nổi và đang phát triển, và chúng tôi rất hào hứng muốn tìm hiểu cách tốt nhất để mang lợi ích của các tác nhân cho người dùng và toàn bộ hệ sinh thái một cách rộng hơn.

Sức mạnh của cá nhân hóa

Để biến nghiên cứu thành hiện thực, cách tốt nhất là làm cho nó thực sự hữu ích – ngay trong cuộc sống của bạn. Đó là lúc cá nhân hóa phát huy sức mạnh vượt trội. Chúng tôi đang nỗ lực hiện thực hóa điều này bằng cách tập trung vào ngữ cảnh cá nhân. Với sự cho phép của bạn, các mô hình Gemini có thể sử dụng ngữ cảnh cá nhân có liên quan từ những ứng dụng Google của bạn một cách riêng tư, minh bạch và hoàn toàn dưới sự kiểm soát của bạn.

Một ví dụ về điều này là tính năng Trả lời thông minh được cá nhân hóa(personalized Smart Replies) mới của chúng tôi trong Gmail. Nếu có bạn bè hỏi ý kiến về chuyến đi bạn từng đi, Gemini có thể tìm kiếm trong các email và tệp cũ của bạn trên Google Drive, chẳng hạn như hành trình bạn đã tạo trong Google Docs, để đề xuất một phản hồi với các chi tiết cụ thể và chính xác. Bản thảo sẽ đề xuất lời chào quen thuộc của bạn, đồng thời nắm bắt giọng điệu, phong cách và thậm chí cả những từ ngữ bạn yêu thích. Tất cả nhằm tạo ra một câu trả lời phù hợp và chân thật như chính bạn đang thao tác. Tính năng Trả lời thông minh được cá nhân hóa sẽ được triển khai cho người đăng ký vào cuối năm nay. Bạn có thể hình dung về lợi ích tuyệt vời mà ngữ cảnh cá nhân sẽ mang lại trên Search, Gemini và các ứng dụng khác.

AI Mode trong Search

Các mô hình Gemini của chúng tôi đang khiến Google Search trở nên thông minh hơn, có khả năng thực hiện tác vụ (agentic) và mang tính cá nhân hóa hơn.

Kể từ khi ra mắt vào năm ngoái, tính năng AI Overviews đã tiếp cận hơn 1,5 tỷ người dùng và hiện có mặt tại 200 quốc gia và vùng lãnh thổ. Khi mọi người sử dụng AI Overviews, chúng tôi nhận thấy họ hài lòng hơn với kết quả tìm kiếm và tìm kiếm thường xuyên hơn. Tại các thị trường lớn nhất của chúng tôi như Mỹ và Ấn Độ, AI Overviews đang thúc đẩy tăng trưởng hơn 10% trong các loại truy vấn hiển thị chúng, và mức tăng trưởng này vẫn tiếp tục gia tăng theo thời gian.

Đây là một trong những đợt ra mắt tính năng của Search thành công nhất trong thập kỷ qua.

Đối với những ai muốn trải nghiệm AI Search từ đầu tới cuối, chúng tôi giới thiệu tính năng AI Mode hoàn toàn mới. Đây là một sự tái hình dung tổng thể về Search. Với khả năng suy luận tiên tiến hơn, bạn có thể đưa ra những truy vấn dài và phức tạp hơn cho AI Mode. Thực tế, những người thử nghiệm sớm đã đặt ra những truy vấn dài gấp hai đến ba lần so với các tìm kiếm truyền thống, dẫu vậy, bạn có thể tìm kiếm sâu hơn với các câu hỏi tiếp theo. Tất cả những điều này đều có sẵn dưới dạng một tab mới ngay trong Search.

Tôi đã sử dụng nó rất nhiều, và nó đã thay đổi hoàn toàn cách tôi dùng Search. Tôi rất vui khi được chia sẻ rằng bắt đầu từ hôm nay, AI Mode sẽ được triển khai cho tất cả người dùng ở Mỹ. Với các mô hình Gemini mới nhất của chúng tôi, phản hồi AI đạt đến chất lượng và độ chính xác mà bạn mong đợi từ Search, đồng thời có tốc độ nhanh nhất trong ngành. Và bắt đầu từ tuần này, Gemini 2.5 cũng sẽ được triển khai trong Search ở thị trường Mỹ.

Phát triển mô hình thông minh nhất của Google: Gemini 2.5

Mô hình mạnh mẽ và hiệu quả nhất của chúng tôi, Gemini 2.5 Flash, đã trở nên vô cùng phổ biến với các nhà phát triển nhờ tốc độ và chi phí thấp. Phiên bản 2.5 Flash mới này còn cải thiện đáng kể ở hầu hết mọi khía cạnh — nâng cao hiệu suất trên các tiêu chuẩn chính về suy luận, đa phương thức, mã hóa và ngữ cảnh dài. Mô hình này chỉ xếp sau Gemini 2.5 Pro trên bảng xếp hạng LMArena.

Chúng tôi đang cải thiện Gemini 2.5 Pro tốt hơn nữa bằng cách giới thiệu một chế độ suy luận nâng cao mà chúng tôi gọi là Deep Think. Chế độ này sử dụng nghiên cứu tiên tiến nhất của chúng tôi về tư duy và suy luận, bao gồm các kỹ thuật tư duy song song.

Tham khảo Blog Google Tiếng Việt: Gemini 2.5: Mô hình hàng đầu thế giới của chúng tôi đang ngày càng tốt hơn

Một ứng dụng Gemini cá nhân hóa, chủ động và mạnh mẽ hơn

Chúng tôi đang biến Deep Research trở nên cá nhân hơn, cho phép bạn tải lên tệp của mình và sắp tới là kết nối với Google Drive và Gmail, từ đó nâng cao khả năng tạo báo cáo nghiên cứu tùy chỉnh. Chúng tôi cũng đang tích hợp tính năng này với Canvas, cho phép tạo ra các infographic sống động, bài kiểm tra (quiz) và thậm chí cả podcast bằng nhiều ngôn ngữ chỉ với một cú nhấp chuột. Ngoài ra, chúng tôi đang chứng kiến sự đón nhận nồng nhiệt của xu hướng vibe coding với Canvas, giúp ngày càng nhiều người có thể phát triển các ứng dụng tiện ích chỉ bằng cách trò chuyện với Gemini.

Chúng tôi sẽ cung cấp miễn phí tính năng chia sẻ camera và màn hình của Gemini Live – một tính năng rất được ưa chuộng – cho tất cả người dùng, kể cả trên iOS. Đặc biệt, chúng tôi sẽ sớm kết nối tính năng này với các ứng dụng Google yêu thích của bạn để tăng cường trải nghiệm liền mạch.

Tham khảo Blog Google Tiếng Việt: Gemini ngày càng cá nhân hóa, chủ động và mạnh mẽ hơn

Những tiến bộ trong các mô hình truyền thông tạo sinh của chúng tôi

Giờ đây, Veo 3 – mô hình video tiên tiến nhất của chúng tôi đã có khả năng tạo âm thanh tự nhiên. Đồng thời, chúng tôi cũng giới thiệu Imagen 4, mô hình tạo ảnh mới nhất và tốt nhất. Cả hai đều có sẵn trong ứng dụng Gemini – mở ra một thế giới hoàn toàn mới cho sự sáng tạo.

Chúng tôi cũng mang đến những tính năng trên đến các nhà làm phim bằng một công cụ mới có tên là Flow. Với Flow, bạn có thể tạo các thước phim điện ảnh và mở rộng một clip ngắn thành một cảnh dài hơn.

Video Introducing Flow | Google’s New AI Filmmaking Tool

Tham khảo Blog Google Tiếng Việt: Thúc đẩy sức sáng tạo với các mô hình và công cụ truyền thông tạo sinh mới

Cơ hội để cải thiện cuộc sống

Cơ hội mà AI mang lại thực sự vô cùng lớn như những gì nó có thể làm. Việc bảo đảm ngày càng có nhiều người nhận được lợi ích từ AI sẽ phụ thuộc vào làn sóng từ các nhà phát triển, những người xây dựng công nghệ và các nhà giải quyết vấn đề. Thật sự truyền cảm hứng là khi nghĩ rằng những nghiên cứu chúng tôi đang thực hiện hôm nay sẽ trở thành nền tảng cho ngày mai, từ robot học đến lượng tử, AlphaFold và Waymo.

Cơ hội để cải thiện cuộc sống là điều tôi không hề xem nhẹ. Một trải nghiệm gần đây đã giúp tôi nhận ra điều đó một cách rõ ràng. Khi tôi ở San Francisco cùng bố mẹ, điều đầu tiên họ muốn làm là thử Waymo (xe tự lái) – phương tiện đang trở thành một trong những điều thu hút khách du lịch của thành phố. Dù tôi đã đi Waymo trước đây, nhưng bố tôi, người đã ngoài 80, vẫn hoàn toàn kinh ngạc. Nhờ đó, tôi đã nhìn thấy sự tiến bộ dưới một góc nhìn hoàn toàn mới.

Đó là một lời nhắc nhở về sức mạnh phi thường của công nghệ trong việc truyền cảm hứng, để thán phục và thúc đẩy chúng ta tiến về phía trước. Tôi rất nóng lòng muốn thấy những điều tuyệt vời mà chúng ta sẽ cùng nhau xây dựng trong tương lai.

Xin mời xem video.

Tham khảo: Google I/O 2025: From research to reality

SUNDAR PICHAI – CEO, Google and Alphabet