Thứ Năm ngày 07 tháng 11 năm 2024

Bài keynote của ông Sundar Pichai tại Google I/O 2024 về kỷ nguyên Gemini AI Era của Goolge

Sự kiện thường niên Google I/O 2024 của Google tại bang California (Mỹ) bắt đầu từ lúc 1:00 PM ET ngày 14-5-2024 (0:00 AM ngày 15-5-2024 theo giờ VN) với bài keynote của ông Sundar Pichai, CEO của Google, trên sân khấu giảng đường Shoreline Amphitheatre (Mountain View, California) và được Live toàn cầu. Google I/O (Google Input/Output) hằng năm là nơi Google giới thiệu với cộng đồng thế giới các công nghệ và sản phẩm mới nhất của mình. Năm 2024 này, đây là sự kiện I/O của trí tuệ nhân tạo (AI), đánh dấu kỷ nguyên Gemini AI của Google và giới thiệu với cộng đồng người dùng Android toàn cầu phiên bản hệ điều hành di động Android 15.

Với sự hỗ trợ từ đại diện truyền thông của Google tại Việt Nam, MediaOnline xin giới thiệu với bạn đọc bản tóm tắt bài phát biểu của ông Sundar Pichai khai mạc Google I/O 2024.

Google đang hoàn toàn bước vào kỷ nguyên Gemini.

Trước khi bắt đầu, tôi muốn suy ngẫm về thời khắc hiện tại. Chúng tôi đã đầu tư vào AI trong hơn một thập kỷ, và luôn đổi mới ở từng cấp độ: nghiên cứu, sản phẩm, cơ sở hạ tầng, và chúng tôi sẽ chia sẻ về tất cả ngay trong hôm nay.

Tuy nhiên, chúng tôi vẫn đang trong những ngày đầu của quá trình chuyển đổi nền tảng sang AI. Chúng tôi nhận thấy có nhiều cơ hội dành cho các nhà sáng tạo, nhà phát triển, các startup và tất cả mọi người. Thúc đẩy những cơ hội đó chính là trọng tâm mà kỷ nguyên Gemini hướng đến.

Kỷ nguyên Gemini

Trên sân khấu I/O 2023, lần đầu tiên chúng tôi chia sẻ những dự định của mình về Gemini: một mô hình AI năng lực nhất có khả năng đa phương thức một cách tự nhiên (natively multimodal), suy luận xuyên suốt trên các định dạng văn bản, hình ảnh, video, code và hơn thế nữa. Đây là một bước tiến lớn trong việc hiện thực hóa bất kỳ đầu vào (input) và đầu ra (output) nào – một “I/O” dành cho thế hệ mới.

Kể từ đó, chúng tôi đã giới thiệu những mô hình Gemini đầu tiên, những mô hình có khả năng nhất của Google. Chúng đạt được hiệu năng vượt trội trên mọi chuẩn đánh giá đa phương thức. Hai tháng sau, chúng tôi giới thiệu Gemini 1.5 Pro, mang lại bước đột phá lớn về xử lý ngữ cảnh dài (long context). Nó có thể xử lý 1 triệu token dữ liệu một cách nhất quán, vượt qua bất kỳ mô hình nền tảng quy mô lớn nào khác cho đến nay. (Chú thích của người dịch: Token là đơn vị cơ bản của văn bản mà mô hình hiểu được trong LLM).

Chúng tôi mong muốn mọi người tận dụng được những khả năng của Gemini. Vì vậy, chúng tôi đã nhanh chóng chia sẻ những tiến bộ này với các bạn. Hiện nay, hơn 1,5 triệu nhà phát triển đang sử dụng những mô hình Gemini trên khắp các công cụ của chúng tôi, từ việc xác định lỗi code, thu thập insights mới và xây dựng thế hệ ứng dụng AI tiếp theo.

Chúng tôi cũng đang mạnh mẽ tích hợp những khả năng đột phá của Gemini vào các sản phẩm của mình. Hôm nay, chúng tôi sẽ giới thiệu các ví dụ về việc ứng dụng Gemini trong Search, Photos, Workspace, Android và nhiều sản phẩm khác.

Tiến độ sản phẩm

Hiện nay, tất cả các sản phẩm phục vụ 2 tỷ người dùng của chúng tôi đều tích hợp Gemini.

Chúng tôi cũng đã mang đến những trải nghiệm mới cùng Gemini, bao gồm trên thiết bị di động. Người dùng giờ đây có thể trực tiếp tương tác với Gemini thông qua ứng dụng, hiện đã có sẵn trên Android và iOS. Ngoài ra, phiên bản Gemini Advanced cung cấp quyền truy cập vào các mô hình AI tiên tiến nhất của chúng tôi. Chỉ trong ba tháng, đã có hơn một triệu người đăng ký dùng thử và vẫn đang tiếp tục thể hiện đà tăng trưởng mạnh mẽ.

Mở rộng AI Overviews trong Google Search

Một trong những đổi mới thú vị nhất của Gemini đã diễn ra với Google Search (Google Tìm kiếm).

Trong năm 2023, chúng tôi đã trả lời hàng tỷ truy vấn với thử nghiệm Search Generative Experience. Người dùng sử dụng thử nghiệm này để Tìm kiếm theo cách thức hoàn toàn mới, đặt ra nhiều dạng câu hỏi mới, dài hơn và phức tạp hơn, thậm chí tìm kiếm bằng hình ảnh và nhận được những kết quả tốt nhất.

Chúng tôi đã thử nghiệm trải nghiệm này bên ngoài Search Labs. Và chúng tôi rất vui mừng khi nhận thấy không chỉ lượng người dùng Google Search tăng lên mà mức độ hài lòng của người dùng cũng được cải thiện.

Chúng tôi rất hào hứng thông báo rằng Google sẽ bắt đầu triển khai AI Overviews – một trải nghiệm toàn diện được cải tiến hoàn toàn cho tất cả người dùng tại Mỹ. Chúng tôi sẽ sớm mang tính năng này đến nhiều quốc gia khác.

Hiện nay cũng có rất nhiều cải tiến đang diễn ra ngay trong Google Search. Nhờ Gemini, chúng tôi có thể tạo ra các trải nghiệm tìm kiếm tối ưu hơn nữa ngay trong các trong sản phẩm của mình.

Giới thiệu tính năng Ask Photos

Ví dụ điển hình là Google Photos, ứng dụng mà chúng tôi ra mắt cách đây gần 9 năm. Kể từ đó, người dùng đã sử dụng Photos để lưu trữ những khoảnh khắc quý giá nhất, với hơn 6 tỷ ảnh và video được tải lên mỗi ngày.

Và họ thích việc dùng Photos để tìm kiếm những khoảnh khắc của từng giai đoạn trong cuộc sống. Nhờ có Gemini, trải nghiệm này sẽ trở nên dễ dàng hơn rất nhiều.

Giả sử bạn đang thanh toán tại bãi đậu xe (parking station) nhưng lại không nhớ rõ biển số xe. Trước đây, bạn có thể tìm kiếm trong Photos theo từ khóa, sau đó lướt qua kho ảnh hằng năm để tìm biển số. Giờ đây, bạn chỉ cần hỏi Photos. Ứng dụng có thể nhận diện những chiếc xe thường xuyên xuất hiện trong kho ảnh, xác định xe của bạn và cung cấp biển số xe.

Tính năng Ask Photos còn giúp bạn tìm lại kỷ niệm cách chuyên sâu hơn. Ví dụ, bạn đang hồi tưởng về những cột mốc đầu đời của con gái Luciana. Giờ đây, bạn có thể hỏi Photos: “Lucia biết bơi từ khi nào?” Và thậm chí phức tạp hơn: “Cho tôi xem quá trình học bơi của Lucia.”

Ở trường hợp này, Gemini vượt xa một chức năng tìm kiếm đơn thuần, nhận diện nhiều bối cảnh khác nhau, từ bơi lội trong hồ đến lặn biển, thậm chí cả chữ viết và ngày tháng trên chứng nhận bơi. Photos sẽ tổng hợp tất cả thông tin thành một bản tóm tắt, cho phép bạn xem và sống lại những kỷ niệm tuyệt vời một lần nữa. Chúng tôi sẽ triển khai tính năng Ask Photos vào mùa hè này, cùng nhiều khả năng khác sắp ra mắt.

Tính năng Ask Photos giúp bạn tìm kiếm ảnh và video chuyên sâu hơn.

Mở khóa tri thức cùng phương thức đa nhiệm và ngữ cảnh dài

Mở khóa tri thức (unlocking knowledge) trên nhiều định dạng là lý do chúng tôi xây dựng Gemini với khả năng đa phương thức ngay từ đầu. Đây là một mô hình duy nhất, tích hợp sẵn tất cả các phương thức xử lý dữ liệu. Do đó, Gemini không chỉ hiểu được từng loại dữ liệu đầu vào mà còn tìm ra mối liên kết giữa chúng.

Tính năng đa phương thức mở rộng đáng kể các câu hỏi và câu trả lời chúng ta có thể đặt ra và nhận được. Khả năng xử lý ngữ cảnh dài đã tạo ra một bước tiến lớn, cho phép chúng tôi đưa vào mô hình nhiều thông tin hơn nữa: hàng trăm trang văn bản, hàng giờ âm thanh hoặc một giờ video, toàn bộ kho lưu trữ code,… hoặc 96 thực đơn của Cheesecake Factory, nếu bạn muốn.

Để xử lý một lượng lớn thông tin thực đơn như vậy, bạn sẽ cần một triệu token cửa sổ ngữ cảnh (context window), giờ đây hoàn toàn khả thi với Gemini 1.5 Pro. Các nhà phát triển đã tận dụng tính năng này theo những cách vô cùng thú vị.

Trong vài tháng qua, chúng tôi đã triển khai bản thử nghiệm của Gemini 1.5 Pro với khả năng xử lý ngữ cảnh dài. Chúng tôi cũng đã thực hiện một loạt cải tiến chất lượng cho các tác vụ dịch thuật, lập trình và suy luận. Bắt đầu từ hôm nay, bạn sẽ thấy những cập nhật này được tích hợp vào mô hình.

Tôi rất vui mừng thông báo rằng phiên bản cải tiến của Gemini 1.5 Pro đang được triển khai đến các nhà phát triển trên toàn cầu. Ngoài ra, bắt đầu từ hôm nay, phiên bản Gemini Advanced cũng cung cấp quyền truy cập trực tiếp vào Gemini 1.5 Pro với khả năng xử lý ngữ cảnh 1 triệu token. Tính năng này hiện hỗ trợ tới 35 ngôn ngữ.

Mở rộng khả năng xử lý 2 triệu token trong bản preview riêng tư (private preview)

Một triệu token đã mở ra những khả năng hoàn toàn mới. Thật thú vị. Tuy nhiên, tôi nghĩ chúng tôi có thể tiến xa hơn nữa.

Vì vậy ngay hôm nay, chúng tôi mở rộng cửa sổ ngữ cảnh lên 2 triệu token và chia sẻ preview riêng tư cho các nhà phát triển.

Thật tuyệt vời khi nhìn lại và thấy được những tiến bộ chúng tôi đã đạt được chỉ trong vài tháng. Đây là bước tiếp theo trên hành trình đạt đến mục tiêu tối thượng: xử lý ngữ cảnh không giới hạn.

Đưa Gemini 1.5 Pro vào Workspace

Cho đến nay, chúng tôi đã đề cập đến hai tiến bộ kỹ thuật: đa phương thức và xử lý ngữ cảnh dài. Mỗi tính năng này đều vượt trội riêng lẻ. Nhưng khi kết hợp lại, chúng mở ra những khả năng sâu hơn và thông minh vượt trội.

Điều này trở nên hữu ích với Google Workspace.

Mọi người thường xuyên tìm kiếm email trong Gmail. Chúng tôi đang làm việc để biến tính năng tìm kiếm trở nên mạnh mẽ hơn với Gemini. Ví dụ, với vai trò là phụ huynh, bạn luôn muốn cập nhật mọi thứ liên quan đến trường học của con mình. Gemini có thể giúp bạn theo kịp thông tin.

Bây giờ, chúng ta có thể yêu cầu Gemini tóm tắt tất cả email gần đây từ trường. Trong quá trình xử lý, Gemini sẽ xác định các email liên quan và thậm chí phân tích các tệp đính kèm, chẳng hạn như tệp PDF. Sau đó, bạn sẽ nhận được bản tóm tắt các điểm chính và việc cần làm. Có thể tuần này bạn đi công tác và không thể tham dự cuộc họp phụ huynh, và bản ghi cuộc họp trên Google Meet dài khoảng một tiếng. Bạn có thể yêu cầu Gemini ghi chú lại điểm chính yếu của cuộc họp. Hoặc đang có nhóm phụ huynh cần tìm tình nguyện viên và bạn lại rảnh vào ngày hôm đó. Tất nhiên, Gemini có thể giúp bạn soạn thư phản hồi.

Còn vô số ví dụ khác về cách thức Gemini giúp cuộc sống dễ dàng hơn. Gemini 1.5 Pro hiện có sẵn trong Workspace Labs.

Đầu ra âm thanh trong NotebookLM

Vừa rồi chúng ta đã tìm hiểu một ví dụ với đầu ra là văn bản. Nhưng với mô hình đa phương thức, chúng tôi có thể làm được nhiều hơn thế nữa.

Chúng tôi đang đạt được những tiến bộ đáng kể trong lĩnh vực này, hứa hẹn sẽ còn nhiều điều thú vị hơn nữa. Tính năng Audio Overviews trong NotebookLM là một ví dụ điển hình. Đây là tính năng sử dụng Gemini để tổng hợp tài liệu nguồn của bạn và tạo ra một cuộc trò chuyện âm thanh tương tác và được cá nhân hóa.

Đây chính là tiềm năng của tính năng đa phương thức. Trong tương lai gần, bạn sẽ có thể kết hợp linh hoạt các đầu vào và đầu ra khác nhau. Đó cũng là lý do vì sao từ ban đầu, chúng tôi gọi đây là I/O dành cho thế hệ mới. Nhưng liệu Google có thể tiến xa hơn nữa?

Tiến xa hơn cùng với AI Agents

Một trong những cơ hội tiến xa hơn mà chúng tôi nhận thấy là cơ hội cùng AI Agents. Tôi coi chúng là những hệ thống thông minh thể hiện khả năng suy luận, lập kế hoạch và ghi nhớ, có thể “nghĩ” trước nhiều bước và hoạt động trên nhiều phần mềm cùng hệ thống khác nhau, tất cả để hoàn thành công việc cho bạn và quan trọng nhất là dưới sự giám sát của bạn.

Chúng tôi vẫn đang trong giai đoạn đầu thực hiện, nhưng tôi sẽ trình bày những trường hợp sử dụng mà chúng tôi đang nỗ lực giải quyết.

Bắt đầu với việc mua sắm. Mua giày thì khá thú vị, nhưng việc trả lại chúng khi không vừa thì lại không vui chút nào.

Hãy tưởng tượng nếu Gemini có thể thực hiện tất cả các bước cho bạn:

  • Tìm kiếm hóa đơn trong hộp thư đến của bạn …
  • Tìm số đơn hàng từ email của bạn …
  • Điền vào biểu mẫu trả hàng …
  • Thậm chí lên lịch nhận hàng của UPS.

Dễ dàng hơn nhiều đúng không nào?

Hãy lấy một ví dụ khác phức tạp hơn một chút.

Giả sử bạn vừa chuyển đến Chicago. Bạn có thể tưởng tượng Gemini và Chrome làm việc cùng nhau để giúp bạn thực hiện một số tác vụ sẵn sàng như thay mặt bạn sắp xếp, lý luận, tổng hợp.

Ví dụ: bạn sẽ muốn khám phá thành phố và tìm các dịch vụ gần đó – từ tiệm giặt khô đến người dắt chó đi dạo. Và bạn sẽ phải cập nhật địa chỉ mới của mình trên hàng chục trang web.

Gemini có thể thực hiện những nhiệm vụ này và sẽ nhắc bạn cung cấp thêm thông tin khi cần, điều này giúp bạn luôn nắm quyền kiểm soát.

Phần đó thực sự quan trọng, khi tạo nguyên mẫu cho những trải nghiệm này, chúng tôi đang suy nghĩ kỹ về cách thực hiện theo cách riêng tư, an toàn và phù hợp với mọi người.

Đây là những trường hợp sử dụng đơn giản nhưng chúng giúp bạn hiểu rõ về các loại vấn đề mà chúng tôi muốn giải quyết, bằng cách xây dựng các hệ thống thông minh có khả năng nghĩ trước, lập luận và lập kế hoạch – tất cả đều thay mặt bạn.

Điều có ý nghĩa đối với sứ mệnh của chúng tôi

Sức mạnh của Gemini – với tính đa phương thức, ngữ cảnh dài và các tác nhân – đưa chúng tôi đến gần hơn với mục tiêu cuối cùng là làm cho AI trở nên hữu ích cho mọi người.

Chúng tôi coi đây là cách đạt được tiến bộ cao nhất trong sứ mệnh của mình: Tổ chức thông tin của thế giới trên mọi đầu vào, giúp thông tin có thể truy cập được qua bất kỳ đầu ra nào, và kết hợp thông tin của thế giới với thông tin trong thế giới RIÊNG CỦA BẠN theo cách hữu ích dành cho bạn.

Đột phá mới

Để nhận ra toàn bộ tiềm năng của AI, chúng ta cần phải có bước đột phá mới. Nhóm Google DeepMind đã làm việc chăm chỉ về vấn đề này.

Chúng tôi đã thấy rất nhiều điều thú vị xung quanh 1.5 Pro và cửa sổ ngữ cảnh dài của nó. Nhưng chúng tôi cũng nghe được từ các nhà phát triển rằng họ muốn thứ gì đó nhanh hơn và tiết kiệm chi phí hơn. Vì vậy, chúng tôi sẽ giới thiệu Gemini 1.5 Flash, một mô hình nhẹ hơn được thiết kế cho quy mô lớn hơn. Điều quan trọng là nó được tối ưu hóa cho các tác vụ có độ trễ và chi phí thấp. 1.5 Flash sẽ có sẵn trong AI Studio và Vertex AI vào thứ Ba này (14-5-204).

Nhìn xa hơn về phía trước, chúng tôi luôn muốn xây dựng một tác nhân phổ quát hữu ích trong cuộc sống hằng ngày. Project Astra, thể hiện sự hiểu biết đa phương thức và khả năng đàm thoại theo thời gian thực.

Chúng tôi cũng đã đạt được tiến bộ trong việc tạo video và hình ảnh với Veo và Imagen 3, đồng thời giới thiệu Gemma 2.0, thế hệ mô hình mở (open model) tiếp theo của chúng tôi để đổi mới AI có trách nhiệm (responsible AI innovation).

Cơ sở hạ tầng cho kỷ nguyên AI: Ra mắt Trillium TPU

Việc đào tạo các mô hình hiện đại đòi hỏi rất nhiều sức mạnh điện toán. Nhu cầu về tính toán của máy học trong ngành đã tăng theo hệ số 1 triệu trong sáu năm qua và mỗi năm tăng gấp 10 lần.

Google được xây dựng dành cho việc này. Trong 25 năm, chúng tôi đã đầu tư vào cơ sở hạ tầng kỹ thuật đẳng cấp thế giới,

Từ phần cứng tiên tiến hỗ trợ Tìm kiếm cho đến các đơn vị xử lý tensor (Tensor Processing Unit – TPU) tùy chỉnh hỗ trợ các tiến bộ AI của chúng tôi.

Gemini đã được đào tạo và phục vụ hoàn toàn trên TPU thế hệ thứ tư và thứ năm của chúng tôi. Và các công ty AI hàng đầu khác, bao gồm cả Anthropic, cũng đã đào tạo các mô hình của họ về TPU.

Hôm nay, chúng tôi rất hào hứng công bố thế hệ TPU thứ 6 của mình, được gọi là Trillium. Trillium là TPU hiệu năng cao và hiệu quả nhất của chúng tôi cho đến nay, mang lại sự cải thiện 4,7 lần về hiệu năng tính toán trên mỗi chip so với thế hệ trước là TPU v5e 

Chúng tôi sẽ cung cấp Trillium cho khách hàng trên Đám mây vào cuối năm 2024.

Bên cạnh TPU, chúng tôi tự hào cung cấp CPU và GPU để hỗ trợ mọi khối lượng công việc.

Điều đó bao gồm bộ xử lý Axion mới mà chúng tôi đã công bố vào tháng trước, CPU dựa trên Arm tùy chỉnh đầu tiên của chúng tôi mang lại hiệu năng và hiệu quả sử dụng năng lượng hàng đầu trong ngành.

Chúng tôi cũng tự hào là một trong những nhà cung cấp dịch vụ Cloud đầu tiên cung cấp GPU Blackwell tiên tiến của NVIDIA, sẽ ra mắt vào đầu năm 2025. Đây là mối quan hệ hợp tác lâu dài giữa NVIDIA và Google, chúng tôi rất vui mừng khi chuẩn bị mang những khả năng đột phá của Blackwell đến với khách hàng của mình.

Chip là một phần nền tảng của hệ thống tích hợp đầu cuối của chúng tôi. Từ phần cứng và phần mềm mở được tối ưu hóa hiệu năng đến các mô hình tiêu dùng linh hoạt. Tất cả những điều này kết hợp với nhau trong AI Hypercomputer, một kiến trúc siêu máy tính mang tính đột phá, của chúng tôi.

Các doanh nghiệp và nhà phát triển đang sử dụng nó để giải quyết những thách thức phức tạp hơn, với hiệu quả cao hơn gấp đôi so với việc chỉ mua phần cứng và chip thô. Những tiến bộ về Siêu máy tính AI của chúng tôi có thể thực hiện được một phần nhờ vào phương pháp làm mát bằng chất lỏng trong các trung tâm dữ liệu của chúng tôi.

Chúng tôi đã làm điều này trong gần một thập kỷ, rất lâu trước khi nó trở thành công nghệ tiên tiến nhất trong ngành. Và ngày nay, tổng công suất được triển khai của chúng tôi dành cho hệ thống làm mát bằng chất lỏng là gần 1 Giga Watt và đang tăng lên – gấp gần 70 lần công suất của bất kỳ đơn vị nào khác.

Điều này dựa trên cơ sở về quy mô tuyệt đối trong mạng lưới có khả năng kết nối cơ sở hạ tầng của chúng tôi trên toàn cầu. Mạng của chúng tôi trải dài hơn 2 triệu dặm (3,2 triệu km) cáp quang trên mặt đất và dưới biển: gấp hơn 10 lần phạm vi tiếp cận của nhà cung cấp dịch vụ đám mây hàng đầu tiếp theo.

Chúng tôi sẽ tiếp tục thực hiện các khoản đầu tư cần thiết để thúc đẩy đổi mới AI và mang lại những khả năng tiên tiến nhất.

Chương thú vị nhất của công cụ Tìm kiếm

Một trong những lĩnh vực đầu tư và đổi mới lớn nhất của chúng tôi là sản phẩm sáng lập của chúng tôi, đó là Search (Tìm kiếm). 25 năm trước, chúng tôi đã tạo ra Tìm kiếm để giúp mọi người hiểu được làn sóng thông tin di chuyển trực tuyến.

Với mỗi lần thay đổi nền tảng, chúng tôi đều mang đến những bước đột phá để giúp trả lời câu hỏi của bạn tốt hơn.

Trên thiết bị di động, chúng tôi đã mở khóa các loại câu hỏi và câu trả lời mới bằng cách sử dụng ngữ cảnh, nhận thức về vị trí và thông tin theo thời gian thực tốt hơn. Với những tiến bộ trong khả năng hiểu ngôn ngữ tự nhiên và thị giác máy tính, chúng tôi đã tạo ra những cách mới để tìm kiếm, bằng giọng nói hoặc tiếng ngân nga để tìm bài hát yêu thích của bạn; hoặc với hình ảnh bông hoa mà bạn nhìn thấy khi đi dạo. Và bây giờ, bạn thậm chí có thể khoanh tròn để tìm kiếm những đôi giày mà bạn có thể muốn mua. Hãy thử đi, bạn luôn có thể đổi trả chúng mà.

Tất nhiên, Tìm kiếm trong Kỷ nguyên Gemini sẽ đưa điều này lên một tầm cao hoàn toàn mới, kết hợp sức mạnh cơ sở hạ tầng của chúng tôi, khả năng AI mới nhất, tiêu chuẩn cao về chất lượng thông tin và hàng thập kỷ kinh nghiệm kết nối bạn với sự phong phú của web. Kết quả sẽ mang đến một sản phẩm tuyệt vời dành cho bạn.

Google Tìm kiếm là AI tạo sinh (generative AI) ở quy mô thuộc về bản tính tò mò của con người. Và đây là chương thú vị nhất của chúng tôi về công cụ Tìm kiếm.

Trải nghiệm Gemini thông minh hơn

Gemini không chỉ là một chatbot, nó được thiết kế để trở thành trợ lý cá nhân, hữu ích, có thể giúp bạn giải quyết các nhiệm vụ phức tạp và thay mặt bạn thực hiện các tác vụ.

Tương tác với Gemini sẽ mang lại trải nghiệm đối thoại và trực quan. Đó là lý do chúng tôi sẽ công bố một trải nghiệm mới của Gemini giúp chúng tôi đến gần hơn với tầm nhìn mang tên Live (Trực tiếp), cho phép bạn có những cuộc đối thoại sâu sắc hơn với Gemini bằng giọng nói của mình. Chúng tôi cũng sẽ mang 2 triệu token đến Gemini Advanced vào cuối năm nay, giúp bạn có thể tải lên và phân tích các tệp siêu dày như video và mã dài.

Gemini dành cho thiết bị Android 

Với hàng tỷ người dùng Android trên toàn thế giới, chúng tôi rất vui mừng được tích hợp Gemini vào trải nghiệm người dùng một cách toàn diện hơn. Với tư cách là trợ lý AI mới của bạn, Gemini sẵn sàng trợ giúp bạn mọi lúc, mọi nơi. Và chúng tôi đã kết hợp các mô hình Gemini vào Android, bao gồm cả mô hình trên thiết bị mới nhất của chúng tôi: Gemini Nano với đa phương thức, xử lý văn bản, hình ảnh, âm thanh và giọng nói để mở ra những trải nghiệm mới trong khi vẫn giữ thông tin ở chế độ riêng tư trên thiết bị của bạn.

Tiếp cận AI một cách có trách nhiệm

Chúng tôi tiếp tục tiếp cận AI một cách cơ hội, táo bạo và đầy hứng khởi. Và đó cũng là điều chúng tôi cần bảo đảm thực hiện một cách có trách nhiệm. Chúng tôi đang phát triển một kỹ thuật tiên tiến được gọi là đội đỏ được hỗ trợ bởi AI (AI-assisted red teaming). Kỹ thuật này dựa trên những đột phá về trò chơi của Google DeepMind như AlphaGo để cải thiện mô hình sẵn có. Ngoài ra, chúng tôi đã mở rộng SynthID, công cụ tạo hình mờ (watermarking tool) giúp xác định nội dung do AI tạo ra dễ dàng hơn với hai phương thức mới: văn bản và video.

Cùng nhau kiến tạo tương lai 

Tất cả những điều này cho thấy sự tiến bộ quan trọng khi chúng ta thực hiện cách tiếp cận táo bạo và có trách nhiệm để giúp AI trở nên hữu ích cho mọi người.

Trước khi kết thúc, tôi đoán rằng mọi người có thể đang đếm xem hôm nay chúng ta đã đề cập đến AI bao nhiêu lần. Và tôi cho rằng chúng ta sẽ thêm một vài lần nữa trước khi hoàn thành.

Cuộc kiểm đếm này không chỉ là một câu kết. Nó phản ánh điều gì đó sâu sắc hơn nhiều. Chúng tôi đã tiên phong tiếp cận AI từ lâu. Hàng thập kỷ dẫn đầu nghiên cứu của chúng tôi đã đi tiên phong trong nhiều đột phá thúc đẩy sự phát triển của AI như hiện nay. Trên hết chúng tôi có:

  • Cơ sở hạ tầng hàng đầu thế giới được xây dựng cho kỷ nguyên AI.
  • Sự đổi mới tiên tiến trong Tìm kiếm, hiện được hỗ trợ bởi Gemini.
  • Các sản phẩm trợ giúp ở quy mô đặc biệt – bao gồm 15 sản phẩm với nửa tỷ người dùng.
  • Và các nền tảng cho phép tất cả mọi người – đối tác, khách hàng, người sáng tạo và tất cả các bạn – phát minh ra tương lai.

Tiến trình này chỉ có thể thực hiện được nhờ vào cộng đồng nhà phát triển tuyệt vời của chúng tôi. Chính các bạn là người biến chúng thành hiện thực thông qua những trải nghiệm và ứng dụng mà các bạn xây dựng hằng ngày. Gửi tới tất cả mọi người đang có mặt tại Shoreline và hàng triệu người đang theo dõi trên khắp thế giới, đây là những khả năng ở phía trước và hãy cùng chung tay tạo ra chúng.

Xin mời xem video bài keynote của ông Sundar Pichai.

Tham khảo bài keynote của ông Sundar Pichai: Google I/O 2024: An I/O for a new generation.

SUNDAR PICHAI, CEO of Google and Alphabet

Nguồn do Google cung cấp.