Năm 2023 đã chứng kiến một bước phát triển nhảy vọt của công nghệ Trí tuệ nhân tạo (AI – Artificial Intelligence), đặc biệt là công nghệ AI tạo sinh (Generative AI) với sự ra đời và ngày càng trở nên phổ biến của ChatGPT (Generative Pretrained Transformer) và các Mô hình ngôn ngữ lớn (Large Language Models – LLM).
ChatGPT và LLM đã đạt đến khả năng thông hiểu ngôn ngữ tự nhiên và ra quyết định như người trưởng thành có tri thức. ChatGPT cán mốc 1 triệu người sử dụng chỉ trong vỏn vẹn 5 ngày, một kỳ tích chưa từng có trong lịch sử các nền tảng công nghệ. Kể từ đó đến này, các gã khổng lồ Big Tech và AI Start-up đã và đang chạy đua với nhau, giới thiệu ra công chúng hàng chục mô hình LLM khác nhau, phần lớn dưới dạng mã nguồn mở như LaMDA (Google AI), Megatron-Turing NLG (NVIDIA), PaLM (Google AI), Llama-2 (Meta AI), Bloom (Hugging Face), Wu Dao 2.0 (Beijing Academy of Artificial Intelligence), Jurasic-1 Jumbo (AI21 Labs) và Bard (Google AI),…
Bên cạnh cuộc đua nói trên, việc ứng dụng ChatGPT và LLM vào sản xuất kinh doanh cũng đang diễn ra sôi nổi. Theo báo cáo của tổ chức Master of Code Global: “Thống kê về việc sử dụng ChatGPT và LLM trong sản xuất kinh doanh: báo cáo năm 2023,” 49% các công ty đang sử dụng ChatGPT, 30% dự định sẽ sử dụng ChatGPT trong tương lai. Một báo cáo khác của tạp chí Forbes chỉ ra rằng 70% các tổ chức doanh nghiệp đang tìm hiểu đánh giá công nghệ AI tạo sinh, bao gồm LLM. Điều này cho thấy LLM đang được cộng đồng doanh nghiệp đặc biệt quan tâm. Ngày càng nhiều doanh nghiệp nhận ra tiềm năng của LLM trong việc thay đổi mang tính cách mạng hoạt động sản xuất kinh doanh.
Trong bài báo này, Giám đốc Khoa học Trí tuệ nhân tạo của Tập đoàn Verysell, tiến sĩ Đào Hữu Hùng sẽ chia sẻ những góc nhìn sâu sắc và chiến lược về tương lai của AI và tác động của nó đến doanh nghiệp và xã hội.
AI tạo sinh dữ liệu đa phương thức (Multimodal Generative AI)
Mặc dù ChatGPT và các mô hình ngôn ngữ lớn LLM đã thể hiện được hiệu năng siêu việt trong việc thông hiểu ngôn ngữ tự nhiên ở dạng văn bản, nhưng văn bản chỉ là một loại dữ liệu mà con người tiếp nhận và xử lý hằng ngày. Chúng ta giao tiếp và tương tác với nhiều loại dữ liệu khác nhau từ văn bản cho đến hình ảnh, video, và âm thành,… Dữ liệu đa phương thức cũng đặt ra những thách thức to lớn cho các hệ thống trí tuệ nhân tạo, bao gồm tính đa dạng dữ liệu, sắp xếp dữ liệu, hợp nhất dữ liệu, biểu diễn dữ liệu, độ phức tạp mô hình, chi phí tính toán và phương thức đánh giá. Vì vậy, cộng đồng nghiên cứu AI thường lựa chọn giải quyết thành công dữ liệu đơn phương thức trước khi đối mặt với những loại dữ liệu phức tạp hơn.
Thành công vượt bậc của mô hình ngôn ngữ lớn LLM tạo động lực to lớn cho cộng đồng nghiên cứu AI phát triển mô hình dữ liệu đa phương thức lớn (Large Multimodal Model – LMM), với khả năng đạt được mức độ tổng quát và biểu đạt tương tự, đối với dữ liệu đa phương thức. LMM có thể tận dụng nguồn dữ liệu khổng lồ đa phương thức và thực hiện các nhiệm vụ đa dạng mà không cần phải tinh chỉnh lại mô hình. LMM có thể giải quyết nhiều nhiệm vụ phức tạp liên quan đến cả văn bản, hình ảnh, âm thanh, video,… chẳng hạn như mô tả hình ảnh, trả lời câu hỏi về nội dung một bức ảnh và chỉnh sửa hình ảnh bằng các lệnh ngôn ngữ tự nhiên,…
OpenAI đã tiên phong phát triển GPT-4V, phiên bản dữ liệu đa phương thức được nâng cấp từ mô hình GPT-4. GPT-4V có khả năng hiểu và tạo thông tin từ cả văn bản và hình ảnh. Nó có thể thực hiện nhiều nhiệm vụ như tạo hình ảnh từ mô tả văn bản, trả lời câu hỏi về nội dung một bức ảnh và chỉnh sửa hình ảnh bằng các lệnh ở dạng ngôn ngữ tự nhiên. LLaVA-1.5: Đây là một mô hình có thể hiểu và tạo thông tin từ cả văn bản và hình ảnh. Nó có thể thực hiện các nhiệm vụ như trả lời câu hỏi về hình ảnh, tạo chú thích cho hình ảnh và chỉnh sửa hình ảnh bằng các lệnh ở dạng ngôn ngữ tự nhiên.
Adept đang nhắm đến một mục tiêu lớn hơn, đó là xây dựng mô hình AI có thể tương tác với mọi thứ trên máy tính. “Adept đang xây dựng một cách hoàn toàn mới để hoàn thành công việc. Nó lấy mục tiêu của bạn dưới dạng ngôn ngữ tự nhiên, và biến chúng thành hành động trên các phần mềm bạn sử dụng hàng ngày”. Họ tin rằng các mô hình AI đọc và viết văn bản vẫn có giá trị, nhưng những mô hình AI tạo sinh sử dụng máy tính như con người còn đem lại giá trị to lớn hơn đối với doanh nghiệp.
Chính vì thế, một cuộc đua quyết liệt giữa các công ty Big Tech trong việc phát triển LMM vẫn tiếp diễn trong năm 2024. Mất một vài năm nữa thì LMM mới đạt được hiệu năng tương đương với mô hình ngôn ngữ lớn LLM hiện nay. Bởi vì dữ liệu văn bản trên internet hiện nay đã bao trùm gần như toàn bộ những kiến thức chung của loài người về hầu khắp các lĩnh vực. Nhưng dữ liệu hình ảnh chủ yếu được lấy từ các nguồn mạng xã hội, chia sẻ những khoảnh khắc trong cuộc sống thường nhật.
Những hình ảnh trong dây chuyền sản xuất công nghiệp đều là dữ liệu bảo mật, không xuất hiện trên mạng internet. LandingAI đang tiên phong hợp tác với khối công nghiệp để khắc phục trở ngại này.
Mô hình nền tảng lớn: xây dựng hay tận dụng mô hình
Xây dựng ứng dụng AI chưa bao giờ trở nên dễ dàng và nhanh chóng như bây giờ. Chỉ vài năm trước đây để xây dựng ứng dụng “Phân tích cảm xúc”, (sentiment analysis) sẽ phải mất vài tháng để phát triển mô hình thử nghiệm với các tập dữ liệu khác nhau. Sau khi kiểm nghiệm được độ chính xác, để đưa mô hình AI lên môi trường chính thức (production system) cũng mất thêm vài tháng nữa. Bây giờ mô hình ngôn ngữ lớn LLM dễ dàng giúp chúng ta xây dựng và triển khai ứng dụng phân tích cảm xúc chỉ trong vài giờ bằng việc thiết kế prompts cho LLM đánh giá văn bản là tích cực, trung lập, hay tiêu cực.
Trong lĩnh vực thị giác máy tính, kỹ thuật “visual prompting” được Landing AI tiên phong phát triển tận dụng sức mạnh của mô hình hình ảnh lớn (Large Vision Model – LVM) để giải quyết nhiều tác vụ thị giác máy tính khác nhau, bao gồm phát hiện vật thể, nhận dạng vật thể, phân đoạn vật thể (semantic segmentation),… Visual Prompting sử dụng các dấu hiệu hình ảnh (visual hints) hay nhãn dữ liệu ở dạng tối giản để hướng dẫn mô hình LVM giải quyết một tác vụ mới.
Ví dụ để thực hiện tác vụ phân đoạn hình ảnh lá cây, chúng ta thường phải sử dụng đường bao lá cây làm nhãn huấn luyện mô hình AI. Nhưng khi sử dụng kỹ thuật Visual Prompting chúng ta chỉ cần cung cấp hai đường sọc, một đường bên trong và một đường bên ngoài chiếc lá (xem Hình 1). LVM sẽ dự đoán phạm vi của lá cây một cách lặp đi lặp lại cho đến khi hoàn tất việc phân đoạn hình ảnh lá cây. Việc này hoàn toàn tương đồng với việc chúng ta dạy các cháu bé tô màu lá cây. Bằng việc chỉ vào một vài điểm trên hình vẽ: đây là lá cây, đây là hình nền. Cháu bé hoàn toàn có khả năng tô màu lá cây và hình nền một cách dễ dàng.
Việc xây dựng mô hình nền tảng lớn (Large Foundation Model – LFM) bao gồm cả LLM và LVM yêu cầu cả kiến thức cao cấp về AI cũng như đầu tư lớn về cơ sở hạ tầng tính toán như datalake và máy chủ tính toán.
Vì vậy cuộc chạy đua xây dựng mô hình LFM sẽ tiếp diễn giữa các gã khổng lồ Big Tech và AI Start-up trong năm 2024 và một vài năm sắp tới. Phần lớn các mô hình LFM sẽ được cung cấp miễn phí cho cộng đồng dưới dạng mã nguồn mở để thúc đẩy sự phát triển của công nghệ AI tạo sinh. Khối doanh nghiệp sẽ được hưởng lợi khi được tiếp cận với nhiều lựa chọn LFM.
Trong khi đó các công ty IT sẽ là lực lượng chính để phát triển ứng dụng của LFM giải quyết các bài toán thực tế của khối doanh nghiệp. Công ty IT sẽ không đủ nguồn lực và tiềm lực tài chính để xây dựng LFM. Phát triển ứng dụng của LFM cũng không phải lĩnh vực cốt lõi (core business) của những gã khổng lồ Big Tech và AI Start-up.
AI Agent
Agent là một khái niệm mới trong công nghệ AI tạo sinh, hứa hẹn sẽ làm thay đổi cách thức con người giao tiếp và tương tác với máy tính. AI Agent là những thực thể tự chủ có khả năng cảm nhận môi trường, xử lý thông tin, đưa ra quyết định và hành động để đạt được mục tiêu được đặt ra.
Công nghệ AI tạo sinh đặc biệt là LLM có thể hiểu được mục tiêu con người đặt ra ở dạng ngôn ngữ tự nhiên. Thay vì trả lời câu hỏi của chúng ta, LLM sẽ phác thảo bản kế hoạch từng bước cần phải thực hiện để đạt được mục tiêu. Agent sẽ tự chủ thực thi bản kế hoạch. Kể từ cuối năm 2022, sự bùng nổ về độ phổ biến của ChatGPT và LLM đã thổi bùng lên sự phát triển của công nghệ AI Agent trong năm 2023 và sẽ tiếp diễn trong những năm tiếp theo.
AutoGPT là chương trình mã nguồn mở tận dụng năng lực thông hiểu siêu việt ngôn ngữ tự nhiên của ChatGPT đưa ra những bước cần và đủ để đạt được mục tiêu. Ví dụ nếu đặt ra mục tiêu tổ chức một bữa tiệc cuối năm cho một công ty 500 người, AutoGPT sẽ đưa ra các đầu việc cần phải thực hiện bao gồm: gửi thư mời cho cán bộ nhân viên, khách danh dự, lập lịch trình buổi tiệc, và hậu cần,… dựa trên các nguồn thông tin tin cậy hướng dẫn tổ chức các sự kiện tương tự.
BabyAGI (Artificial General Intelligence) là một ví dụ về hệ thống quản lý công việc được hỗ trợ bởi AI. Hệ thống này sử dụng nhiều agent dựa trên LLMs. Chẳng hạn, có một agent tạo công việc mới dựa trên mục tiêu và kết quả của công việc trước đó, một agent điều phối danh sách công việc, và một agent để hoàn thành công việc/nhiệm vụ con. Trở lại ví dụ tổ chức buổi tiệc cuối năm ở trên, một vị khách mời quan trọng, muốn biểu diễn piano dành tặng nhân việc trong buổi tiệc. Sau khi agent gửi thư mời xác nhận điều này, agent tổ chức sự kiện sẽ thêm nhiệm vụ thuê pinao vào phần hậu cần.
AutoAgents là một bước phát triển đột phá, có khả năng tự động tạo ra và phối hợp nhiều agent chuyên gia để xây dựng một đội ngũ chuyên gia ảo AI, tuỳ theo từng nhiệm vụ khác nhau. Nó gắn kết mối quan hệ giữa các nhiệm vụ và vai trò bằng cách tự động tạo ra nhiều agent cần thiết (chuyên gia) dựa trên nội dung nhiệm vụ và lập kế hoạch giải quyết cho nhiệm vụ hiện tại. Các agent chuyên gia này hợp tác với nhau để hoàn thành nhiệm vụ một cách hiệu quả. Ví dụ trong nghiên cứu khám phá thuốc (drug discovery), AutoAgents sẽ tạo ra một đội Agent chuyên gia bao gồm: Agent nghiên cứu tài liệu khoa học, Agent phân tích dữ liệu, Agent mô phỏng phản ứng thuốc, Agent thiết kế thực nghiệm và Agent giao tiếp. Đội Agent chuyên gia thực thi nhiệm vụ chuyên biệt và giao tiếp với nhau cho đến khi khám phá ra một loại thuốc mới.
AI tại biên (AI at the Edge)
Trí tuệ nhân tạo tại biên (AI at the edge) là một lĩnh vực phát triển nhanh chóng và cạnh tranh khốc liệt, liên quan đến việc triển khai mô hình AI trên các thiết bị như máy tính xách tay, điện thoại thông minh, camera, drone, robot và cảm biến.
Cùng với sự phát triển của các ứng dụng AI, xu hướng chuyển xử lý AI xuống thiết bị biên – gần hơn với nguồn dữ liệu – đã nhận được sự quan tâm đáng kể. Cuộc đua giữa các công ty Big Tech và nhà sản xuất chip để đưa công nghệ AI vào ứng dụng hàng ngày và thiết bị di động đang diễn ra sôi động, nhằm cải thiện tốc độ, quyền riêng tư, bảo mật và hiệu quả năng lượng, mà không phụ thuộc vào máy chủ đám mây.
NVIDIA là công ty tiên phong trong lĩnh vực AI tại biên với nền tảng Jetson mạnh mẽ và đa năng, nhờ khoản đầu tư lớn vào công nghệ GPU hiệu suất cao trong giai đoạn đầu phát triển của công nghệ học sâu.
Họ có mối quan hệ chặt chẽ với các doanh nghiệp và nhà cung cấp dịch vụ đám mây như Amazon Web Service, Microsoft Azure và Google Cloud Platform,… Quan trọng hơn, NVIDIA cung cấp hệ sinh thái phần mềm và các công cụ như TensorRT, Deepstream và Triton,… hỗ trợ một cách toàn diện các nhà phát triển xây dựng và tăng tốc mô hình AI một cách hiệu quả trên phần cứng của NVIDIA. Mặc dù chi phí GPU của NVIDIA thường cao hơn đối thủ, nhưng vẫn được ưa chuộng bậc nhất trong cộng đồng nghiên cứu AI.
Một số đối thủ đang cung cấp các lựa chọn thay thế rẻ hơn và thậm chí nhanh hơn so với Jetson. Google Edge TPU là ASIC tùy chỉnh được tối ưu hóa để chạy các mô hình TensorFlow Lite tại biên.
Intel Movidius Myriad X là chip xử lý hình ảnh (VPU) được thiết kế để chạy các ứng dụng AI tại biên. Xilinx Zynq UltraScale+ MPSoC là hệ thống trên chip (SoC) đa năng có trang bị FPGA và bộ xử lý ARM. NXP i.MX 8M Plus là SoC trang bị bộ xử lý ARM và chip xử lý nơ ron(NPU).
Qualcomm Snapdragon 865 là SoC di động có trang bị NPU. Các công ty này không chỉ tập trung vào thiết kế phần cứng mà còn cả hệ sinh thái phần mềm và công cụ để hỗ trợ các nhà phát triển ứng dụng AI tận dụng phần cứng một cách hiệu quả. Nhưng nó vẫn kém toàn diện hơn nhiều so với hệ sinh thái phần mềm và công cụ của NVIDIA. Sự cạnh tranh gay gắt này vẫn sẽ tiếp tục trong những năm tới.
Apple cũng tham gia vào lĩnh vực này, thiết kế chip cho các sản phẩm của riêng mình, bao gồm máy tính xách tay và thiết bị di động. Chip M1 có Neural Engine 16 lõi có thể thực hiện tới 11 nghìn tỷ phép tính mỗi giây. Mặc dù chip M2 có Neural Engine 10 lõi nhưng có thể hoạt động nhanh hơn M1 35%. Điều này khiến nó trở thành lựa chọn lý tưởng để chạy các mô hình AI cho các tác vụ như nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên và học máy.
Chip A16 Bionic của Apple, được trang bị cho iPhone 14 và iPhone 14 Pro, thậm chí còn mạnh mẽ hơn chip M1. Nó có Neural Engine 16 lõi có thể thực hiện tới 17 nghìn tỷ phép tính mỗi giây. Chip A17 trên iPhone 15 Pro có thể hoạt động nhanh hơn 20% với chỉ GPU 6 lõi.
Qualcomm dự kiến sẽ ra mắt Snapdragon Elite Gen 3 vào đầu năm 2024 dựa trên quy trình 4 nm. Engine AI của nó nhanh gấp đôi so với thế hệ trước. Nó có thể chạy tới 15 nghìn tỷ phép tính mỗi giây (TOPS) trên AI Benchmark. Nó có thể chạy đồng thời nhiều mô hình AI, bao gồm nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên và mô hình học máy. Cả chip Qualcomm và Apple đều có thể chạy mô hình AI với mức tiêu thụ điện năng thấp.
Do đó, dự kiến chúng ta sẽ thấy sự cạnh tranh ngày càng gay gắt hơn trong lĩnh vực thiết bị AI tại biên trong năm 2024 và những năm tiếp theo.
Đào Hữu Hùng
Giám đốc Khoa học Công nghệ AI
Tập Đoàn Verysell
Email: hung.daohuu@verysell.ai
Tác giả Đào Hữu Hùng, tốt nghiệp chuyên ngành Tự động hoá xí nghiệp công nghiệp từ Đại học Bách khoa Hà Nội năm 2007, nhận bằng tiến sĩ về AI và thị giác máy tính từ Đại học Keio, Nhật Bản năm 2014. TS. Hùng công tác tại Công ty Phần mềm FPT Nhật Bản từ năm 2015 đến 2022, tại đó anh là người sáng lập nhóm Khoa học dữ liệu, cung cấp dịch vụ tư vấn, nghiên cứu và phát triển AI cho các doanh nghiệp Nhật Bản. TS. Hùng về nước và công tác tại Trung tâm AI, Công ty TNHH phần mềm FPT Việt Nam từ 2022 cho đến nay, đảm nhiệm nghiên cứu và phát triển kinh doanh ứng dụng AI trong công nghiệp. TS. Hùng đã xuất bản khoảng 20 bài báo tại các hội nghị và tạp chí quốc tế hàng đầu về AI và thị giác máy tính như FG, ICASSP, BMVC, và ACCV,… Anh cũng giữ các chức vụ Giám đốc tại các công ty AI Start-up ở Việt Nam như VinBrain và Nautilus.