Mô hình hóa và dự đoán phát thải carbon công nghiệp tại Thành phố Hồ Chí Minh bằng học máy

Nghiên cứu này so sánh bốn mô hình gồm Hồi quy tuyến tính, ARIMA, SVR và Rừng ngẫu nhiên trong dự báo phát thải CO₂ công nghiệp tại Thành phố Hồ Chí Minh. Kết quả cho thấy Hồi quy tuyến tính đa biến (MLR) và SVR tối ưu đạt hiệu năng tốt nhất, với R² lần lượt là 0,932 và 0,923, trong khi Random Forest và ARIMA cho R² âm do hạn chế của bộ dữ liệu chuỗi thời gian nhỏ (n = 52). Phân tích cũng xác nhận giao thông vận tải là động lực ngoại sinh quan trọng nhất đối với phát thải CO₂ công nghiệp của thành phố. Trên cơ sở đó, mô hình MLR ước tính phát thải CO₂ công nghiệp năm 2026 đạt 123,79 Mt CO₂, cung cấp cơ sở tham khảo cho lựa chọn mô hình và ưu tiên giảm phát thải theo ngành.

14:17 | 13/04/2026

Công nghệ thu giữ, sử dụng và lưu trữ CO2 nhằm giảm phát thải từ các nhà máy nhiệt điện tại Việt Nam Nghiên cứu, đánh giá và thiết kế tiền khả thi hệ thống điện mặt trời áp mái tại trường học Nghiên cứu tối ưu hóa tích hợp các nguồn năng lượng tái tạo vào nhà máy xử lý nước thải

Giới thiệu

Khử carbon công nghiệp đang là yêu cầu cấp bách đối với Thành phố Hồ Chí Minh trong bối cảnh áp lực giảm phát thải ngày càng gia tăng. Để hỗ trợ giám sát, phân tích và dự báo phát thải CO₂, nghiên cứu này so sánh các mô hình học máy và mô hình thống kê trên bộ dữ liệu chuỗi thời gian quy mô nhỏ, nhằm xác định cách tiếp cận phù hợp nhất cho dự báo và hỗ trợ lựa chọn chính sách giảm phát thải theo ngành.

1. Dấu chân phát thải công nghiệp tại Thành phố Hồ Chí Minh

Thành phố Hồ Chí Minh là đầu tàu công nghiệp của Việt Nam, nhưng đồng thời cũng là một điểm nóng phát thải carbon của nền kinh tế đô thị. Phát thải CO₂ công nghiệp tại đây không chỉ phản ánh quy mô sản xuất, mà còn phản ánh cường độ sử dụng năng lượng, cấu trúc vật liệu, hoạt động xây dựng và mức độ phụ thuộc vào logistics - giao thông trong toàn bộ chuỗi giá trị công nghiệp.

Các nguồn phát thải chủ yếu bao gồm điện năng tiêu thụ trong sản xuất, nhiên liệu hóa thạch sử dụng tại cơ sở, phát điện dự phòng, vật liệu xây dựng có cường độ carbon cao và vận tải hàng hóa. Trong đó, giao thông vận tải giữ vai trò đặc biệt quan trọng vì gắn trực tiếp với dòng vận động của công nghiệp và có khả năng tác động mạnh đến phát thải toàn hệ thống.

Do đó, dấu chân phát thải công nghiệp của Thành phố Hồ Chí Minh cần được tiếp cận như một bài toán liên ngành, thay vì chỉ xem như kết quả của riêng hoạt động sản xuất. Điều này đòi hỏi các công cụ định lượng có khả năng nhận diện động lực phát thải, đánh giá quan hệ giữa các biến chi phối và cung cấp cơ sở đáng tin cậy cho dự báo cũng như hoạch định chính sách khử carbon.

2. Phương pháp

Khử carbon công nghiệp đang là yêu cầu cấp bách đối với Thành phố Hồ Chí Minh. Nghiên cứu này so sánh các mô hình học máy và mô hình thống kê trên bộ dữ liệu chuỗi thời gian nhỏ nhằm lựa chọn cách tiếp cận phù hợp cho dự báo phát thải CO₂ và hỗ trợ chính sách giảm phát thải theo ngành.

Thu thập dữ liệu

Bộ dữ liệu được rà soát về giá trị thiếu, định dạng và tính nhất quán trước khi mô hình hóa; biến fossil_CO₂_per_GDP được nội suy để bảo đảm tính liên tục của chuỗi, còn các biến số và thời gian được chuẩn hóa cho phân tích và dự báo. Bảng 1 trình bày tình trạng dữ liệu sau tiền xử lý. Kết quả trong Hình 1 cho thấy phát thải khác biệt rõ giữa bốn lĩnh vực, trong đó giao thông vận tải biến động mạnh nhất với nhiều ngoại lai, công trình/xây dựng ổn định hơn, còn công nghiệp điện và đốt nhiên liệu công nghiệp khác có mức phân tán trung bình. Các bước tiền xử lý này giúp bảo đảm độ tin cậy của chuỗi dữ liệu 52 năm và làm cơ sở cho việc đưa yếu tố thời gian vào mô hình.

Mô hình hóa và dự đoán phát thải carbon công nghiệp tại Thành phố Hồ Chí Minh bằng học máy

Hình 1. Biểu đồ hộp thể hiện phát thải theo từng nhóm ngành công nghiệp.

Bảng 1. Các biến của bộ dữ liệu, mức độ đầy đủ ban đầu và tình trạng sau tiền xử lý.

Như thể hiện trong Hình 2, biến fossil_CO₂_per_GDP bị thiếu dữ liệu trong giai đoạn 1970–1989. Để tránh làm mất 20 năm thông tin ngành có giá trị, nghiên cứu áp dụng nội suy tuyến tính. Phần đường nền gần như phẳng quan sát được trong giai đoạn 1970–1990 phản ánh quá trình ngoại suy dựa trên các mốc kinh tế sớm nhất hiện có. Cách tiếp cận này được ưu tiên hơn so với nội suy bằng giá trị trung bình, vì nó bảo toàn tính liên tục theo thời gian của bộ dữ liệu, cho phép các mô hình duy trì cỡ mẫu nhất quán (n = 52), đồng thời tập trung quá trình học dự báo vào giai đoạn hiện đại có mức biến động cao hơn (1991–2026).

Hình 2. Kiểm chứng nội suy tuyến tính cho biến phát thải CO₂ trên GDP.

Một trong những bước quan trọng nhất của khung phương pháp là đưa vào biến trễ một năm của biến mục tiêu (Total_CO2t−1), như được minh họa trong biểu đồ hồi quy ở Hình 3. Hình này cung cấp cơ sở thực nghiệm cho quyết định trên. Các điểm tròn màu xanh biểu diễn các cặp giá trị phát thải CO₂ quan sát được, trong đó giá trị phát thải của năm hiện tại được biểu diễn tương ứng với giá trị của năm trước đó (độ trễ 1 năm), qua đó cho thấy tính dai dẳng của phát thải theo thời gian. Đường màu đỏ thể hiện hồi quy tuyến tính khớp giữa phát thải CO₂ tại thời điểm t và phát thải tại thời điểm t − 1, phản ánh cường độ và chiều hướng của mối phụ thuộc theo thời gian này; trong khi đó, vùng tô đỏ bao quanh đường hồi quy biểu thị khoảng tin cậy của ước lượng. Độ dốc dương rõ rệt cùng với sự phân bố khá chặt của các điểm dữ liệu quanh đường hồi quy cho thấy tồn tại một tương quan dương rất mạnh giữa phát thải hiện tại (t) và mức phát thải của năm trước (t − 1). Điều này xác nhận rằng quỹ đạo phát thải carbon của Thành phố Hồ Chí Minh mang đặc trưng quán tính theo thời gian cao.

Hình 3. Kiểm tra tự tương quan và luận cứ cho việc đưa biến trễ vào mô hình.

Việc đưa biến “bộ nhớ” này vào mô hình cho phép các mô hình học máy đã tối ưu hóa, đặc biệt là SVR và Random Forest, nắm bắt được động lượng ngẫu nhiên của chuỗi dữ liệu. Bước xây dựng đặc trưng này là yếu tố chủ chốt giúp khắc phục các giá trị R2 âm quan sát được trong các mô hình cơ sở chưa tối ưu, vì nó cung cấp cho thuật toán bối cảnh thời gian cần thiết mà các mô hình hồi quy cắt ngang cổ điển không thể phản ánh đầy đủ.

Thống kê mô tả và đặc trưng phát thải theo ngành

Như thể hiện trong Hình 4, tổng phát thải CO₂ hóa thạch tăng rõ rệt trong giai đoạn 1970–2021, từ 29,06 Mt lên 127,02 Mt. Tuy nhiên, xu thế này không mang tính tuyến tính mà đi kèm biến động đáng kể giữa các năm, với dạng dao động kiểu “răng cưa”. Điều này cho thấy giá trị trung bình của chuỗi thay đổi theo thời gian và là dấu hiệu ban đầu của tính không dừng, phù hợp với kết quả kiểm định ADF (p = 0,0939).

Bảng 2. Các thống kê mô tả tóm tắt cho phát thải theo từng lĩnh vực.

Bảng 3. Thống kê mô tả tóm tắt cho tổng phát thải.

Trong các lĩnh vực phân tích, giao thông vận tải nổi lên là động lực phát thải chi phối. Sau giai đoạn đầu còn tương đối đồng pha với các lĩnh vực khác, phát thải giao thông tăng mạnh từ sau năm 2000 và đến năm 2026 đạt gần 60 Mt, tương đương khoảng 47% tổng phát thải. Xu hướng này cũng nhất quán với hệ số tương quan Pearson rất cao (r = 0,94), cho thấy vai trò trung tâm của giao thông trong cấu trúc phát thải CO₂.

Ngược lại, công nghiệp điện và đốt nhiên liệu công nghiệp khác cho thấy xu hướng tăng ổn định hơn, phản ánh sự phụ thuộc kéo dài vào các nguồn năng lượng carbon cao. Trong khi đó, công trình/xây dựng là lĩnh vực có mức phát thải thấp nhất và biến động hẹp nhất, cho thấy cường độ phát thải của khu vực này vẫn thấp hơn đáng kể so với giao thông vận tải và công nghiệp điện.

Hình 4. Tổng phát thải CO₂ và phát thải CO₂ theo các lĩnh vực kinh tế (Mt) tại Thành phố Hồ Chí Minh.

Kết quả này xác nhận rằng các lĩnh vực này là những động lực chủ đạo chi phối phát thải carbon tại Hồ Chí Minh. Ma trận tương quan cũng cho thấy mức tương quan nội tại rất cao giữa các biến đầu vào, chẳng hạn giữa điện lực và giao thông vận tải (r = 0,95), phản ánh hiện tượng đa cộng tuyến rõ rệt. Mặc dù điều này có thể làm suy giảm độ ổn định của các mô hình tuyến tính cơ bản, nó lại phù hợp hơn với các mô hình học máy tối ưu ở Giai đoạn 2, vốn có khả năng khai thác hiệu quả không gian đặc trưng nhiều chiều và dư thừa. Ngoài ra, việc bổ sung biến trễ Total_CO2_Lag1 cho phép đánh giá vai trò của động lượng thời gian như một tín hiệu dự báo cho phát thải hiện tại.

Hình 5. Ma trận tương quan Pearson giữa các động lực phát thải trong bộ dữ liệu nghiên cứu.

Kết quả trong Hình 6 có ý nghĩa thống kê rõ rệt, khi biến trễ 1 năm cho thấy hệ số tương quan 0,88 với tổng phát thải của năm hiện tại. Giá trị rất cao này cung cấp bằng chứng thực nghiệm thuyết phục cho việc đưa yếu tố “bộ nhớ thời gian” vào mô hình. Điều này cũng giải thích vì sao các mô hình ở Giai đoạn 1, khi chưa khai thác đặc trưng trễ, có thể cho hiệu quả hạn chế, trong khi các mô hình ở Giai đoạn 2 đạt độ chính xác cao hơn nhờ tận dụng được thông tin động học theo thời gian. Bên cạnh đó, tương quan âm với biến fossil_CO2_per_GDP (r = −0,52) cho thấy mặc dù tổng phát thải tiếp tục gia tăng, cường độ carbon so với tăng trưởng kinh tế lại có xu hướng thay đổi theo chiều ngược lại. Kết quả này tiếp tục củng cố sự cần thiết của các mô hình phi tuyến như SVR để mô tả đầy đủ mối quan hệ phức tạp và mang tính nghịch biến này.

Hình 6. Bản đồ nhiệt tương quan với các đặc trưng trễ được xây dựng.

3. Kết quả và thảo luận

Hiệu năng dự báo của các mô hình được đánh giá qua hai giai đoạn: Giai đoạn 1 (mô hình cơ sở) và Giai đoạn 2 (tối ưu hóa siêu tham số). Cách tổ chức này cho phép đánh giá rõ mức độ nhạy của các mô hình học máy và mô hình thống kê cổ điển khi áp dụng cho bộ dữ liệu chuỗi thời gian có quy mô hạn chế (n = 52). Kết quả tương ứng được trình bày trong Hình 8–9.

3.1. Hiệu năng cơ sở và thất bại trong khả năng khái quát hóa

Kết quả giai đoạn cơ sở cho thấy sự khác biệt rõ rệt giữa độ phù hợp mô tả và năng lực dự báo thực sự. Như trình bày trong Bảng 4 và Hình 7, mô hình Hồi quy tuyến tính đa biến (MLR) đạt R² = 0,9321 và RMSE = 2,0882, là mức tốt nhất trong nhóm mô hình cơ sở. Tuy nhiên, hiệu năng này chủ yếu phản ánh khả năng mô tả quan hệ đồng thời giữa biến mục tiêu và các biến ngành tại cùng thời điểm, hơn là khả năng dự báo ngoài mẫu theo nghĩa chặt.

Ngược lại, các mô hình SVR, Random Forest và ARIMA trong cấu hình mặc định đều cho thấy thất bại nghiêm trọng về khả năng khái quát hóa, với các giá trị R² âm lần lượt là −14,63, −5,16 và −8,42. Kết quả này cho thấy các siêu tham số mặc định không phù hợp với cấu trúc biến động, xu thế và quán tính thời gian của chuỗi phát thải CO₂ công nghiệp tại Thành phố Hồ Chí Minh. Nói cách khác, các mô hình chưa tối ưu không nắm bắt được động lực của chuỗi, khiến dự báo tạo ra còn kém hơn cả một mô hình chuẩn đơn giản dựa trên giá trị trung bình.

3.2. Tối ưu hóa siêu tham số có hệ thống

Giai đoạn 2 tập trung vào việc tinh chỉnh siêu tham số bằng GridSearchCV kết hợp với cơ chế kiểm định chéo TimeSeriesSplit nhằm bảo đảm tính phù hợp đối với dữ liệu chuỗi thời gian. Kết quả trình bày trong Bảng 5 là phát hiện nổi bật nhất của nghiên cứu, cho thấy hiệu năng mô hình phụ thuộc rất mạnh vào cấu hình siêu tham số khi làm việc với bộ dữ liệu dọc có quy mô nhỏ.

Quá trình tối ưu hóa đã tạo ra sự cải thiện đặc biệt rõ rệt đối với mô hình SVR. Sau khi hiệu chỉnh tham số điều chuẩn C và biên không nhạy ϵ, giá trị R² của SVR tăng từ −14,63 lên 0,9227, trong khi RMSE đạt 2,2291. Như thể hiện trong Hình 9, đường dự báo của SVR tối ưu bám khá sát các quan sát thực tế, cho thấy mô hình này có khả năng nắm bắt tốt các quan hệ phi tuyến và phụ thuộc đồng thời giữa các động lực công nghiệp với tổng phát thải CO₂. Trái lại, mô hình Random Forest gần như không cải thiện sau tối ưu hóa và vẫn duy trì R² âm ở mức −5,1643. Kết quả này cho thấy các mô hình cây quyết định tổ hợp, vốn thường cần bộ dữ liệu lớn hơn để thiết lập các điểm chia ổn định, gặp bất lợi rõ rệt trong bối cảnh dữ liệu nhỏ. Với n = 52, đặc tính nhiều chiều của Random Forest làm gia tăng nguy cơ quá khớp, và việc tinh chỉnh siêu tham số đơn thuần không đủ để khắc phục hạn chế này.

Hình 7. So sánh kết quả dự báo của các mô hình cơ sở.

ARIMA(0,2,1) là mô hình tối ưu trong nhóm ARIMA. Dù R² vẫn âm (−2,4574), RMSE đã giảm từ 24,61 xuống 14,90, cho thấy sai phân giúp ổn định chuỗi dữ liệu. Tuy vậy, kết quả này cũng cho thấy mô hình đơn biến còn hạn chế trong dự báo phát thải CO₂ công nghiệp của Thành phố Hồ Chí Minh, vốn chịu tác động của nhiều yếu tố cấu trúc theo ngành.

Bảng 4. Kết quả mô hình hóa cơ sở.

Bảng 5. Kết quả của giai đoạn tối ưu hóa siêu tham số

3.3. Lựa chọn mô hình phục vụ chính sách khử carbon

Ưu thế của hai mô hình MLR và SVR đã tối ưu hóa cung cấp một định hướng phương pháp rõ ràng cho quá trình xây dựng chính sách khử carbon công nghiệp tại Thành phố Hồ Chí Minh. Độ chính xác dự báo cao của hai mô hình này cho thấy phát thải công nghiệp không phải là những dao động ngẫu nhiên, mà gắn chặt với mức độ hoạt động của các lĩnh vực chủ chốt, đặc biệt là điện năng và giao thông vận tải.

Sự thất bại của mô hình Random Forest là một phát hiện có ý nghĩa học thuật quan trọng. Kết quả này cho thấy rằng, đối với bài toán dự báo phát thải ở quy mô hệ thống khi dữ liệu lịch sử chỉ có độ phân giải theo năm và số quan sát còn hạn chế, các mô hình tiết kiệm tham số như SVR và hồi quy tuyến tính phù hợp hơn so với các phương pháp tổ hợp phức tạp. Với cách tiếp cận dựa trên biên, SVR tối ưu tỏ ra là mô hình vững hơn trong việc nắm bắt động lượng phát thải của chuỗi dữ liệu mà không bị chi phối quá mức bởi nhiễu gắn với quá trình mở rộng công nghiệp và đô thị.

Hình 8. Xếp hạng hiệu năng các mô hình theo sai số căn phương trung bình (RMSE).

Hình 8 cho thấy sự khác biệt rõ rệt về sai số dự báo giữa các mô hình. Hồi quy tuyến tính cho giá trị RMSE thấp nhất (2,09), tiếp theo là SVR tối ưu (2,23), trong khi ARIMA và Random Forest có sai số cao hơn đáng kể. Kết quả này cho thấy các mô hình tiết kiệm tham số như Hồi quy tuyến tính và SVR phù hợp hơn với bộ dữ liệu chuỗi thời gian nhỏ của nghiên cứu.

Hình 9. So sánh kết quả dự báo của các mô hình sau tối ưu hóa.

Trong số đó, SVR bám sát quỹ đạo thực tế nhất và tái hiện tốt cả xu hướng tăng lẫn các dao động theo thời gian. ARIMA chỉ phản ánh được xu thế tăng tổng quát nhưng vẫn dự báo thấp hơn giá trị thực ở phần lớn các thời điểm, trong khi Random Forest sai lệch đáng kể và không theo kịp xu hướng tăng ở giai đoạn cuối. Kết quả này cho thấy SVR là mô hình phù hợp nhất để mô phỏng động học phát thải trong bộ dữ liệu nghiên cứu.

4. Kết luận

Nghiên cứu này cho thấy học máy và mô hình hóa thống kê có thể cung cấp một cơ sở định lượng đáng tin cậy cho dự báo phát thải CO₂ công nghiệp tại Thành phố Hồ Chí Minh. Kết quả chỉ ra rằng các mô hình cơ sở khó đạt được khả năng khái quát hóa tốt khi dữ liệu có quy mô nhỏ, nhưng tối ưu hóa siêu tham số có hệ thống có thể cải thiện đáng kể hiệu năng dự báo. Trong toàn bộ các mô hình được đánh giá, MLR và SVR tối ưu là hai phương pháp hiệu quả nhất, với khả năng giải thích hơn 92% biến thiên của tổng phát thải. Phân tích cũng xác nhận rằng giao thông vận tải và công nghiệp điện là hai động lực phát thải quan trọng nhất.

Về phương diện chính sách, các kết quả này hàm ý rằng chiến lược khử carbon công nghiệp cần tập trung trước hết vào chuyển dịch năng lượng trong lĩnh vực điện và nâng cao hiệu quả phát thải của hệ thống giao thông vận tải. Đồng thời, nghiên cứu cũng cho thấy sự cần thiết của việc đầu tư vào dữ liệu phát thải có tần suất cao hơn, hạ tầng giám sát số và phối hợp liên ngành, nhằm tạo nền tảng cho các mô hình dự báo tiên tiến hơn trong tương lai và hỗ trợ lộ trình giảm phát thải theo hướng dựa trên bằng chứng.

Ngô Đăng Lưu - Công ty Anh Minh Global
Võ Hoàng Đạt - Công ty cổ phần Thủy điện Vĩnh Sơn - Sông Hinh

Tài liệu tham khảo

[1] Jaramillo P, Kahn Ribeiro S, Newman P, Dhar S, Diemuodeke OE, Kajino T, et al. Transport. In: Shukla PR, Skea J, Slade R, Al Khourdajie A, van Diemen R, McCollum D, et al., editors. Climate Change 2022: Mitigation of Climate Change. Contribution of Working Group III to the Sixth Assessment Report of the Intergovernmental Panel on Climate Change. Cambridge: Cambridge University Press; 2022. doi:10.1017/9781009157926.012

[2] Bashmakov IA, Nilsson LJ, Acquaye A, Bataille C, Cullen JM, de la Rue du Can S, et al. Industry. In: Shukla PR, Skea J, Slade R, Al Khourdajie A, van Diemen R, McCollum D, et al., editors. Climate Change 2022: Mitigation of Climate Change. Contribution of Working Group III to the Sixth Assessment Report of the Intergovernmental Panel on Climate Change. Cambridge: Cambridge University Press; 2022. doi:10.1017/9781009157926.013

[3] Japan International Cooperation Agency (JICA). GHG Inventory of Ho Chi Minh City. Tokyo: JICA; 2017.

[4] Bergmeir C, Hyndman RJ, Koo B. A note on the validity of cross-validation for evaluating autoregressive time series prediction. Computational Statistics & Data Analysis. 2018;120:70–83. doi:10.1016/j.csda.2017.11.003.

[5] Wen L, Cao Y. Influencing factors analysis and forecasting of residential energy-related CO₂ emissions utilizing optimized support vector machine. Journal of Cleaner Production. 2020;250:119492. doi:10.1016/j.jclepro.2019.119492.

[6] Wang C, Li M, Yan J. Forecasting carbon dioxide emissions: application of a novel two-stage procedure based on machine learning models. Journal of Water and Climate Change. 2023;14(2):477–493. doi:10.2166/wcc.2023.331.

[7] Le TT, Sharma P, Osman SM, Dzida M, Nguyen PQP, Tran MH, et al. Forecasting energy consumption and carbon dioxide emission of Vietnam by prognostic models based on explainable machine learning and time series. Clean Technologies and Environmental Policy. 2024;26:4405–4431. doi:10.1007/s10098-024-02852-9.

[8] Al Nuaimi HS, Acquaye A, Mayyas A. Machine learning applications for carbon emission estimation. Resources, Conservation & Recycling Advances. 2025;27:200263. doi:10.1016/j.rcradv.2025.200263.

Đường dẫn bài viết: https://tudonghoangaynay.vn/mo-hinh-hoa-va-du-doan-phat-thai-carbon-cong-nghiep-tai-thanh-pho-ho-chi-minh-bang-hoc-may-20777.htmlIn bài viết