Chúng tôi nghiên cứu và triển khai mô hình dự báo giá bất động sản cho Thành phố Hồ Chí Minh, Việt Nam. Đó là một mô hình kết hợp Khoa học dữ liệu với Học máy, phát triển web. Trong đó giá nhà ở có mối liên hệ đáng kể với các đặc điểm các nhóm khác như nhóm yếu tố vị trí, nhóm yếu tố pháp lý, nhóm yếu tố môi trường, khu vực và dân số, nên việc dự đoán giá nhà riêng lẻ cần có thông tin khác. Nhiều bài báo sử dụng các thuật toán học máy điển hình để dự đoán giá bất động sản một cách đáng tin cậy. Tuy nhiên, họ hiếm khi quan tâm đến các hàm số riêng lẻ trong thư viện và bỏ qua các mô hình ít phổ biến nhưng phức tạp hơn. Kết quả là, giá bất động sản thay đổi hàng ngày và thường xuyên bị thổi phồng hơn so với giá trị thực tế. Mục tiêu ưu việt của nghiên cứu này là dự đoán giá trị tài sản bằng cách sử dụng trong thế giới thực. Ở đây, chúng tôi đánh giá từng yếu tố chính được xem xét khi xác định giá. Ngoài ra, Đề tài này nhằm mục đích nghiên cứu và ứng dụng Python và đạt được kiến thức chuyên môn về Dữ liệu lớn, Học máy và Trí tuệ nhân tạo.
1. Giới thiệu
Mức thu nhập của người dân và tăng trưởng kinh tế toàn cầu đều có mối liên quan đến giá bất động sản. Trong sáu năm rưỡi qua, thị trường bất động sản nhà ở của Thành phố Hồ Chí Minh đã chứng kiến một sự trao đổi phi thường về cổ phiếu nhà ở. Tuy nhiên, thị trường, trước đây được cho là một trong những phân khúc thị trường tư nhân quan trọng nhất trong cả nước, hiện đang gặp nhiều khó khăn để duy trì hoạt động kinh doanh.
Thực hiện mục tiêu nghiên cứu, đề tài đã sử dụng các phương pháp phân tích sau: Phương pháp phân tích tổng hợp – nhằm tổng hợp các lý thuyết và các nghiên cứu có liên quan được kế thừa trong việc xây dựng khung lý thuyết và khung phân tích.
Phương pháp thống kê mô tả – Sử dụng nhằm mô tả bộ dữ liệu khảo sát phục vụ phân tích. Qua thống kê mô tả có thể hiểu được bản chất của bộ dữ liệu và từ thống kê mô tả cũng định hướng cho việc ước lượng các giá trị điển hình cho nhà ở.
Bộ dữ liệu phân tích bao gồm số liệu sơ cấp và thứ cấp, số liệu thứ cấp cập nhật từ Tổng cục Thống kê, Bộ Xây dựng và Sở Xây dựng TP. HCM,… Số liệu sơ cấp bao gồm khảo sát ý kiến chuyên gia trong lĩnh vực thẩm định giá, đầu tư, phân tích thị trường bất động sản. Và bộ dữ liệu khảo sát nhà ở tại TP. HCM, trong năm 2021 có 13.320 mẫu và 2022 là 630 mẫu khảo sát.
Phương pháp khảo sát ý kiến chuyên gia – thực hiện khảo sát trên 89 chuyên gia có nhiều năm kinh nghiệm trong lĩnh vực giá. Phương pháp này được sử dụng nhằm cũng cố cho việc xây dựng các biến trong mô hình nghiên cứu, đồng thời làm cơ sở cho việc chọn các giá trị điển hình cho nhà ở cần ước lượng chỉ số giá như: Diện tích đất, diện tích sàn xây dựng, chiều rộng lô đất, hướng nhà, tiện ích nội khu, khoảng cách đến trục giao thông chính, số phòng ngủ, tiện ích nội khu, tình trạng pháp lý,…
Bảng mô tả biến và dấu kỳ vọng
Cuộc khảo sát công việc nhằm mục đích tập trung và tìm ra phương pháp và chiến lược hoạt động tốt nhất để xác định nghiên cứu dự báo giá nhà ở rẻ, hợp lý và mong muốn nhất. Tài sản không chỉ là mục tiêu chính của một người mà còn cho biết địa vị và sự giàu có của một người trong xã hội ngày nay. Đầu tư bất động sản có vẻ sinh lời vì giá nhà không giảm đột ngột. Biến động giá trị bất động sản sẽ ảnh hưởng đến nhiều bên liên quan đến nhà ở, ngân hàng, cơ quan nhà nước, lập pháp và những người khác. Bất động sản là một lựa chọn thay thế hấp dẫn cho các nhà đầu tư. Kết quả là, dự báo giá bất động sản đáng kể là một chỉ số kinh tế quan trọng. Tuy nhiên, các cuộc suy thoái trước đây đã chỉ ra rằng chi phí bất động sản không thể nhìn thấy được. Chi phí bất động sản gắn liền với tình trạng kinh tế của khu vực.
Theo dữ liệu, Random Forest Regressor cho độ chính xác cao nhất, theo sau là mô hình Decision Tree Regression cây quyết định. Random Forest tạo ra các kết quả có thể so sánh được, với mức giảm tối thiểu trong mô hình Lasso. Không có sự khác biệt đáng kể giữa tất cả các nhóm lựa chọn tính năng, độc lập với các nhóm đồng tình hoặc không đồng tình. Đó là một dấu hiệu tích cực rằng giá mua có thể chỉ được sử dụng để dự báo giá bán mà không cần xem xét các yếu tố bổ sung để giảm hiện tượng quá trùng khớp của mô hình. Hơn nữa, sự giảm độ chính xác trong nhóm tính năng rất yếu. Lỗi Root Square Mean hiển thị cùng một mẫu kết quả cho tất cả các lựa chọn tính năng.
Dữ liệu là phần quan trọng nhất của dự án học máy và cần được xem xét cẩn thận. Đúng vậy, dữ liệu sẽ tác động đáng kể đến các kết luận tùy thuộc vào nơi chúng tôi tra cứu, cách chúng được trình bày, liệu chúng có nhất quán hay không, liệu có ngoại lệ hay không,… Ở bước này, một số câu hỏi phải được trả lời để đảm bảo rằng thuật toán học có hiệu quả và chính xác. Thu thập bao gồm dữ liệu về phiên bản 13.320 mẫu và chín đặc điểm. Ngoài ra, các đặc điểm sau thì cần phải có: khu vực, lợi ích, vị trí, quy mô, xã hội, tổng diện tích, phòng tắm, ban công và giá sau khi loại bỏ tất cả các giá trị null khỏi tập dữ liệu. Bộ dữ liệu đã được hoàn thành và có sẵn để thực hiện.
Các số liệu bên dưới cho thấy dữ liệu chứa một số giá trị null mà giá trị null sẽ điều chỉnh ngẫu nhiên và bộ dữ liệu sẽ làm thông tin hoàn toàn rõ ràng.
Dữ liệu được xử lý với độ chính xác cao nhất sẽ được chọn lọc để ước tính giá nhà, đồng thời giám sát quá trình dự báo trên ứng dụng web. Python sẽ thực thi máy chủ trong Microsoft Visual Studio Code và một máy chủ cục bộ sẽ được kích hoạt để đánh giá giá nhà ở một địa điểm cụ thể.
7.1 Hồi quy tuyến tính đa biến
Hồi quy tuyến tính nhằm mục đích dự đoán mối quan hệ giữa hai biến bằng cách xác lập một phương trình với dữ liệu quan sát được. Một biến được coi là biến giải thích, còn biến kia được coi là biến phụ thuộc. Ví dụ, một người lập mô hình có thể muốn áp dụng một mô hình hồi quy tuyến tính để so sánh nhu cầu của mọi người với số liệu của họ.
7.2 LASO
Phương pháp LASSO chuẩn hóa các tham số mô hình bằng cách giảm một phần của các hệ số hồi quy về 0. Sau khi thu nhỏ, giai đoạn lựa chọn tính năng sẽ diễn ra sau đó, trong đó mọi giá trị khác không được chọn để đưa vào mô hình. Chiến lược này giúp giảm các lỗi dự đoán điển hình trong các mô hình thống kê.
7.3 Phân lớp quyết định và kết quả
Decision tree learning áp dụng kỹ thuật phân chia thực hiện bằng cách thực hiện tìm kiếm tham chiếu để xác định các điểm phân chia tốt nhất bên trong mô hình. Quy trình phân chia này sau đó được tiếp tục theo cách recursive từ trên xuống cho đến khi hoàn thành hoặc phần lớn các bản ghi đã được phân loại theo các nhãn cụ thể. Độ phức tạp của mô hình quyết định xác định xem tất cả các điểm dữ liệu có được phân loại thành tập đồng nhất hay không.
Kết quả: Ước lượng giá giao dịch điển hình cho nhà ở năm 2021: Thế các giá trị điển hình vào mô hình, ta có được: LN(DG) = 7,871Hay DG2021 = 5.620 (tỷ đồng/căn)
Ước lượng giá giao dịch điển hình cho nhà ở năm 2021: Thế các giá trị điển hình vào mô hình ta có được LN(DG) = 7,897 Hay DG2021 = 4,681 (tỷ đồng/căn)
Chỉ số giá nhà ở điển hình năm 2021 so với năm 2020 là:
CSG = hay 2,33%/năm
Mô hình cho thấy so với năm 2021 giá nhà ở năm 2022 tăng 6,5%
Theo kết quả Linear Regression Model thu được độ chính xác vượt trội nhất, trong khi hai thuật toán còn lại tạo ra độ chính xác tương đương thấp hơn độ chính xác đạt được càng cao. Cuối cùng, một mô hình hồi quy tuyến tính sẽ được triển khai trong ứng dụng web để giám sát quá trình ước tính và tính giá của tòa nhà ở vị trí cụ thể đó. Hồi quy tuyến tính đa biến đã đạt được độ chính xác là 84,77%. Sau khi xuất các tệp cần thiết, chúng tôi đã tạo một ứng dụng web trong Flask cho phép người dùng nhập các thuộc tính và nhận giá ước tính cho một ngôi nhà hoặc căn hộ ở Thành phố Hồ Chí Minh. Do vậy, phương pháp hồi quy biến giá theo thời gian có nhiều ưu điểm vượt trội bởi vì, phương pháp này ước lượng dựa trên bộ dữ liệu tương đối lớn, xác suất có kết quả ước lượng chính xác hơn, đồng thời phương pháp này cũng cho ta chia nhỏ ra nhiều phân khúc giá để ước lượng cho từng phân khúc giá nhà.
Tài liệu tham khảo
[1] http://www.vva.org.vn/NewsDetail.aspx?Id=2951
[2] Thakur, Amey & Satish, Mega. (2021). Bangalore House Price Prediction. 8. 193-196.
[3] Manasa, J & Gupta, Radha & Nuggenahalli, Narahari. (2020). Machine Learning based Predicting House Prices using Regression Techniques. 624-630.10.1109/ICIMIA48430.2020.9074952.
[4] Sinha, Anurag & Ramish, Md. (2021). HOUSE COST ESTIMATION OF BANGALORE REGION USING FEATURE SELECTION ALGORITHM OF MACHINE LEARNING.
[5] Truong, Quang & Nguyen, Minh & Dang, Hy & Mei, Bo. (2020). Housing Price Prediction via Improved Machine Learning Techniques. Procedia Computer Science. 174. 433-442. 10.1016/j.procs.2020.06.111.
[6] Zulkifley, Nor & Rahman, Shuzlina & Nor Hasbiah, Ubaidullah & Ibrahim, Ismail. (2020). House Price Prediction using a Machine Learning Model: A Survey of Literature. International Journal of Modern Education and Computer Science. 12. 46-54.10.5815/ijmecs.2020.06.04.
[7] Deo, Udit. (2021). House Price Prediction. 10.13140/RG.2.2.27657.98408.
[8] Kang, Yuhao & Zhang, Fan & Peng, Wenzhe & Gao, Song & Rao, Jinmeng & Duarte, Fábio & Ratti, Carlo. (2020). Understanding house price appreciation using multi- source big geo-data and machine learning. Land Use Policy. 111. 10.1016/j.landusepol.2020.104919.
[9] Özdemir, Ozancan. (2022). House Price Prediction Using Machine Learning: A Case in Iowa. 10.13140/RG.2.2.19846.86086.
[10] Hannonen, Marko. (2020). A New Methodology for House Price Analysis.
Ngô Đăng Lưu (Công ty Anh Minh Global)
Nguyễn Hùng (Trường ĐH Công nghệ Thành phố Hồ Chí Minh)
Nguyễn Thị Nguyệt Ánh (Trường ĐH Tài nguyên và Môi trường Thành phố Hồ Chí Minh)