Một số kết quả tính toán chỉ số giá tiêu dùng từ nguồn dữ liệu lớn tại Thành phố Hồ Chí Minh

11/06/2019 - 04:44 PM
Phương pháp nghiên cứu
 

Để tính toán CPI từ nguồn dữ liệu lớn, nhóm tác giả sử dụng phương pháp nghiên cứu định lượng: Phương pháp thu thập dữ liệu, Phương pháp tổng hợp CPI dựa trên dữ liệu lớn.
 
Dữ liệu được thu thập 3 kỳ trong tháng: Kỳ 1 thu thập vào ngày 01 tháng báo cáo; Kỳ 2 thu thập vào ngày 10 tháng báo cáo; Kỳ 3 thu thập vào ngày 20 tháng báo cáo.
 
Thời gian thu thập dữ liệu: Bắt đầu từ năm 2017.
 
Quy trình thu thập và xử lý
 
-     Bước 1: Vào các ngày 1, 10 và 20 hàng tháng tiến hành thu thập thông tin tại các trang. Các thông tin này đều là dữ liệu phi cấu trúc.
 
-    Bước 2: Xử lý dữ liệu từ phi cấu trúc thành có cấu trúc
 
Bước này chủ yếu là quá trình “dạy” máy hiểu được ngôn ngữ, bao gồm các nội dung:
 
(1) Tuyển chọn kỹ thuật viên để xử lý thông tin đã được thu thập vào máy theo cấu trúc quy định; (2) Thiết kế và viết chương trình nhập tin; (3) Tập huấn kỹ thuật viên; (4) Tiến hành cho kỹ thuật viên xử lý thông tin (10% mẫu); (5) Viết chương trình xử lý ngôn ngữ để máy có thể hiểu và xử lý dữ liệu; (6) Kiểm tra dữ liệu sau khi máy đã xử lý; (7) Nếu dữ liệu đạt chất lượng từ 80% trở lên, cho máy xử lý toàn bộ dữ liệu; (8) Nếu chất lượng dữ liệu chưa đạt tới 80%, tiến hành mở thêm 5% mẫu xử lý và quay lại bước tiến hành cho kỹ thuật viên xử lý thông tin.
 
-    Bước 3: Xử lý dữ liệu. Kiểm tra giá các mặt hàng biến động (cao hoặc thấp nhiều) so với tháng trước. Gán giá cho các mặt hàng có giá ở kỳ trước nhưng không có giá ở kỳ này (mặt hàng nào gán giá 3 lần thì sẽ bị loại bỏ, không đưa vào tính toán CPI).
 
-    Bước 4: Tính CPI
 
(1)   
Tính chỉ số giá cá thể của các mặt hàng hóa và dịch vụ đại diện tháng báo cáo so với tháng trước theo công thức sau:
 
Một số kết quả tính toán chỉ số giá tiêu dùng từ nguồn dữ liệu lớn tại Thành phố Hồ Chí Minh
         
 
Một số kết quả tính toán chỉ số giá tiêu dùng từ nguồn dữ liệu lớn tại Thành phố Hồ Chí Minh 1

(2)Tính chỉ số giá của nhóm hàng cấp 4 tháng báo cáo so với tháng trước.

 
 
Chỉ số giá tiêu dùng của nhóm cấp 4 được tính theo phương pháp bình quân nhân giản đơn, công thức sau đây:

 
Một số kết quả tính toán chỉ số giá tiêu dùng từ nguồn dữ liệu lớn tại Thành phố Hồ Chí Minh 2
 
Trong đó:

Một số kết quả tính toán chỉ số giá tiêu dùng từ nguồn dữ liệu lớn tại Thành phố Hồ Chí Minh 3

(3) 
Tính chỉ số giá của các nhóm cấp 4 tháng báo cáo so với kỳ gốc theo công thức:

Một số kết quả tính toán chỉ số giá tiêu dùng từ nguồn dữ liệu lớn tại Thành phố Hồ Chí Minh 4

 
(4) Tính chỉ số giá từ nhóm cấp 3 trở lên đến cấp 1 và chỉ số chung tháng báo cáo so với kỳ gốc theo công thức sau:

Một số kết quả tính toán chỉ số giá tiêu dùng từ nguồn dữ liệu lớn tại Thành phố Hồ Chí Minh 5
 
(5) Tính chỉ số giá của thành phố: Chỉ số giá của thành phố được tính từ chỉ số của các nhóm hàng tương ứng giữa hai khối: thu thập online và thu thập theo phương pháp truyền thống. Quyền số ngang được sử dụng để tính chỉ số giá cả thành phố theo các nhóm hàng từ cấp 4 đến cấp 1 và chỉ số chung.
 
Nhóm nghiên cứu tiến hành thu thập dữ liệu lớn và tính toán CPI tại thành phố Hồ Chí Minh theo 4 phương pháp như sau:
 
- Phương pháp 1: Sử dụng công thức bình quân cộng để tính giá bình quân từ dữ liệu lớn và dùng giá này để tính CPI.
 
- Phương pháp 2: Sử dụng công thức bình quân nhân để tính giá bình quântừ dữ liệu lớn và dùng giá này để tính CPI.
 
- Phương pháp 3: Kết hợp giữa chỉ số giá tính theo phương pháp truyền thống và phương pháp thu thập từ dữ liệu lớn. Phương pháp này tính toán quyền số dựa vào phía cầu hàng hóa (người tiêu dùng), do thu nhập và tỷ trọng chi tiêu hàng hóa và dịch vụ có khác biệt giữa khu vực thành thị và khu vực nông thôn nên phương pháp này tính toán riêng chỉ số giá tiêu dùng cho khu vực thành thị và chỉ số giá tiêu dùng cho khu vực nông thôn. Sau đó kết hợp hai chỉ số này thành chỉ số giá chung cho toàn thành phố với quyền số là tỷ trọng chi tiêu của từng khu vực. Dựa vào Kết quả khảo sát của Hội Doanh nghiệp Hàng Việt Nam chất lượng cao, người tiêu dùng chọn mua hàng trực tuyến phần lớn tập trung ở khu vực thành thị, phương pháp này sẽ xem kết quả tính toán CPI được thu thập từ dữ liệu lớn ở phương pháp 1 là đại diện cho chi tiêu của người dân ở khu vực thành thị, kết hợp với kết quả tính toán CPI được thu thập từ phương pháp truyền thống ở khu vực nông thôn (đại diện cho chi tiêu của người dân ở khu vực nông thôn). Quyền số kết hợp là tỷ trọng chi tiêu của khu vực thành thị và tỷ trọng chi tiêu của khu vực nông thôn (Theo Tổng cục Thống kê quyền số này là cố định, 5 năm mới thay đổi 1 lần).
 
- Phương pháp 4: Kết hợp giữa chỉ số giá tính theo phương pháp truyền thống và phương pháp thu thập từ dữ liệu lớn. Phương pháp này tính toán quyền số dựa vào phía cung hàng hóa (doanh nghiệp và hộ cá thể bán lẻ hàng hóa và dịch vụ), do đó sẽ tính toán riêng chỉ số giá tiêu dùng do khối doanh nghiệp cung cấp và chỉ số giá tiêu dùng do khối cá thể cung cấp. Dựa vào danh sách mạng lưới điều tra CPI tại TP.HCM giai đoạn 2015-2019, mà phần lớn mạng lưới được thu thập từ các chợ truyền thống, phương pháp này sẽ xem kết quả tính toán CPI được thu thập từ phương pháp truyền thống đại diện cho khối cá thể và kết quả tính toán CPI được thu thập từ dữ liệu lớn ở phương pháp 1 (toàn bộ hàng hóa và dịch vụ đều được phân phối bởi các doanh nghiệp bán lẻ) đại diện cho khối doanh nghiệp. Quyền số kết hợp là tỷ trọng tổng mức bán lẻ của khối doanh nghiệp và khối cá thể chia chi tiết theo từng nhóm hàng (quyền số này thay đổi hàng năm, dựa vào kết quả điều tra doanh nghiệp hoặc có thể thay đổi theo từng tháng, dựa vào báo cáo tháng của doanh nghiệp mẫu và hộ cá thể mẫu).
 
Kết quả nghiên cứu
 
Trong quá trình tìm kiếm các trang web phù hợp, nhóm nghiên cứu đã quan sát nhiều trang thương mại điện tử lớn của Việt Nam và chọn ra 28 trang web lớn và có uy tín để thu thập giá.
 
Kết quả tính toán thực nghiệm từ dữ liệu lớn đã thu thập và tổng hợp được cụ thể như sau:
 

 
Bảng 4: Chỉ số giá tiêu dùng các tháng so tháng trước
Một số kết quả tính toán chỉ số giá tiêu dùng từ nguồn dữ liệu lớn tại Thành phố Hồ Chí Minh 6
 
Kết quả tính toán CPI từ dữ liệu lớn ở cả 4 phương pháp đều thể hiện đúng xu hướng và không có chênh lệnh nhiều so với CPI truyền thống. Trong giai đoạn 14 tháng tính toán CPI so tháng trước thì có 6 tháng CPI tính theo phương pháp truyền thống cao hơn CPI tính từ dữ liệu lớn và có 8 tháng thấp hơn. Đặc biệt có 3 tháng, mức chênh lệch này chỉ có 0,02% tháng có mức chênh lệch cao nhất là 0,25%.
 
So với CPI truyền thống, CPI được tính theo phương pháp 4 có mức độ chênh lệch thấp nhất trong 4 phương pháp tính và là phương pháp kế thừa, kết hợp giữa phương pháp 1 và CPI tính theo phương pháp truyền thống. Phân tích số liệu trong giai đoạn từ tháng 10/2017 đến tháng 11/2018 cho thấy,  hai phương pháp thu thập dữ liệu (truyền thống và dữ liệu thu thập từ dữ liệu lớn) cho kết quả tính CPI tương đối giống nhau: Từ tháng 10/2017 đến tháng 11/2018, chỉ số giá tiêu dùng của 2 phương pháp này tăng lần lượt là 3,23% và 3,48% (chênh lệch không đáng kể: 0,25% trong giai đoạn 14 tháng). /.

 
            Nguyễn Thanh BìnhCục Thống kê Tp. Hồ Chí Minh
                                      Lê Thị Thanh Loan - Trường Đại học Tôn Đức Thắng Tp. HCM
Các bài viết khác
Liên kết website
Liên kết website
Thăm dò ý kiến

Đánh giá khách quan của bạn về thông tin chúng tôi cung cấp? Vui lòng tích vào ô bên dưới để trả lời!

Top