Cuộc Cách mạng công nghiệp lần thứ 4 (CMCN 4.0) là sự kết hợp của công nghệ trong các lĩnh vực vật lý, công nghệ số và sinh học, tạo ra những khả năng sản xuất hoàn toàn mới và có tác động sâu sắc đến đời sống kinh tế, chính trị, xã hội của thế giới. CMCN 4.0 được hình thành trên nền tảng công nghệ số và sự tích hợp các công nghệ thông minh để tối ưu hóa quy trình, phương thức sản xuất. Dưới tác động của CMCN 4.0, việc xây dựng cơ sở dữ liệu thống kê đối mặt với những thách thức lớn phải vượt qua và chỉ khi vượt qua những thách thức này mới nắm bắt được cơ hội, chuyển cơ hội thành hiện thực.
Đặc trưng cơ bản của CMCN 4.0
Một là, dựa trên nền tảng của sự kết hợp công nghệ cảm biến mới, phân tích dữ liệu lớn, điện toán đám mây và kết nối internet vạn vật sẽ thúc đẩy sự phát triển của máy móc tự động hóa và hệ thống sản xuất thông minh.
Hai là, sử dụng công nghệ in 3D để sản xuất sản phẩm một cách hoàn chỉnh nhờ nhất thể hóa các dây chuyền sản xuất không phải qua giai đoạn lắp ráp các thiết bị phụ trợ - công nghệ này cũng cho phép con người có thể in ra sản phẩm mới bằng những phương pháp phi truyền thống, bỏ qua các khâu trung gian và giảm chi phí sản xuất nhiều nhất có thể.
Ba là, công nghệ nano và vật liệu mới tạo ra các cấu trúc vật liệu mới ứng dụng rộng rãi trong hầu hết các lĩnh vực.
Bốn là, trí tuệ nhân tạo và điều khiển học cho phép con người kiểm soát từ xa, không giới hạn về không gian, thời gian, tương tác nhanh hơn và chính xác hơn.
Thách thức trong xây dựng cơ sở dữ liệu thống kê trong bối cảnh CMCN 4.0
- Dưới tác động của CMCN 4.0, việc xây dựng cơ sở dữ liệu thống kê phải đặt và gắn với môi trường dữ liệu mở, đặc biệt là dữ liệu quốc gia. Đây là thách thức rất lớn trong quá trình xây dựng các cơ sở dữ liệu thống kê.
Dữ liệu mở là nguồn tài nguyên thiết yếu mới của thời kỳ chuyển đổi số, dữ liệu cần phải được mở, đặc biệt là dữ liệu quốc gia. Dữ liệu mở là dữ liệu mà bất kỳ ai cũng có thể truy cập, sử dụng và chia sẻ. Dữ iệu mở trở nên sử dụng được khi được làm sẵn sàng ở định dạng phổ biến, máy đọc được. Dữ liệu mở phải được cấp phép mở. Giấy phép của nó phải cho phép mọi người sử dụng dữ liệu đó theo bất kỳ cách gì họ muốn, bao gồm biến đổi, kết hợp và chia sẻ nó với những người khác, thậm chí một cách thương mại.
Để các nguồn dữ liệu mở được vận hành và cung cấp thông tin một cách hiệu quả cho các cơ sở dữ liệu thống kê thì các nguồn dữ liệu mở phải đáp ứng các yêu cầu sau:
-
Dữ liệu phải đầy đủ và cập nhật
-
Mỗi bộ dữ liệu nên có định danh số.
-
Có phiên bản dữ liệu khác nhau nếu có cập nhật, thay đổi theo thời gian.
-
Không có thông tin ảnh hưởng đến mỗi con người cụ thể (ví dụ không nên có dữ liệu mở về lịch sử bệnh tật một người có tên, tuổi thật)
-
Có hỗ trợ lấy dữ liệu theo từng khối nhỏ nếu bộ dữ liệu quá lớn
-
Luôn online và miễn phí, không yêu cầu đăng ký, không bị gắn với bản quyền, phát minh sáng chế.
-
Nguồn dữ liệu phải tin tưởng và có tổ chức chịu trách nhiệm với mỗi bộ dữ liệu, có chữ ký điện tử, xuất xứ, thời gian của bộ dữ liệu.
-
Có tài liệu mô tả về dữ liệu đi kèm.
-
An toàn khi mở ra: Ví dụ không chứa mã độc, mã lệnh thực hiện trên máy người lấy hay dùng dữ liệu, không quá lớn để gây nghẽn mạng.
-
Có danh sách các ứng dụng liên quan đã sử dụng bộ số liệu.
-
Cơ sở dữ liệu thống kê cần tuân theo định dạng chuẩn nhất định (có cấu trúc) để trao đổi giữa các hệ thống máy nhưng cũng phải thuận tiện để con người dễ chia sẻ và xử lý. Tuy nhiên, dữ liệu mở có cấu trúc dữ liệu phức tạp, đòi hỏi phân cấp. Đây là một trong các thách thức mà nhiều cơ sở dữ liệu ở Việt Nam gặp phải khi chỉ xây dựng một giao diện Web cho người dùng tra cứu mà không hỗ trợ việc tải dữ liệu hay giao diện lập trình ứng dụng để người quan tâm có thể dùng bộ dữ liệu theo cách của mình.
-
Về nguồn số liệu, hiện tại các chỉ tiêu thống kê thuộc các cơ sở dữ liệu thống kê được thu thập chủ yếu qua: Điều tra thống kê; chế độ báo cáo thống kê và sử dụng dữ liệu hành chính cho hoạt động thống kê nhà nước. Những số liệu này chưa được sắp xếp, tổ chức khoa học, cập nhật và khai thác thường xuyên mà các thông tin đang nằm rải rác trong các nguồn thông tin chủ yếu như: Niên giám Thống kê hàng năm của Tổng cục Thống kê, Niên giám Thống kê của các Bộ, ngành, ấn phẩm từ các cuộc điều tra thống kê. Ngoài ra, nhiều thông tin chỉ tiêu quan trọng có thể tính toán được từ các nguồn số liệu hiện tại nhưng chưa được tính toán và công bố.
Hơn nữa trong bối cảnh CMCN 4.0, cơ sở dữ liệu thống kê phải được tích hợp thông tin từ các nguồn dữ liệu mới như các nguồn dữ liệu mở, dữ liệu lớn, dữ liệu viễn thám, vệ tinh…Đây là thách thức rất lớn trong việc xây dựng các cơ sở dữ liệu này.
-
Vấn đề chuẩn hóa dữ liệu là thách thức được đặt ra. Đó là việc chuẩn hóa nội dung (đặc tính) của từng chỉ tiêu trong cơ sở dữ liệu; định dạng dữ liệu theo các cấu trúc thống nhất; đối chiếu và ánh xạ theo các nội dung dữ liệu bảo đảm tương thích theo thời gian; phân tách dữ liệu theo các chiều khác nhau: thành thị/nông thôn, tỉnh/thành phố, dân tộc, giới tính, độ tuổi, trình độ học vấn, ngành kinh tế, thành phần kinh tế, trình độ đào tạo…
-
Xây dựng các bảng phân loại dùng chung, các bảng tương thích, ánh xạ là một thách thức khi xây dựng cơ sơ dữ liệu thống kê trong bối cảnh CMCN 4.0. Dữ liệu trong các cơ sở dữ liệu thống kê được lấy từ nhiều nguồn, nhiều định dạng khác nhau, nội dung và cấu trúc dữ liệu thay đổi theo chuỗi thời gian, để thống nhất sử dụng trong cùng một cơ sở dữ liệu phải xây dựng các bảng phân loại; các bảng tương thích và ánh xạ dự liệu từ các phiên bản dữ liệu khác nhau.
-
Ngoài ra, xây dựng các mô tả dữ liệu cũng là một thách thức trong quá trình xây dựng cơ sở dữ liệu thống kê trong bối cảnh CMCN 4.0. Dữ liệu trong cơ sở dữ liệu thống kê phải được mô tả các đặc tính của nó để bảo đảm liên kết, kết nối với các dự liệu khác. Mô tả dữ liệu gồm phạm vi số liệu, phương pháp thu thập, quyền số, trọng số, mẫu thu thập, mối liên hệ với các dữ liệu khác, nguồn thu thập số liệu, tính cập nhật…
Giải pháp
Để nắm bắt được cơ hội, chuyển cơ hội thành hiện thực khi xây dựng cơ sở dữ liệu thống kê trong bối cảnh CMCN 4.0, bài viết tập trung vào một số giải pháp sau:
Thứ nhất là xây dựng chính sách, pháp luật về dữ liệu mở, đặc biệt là dữ liệu quốc gia. Đây là nguồn dữ liệu quan trọng nhất cung cấp dữ liệu cho cơ sở dữ liệu thống kê trong bối cảnh CMCN 4.0. Chính sách, pháp luật về dữ liệu mở phải đảm bảo: Dữ liệu mà bất kỳ ai cũng có thể truy cập, sử dụng và chia sẻ; dữ liệu mở trở nên sử dụng được khi được làm sẵn sàng ở định dạng phổ biến, máy đọc được; dữ liệu mở phải được cấp phép mở - giấy phép phải cho phép mọi người sử dụng dữ liệu đó theo bất kỳ cách gì họ muốn, bao gồm biến đổi, kết hợp và chia sẻ nó với những người khác, thậm chí một cách thương mại.
Thứ hai là thiết lập hành lang pháp lý về việc công nhận, thừa nhận các nguồn dữ liệu phi truyền thống phục vụ cho mục đích thống kê nhà nước như dữ liệu lớn, dữ liệu viễn thám, vệ tinh… cũng như khẳng định giá trị thông tin thống kê khai thác từ các nguồn dữ liệu phi truyền thống này.
Thứ ba là chủ động xây dựng các định dạng chuẩn, có cấu trúc cho từng cơ sở dữ liệu thống kê; xây dựng các bảng phân loại dùng chung, các bảng tương thích, ánh xạ dữ liệu và thiết lập mô tả đối với từng dữ liệu trong cơ sở dữ liệu./.
ThS. Cao Quang Thành
Phó Cục trưởng Cục Thu thập dữ liệu và ứng dụng CNTT Thống kê - TCTK