Hệ thống thống kê quốc gia trong cuộc cách mạng dữ liệu

|

Hệ thống thống kê quốc gia trong cuộc cách mạng dữ liệu

 “Cách mạng dữ liệu” đang là một trong những mục tiêu, hành động cấp thiết của những quốc gia đang trên đường hội nhập và phát triển bởi cuộc cách mạng dữ liệu sẽ giúp cung cấp dữ liệu phù hợp, kịp thời và có tính khả dụng cao làm bằng chứng cho việc xây dựng và thực hiện các chính sách tốt hơn vì mục tiêu phát triển bền vững.

Thuật ngữ cách mạng dữ liệu (CMDL) được chính thức đề cập lần đầu tiên khi Tổng Thư ký Liên hợp quốc (LHQ) Ban Ki-moon thành lập Ban tư vấn cấp cao về chương trình nghị sự phát triển toàn cầu đến năm 2030. Theo đó, LHQ định nghĩa “CMDL là các hành động chuyển đổi cần thiết để đáp ứng các nhu cầu của một chương trình phát triển phức tạp, cải tiến về cách thức sản xuất và sử dụng số liệu, thu hẹp khoảng cách dữ liệu để hạn chế sự phân biệt đối xử, nâng cao năng lực và hiểu biết về dữ liệu trong phân tích dữ liệu lớn và dữ liệu nhỏ, hiện đại hóa hệ thống thu thập dữ liệu, giải phóng dữ liệu để thúc đẩy tính minh bạch và trách nhiệm giải trình, phát triển các mục tiêu và chỉ tiêu mới”.

Bản chất của các cuộc cách mạng là phá bỏ cái cũ và CMDL cũng không nằm ngoài quy luật này. CMDL đã phá vỡ các phương thức sản xuất số liệu truyền thống, sự tương tác của con người và đối thoại cộng đồng. Thay vào đó, cuộc CMDL thể hiện (i) sự gia tăng theo cấp số nhân số lượng thông tin số trực tuyến; (ii) sự phát triển của các ngành nghề mới như nhà khoa học dữ liệu, nhà hoạt động dữ liệu hoặc người truyền bá dữ liệu; (iii) những tác động đa dạng của thông tin số đối với cuộc sống hàng ngày của chúng ta.  

Do đó, trong cuộc cách mạng dữ liệu này, cơ quan thống kê quốc gia đóng vai trò mới đặc biệt quan trọng đó là “quản trị dữ liệu”, tuy nhiên không chỉ chính phủ các nước mà các cơ quan, tổ chức quốc tế, các cơ quan thống kê quốc gia mà khu vực tư nhân cũng cần tham gia vào CMDL.

Ứng dụng cách mạng dữ liệu trong hoạt động thống kê ở các nước

Đối với hoạt động thống kê, một cuộc CMDL thực sự sẽ dựa trên các nguồn dữ liệu hiện có và nguồn dữ liệu mới để tích hợp đầy đủ số liệu thống kê vào quá trình ra quyết định, thúc đẩy truy cập mở và sử dụng dữ liệu, cũng như đảm bảo tăng cường hỗ trợ cho các hệ thống thống kê. CMDL làm gia tăng đáng kể khối lượng dữ liệu số, được gọi là “dữ liệu lớn - big data” và không chỉ dừng lại ở đó. Công nghệ tiên tiến đã giúp giảm chi phí, tăng tốc độ thu thập và phổ biến số liệu, đáp ứng nhu cầu ngày càng tăng về thông tin liên quan đến hoạt động thực tiễn. Nắm bắt các cơ hội mà cuộc CMDL mang lại, hệ thống thống kê quốc gia của các nước đã và đang áp dụng các công nghệ tiên tiến, phương pháp mới trong hoạt động thống kê để sản xuất số liệu thống kê chất lượng cao.

Tại kỳ họp lần thứ 45 của Ủy ban Thống kê LHQ đã quyết định thành lập Nhóm công tác toàn cầu của LHQ về Dữ liệu lớn phục vụ thống kê chính thức. Nhóm công tác đã phối hợp chặt chẽ với các quốc gia và các đối tác khu vực tư nhân tiến hành nghiên cứu sử dụng các nguồn dữ liệu phi truyền thống làm nguồn dữ liệu bổ sung cho số liệu thống kê chính thức. Kết quả nghiên cứu cho thấy có thể thu được thông tin chi tiết bằng cách kết hợp dữ liệu từ các nguồn truyền thống - chẳng hạn như tổng điều tra, điều tra - với thông tin từ các nguồn dữ liệu hành chính, dữ liệu lớn, dữ liệu mới.

Một số quốc gia đã tiên phong trong sử dụng nguồn dữ liệu phi truyền thống phục vụ mục đích thống kê, cụ thể: Thống kê Nam Phi đã sử dụng dữ liệu quét chi tiết từ các chuỗi bán lẻ làm dữ liệu đầu vào để tính chỉ số giá tiêu dùng; Thống kê Ca-na-đa sử dụng dữ liệu từ đồng hồ thông minh để theo dõi mức tiêu thụ điện; Nhóm Ngân hàng Thế giới phối hợp với chính phủ Cô-lôm-bi-a xem xét việc sử dụng hồ sơ chi tiết cuộc gọi để đo lường thu nhập và bất bình đẳng.

Bên cạnh đó, các cơ quan thống kê quốc gia còn áp dụng công nghệ mới trong thu thập số liệu thống kê thông qua sử dụng thiết bị phỏng vấn cá nhân có sự hỗ trợ của máy tính (CAPI) như máy tính bảng hoặc thiết bị cầm tay để nâng cao hiệu quả và mức độ chính xác của công tác thu thập dữ liệu điều tra và tổng điều tra. Ví dụ: Cơ quan thống kê quốc gia U-gan-đa đã áp dụng CAPI cho điều tra phân phối quốc gia năm 2011 - 2012, Ê-thi-ô-pi-a tiến hành Tổng điều tra Kinh tế-xã hội nông thôn năm 2013 - 2014 bằng CAPI, Nam Phi áp dụng CAPI trong điều tra Cộng đồng năm 2016, Sri Lan-ka tiến hành thử nghiệm CAPI cho các cuộc điều tra mẫu năm 2017. Việt Nam áp dụng CAPI trong điều tra giá, nghiên cứu về bạo hành phụ nữ năm 2019, điều tra Lao động việc làm và Tổng điều tra Dân số và Nhà ở năm 2019.

Hệ thống thống kê quốc gia trong bối cảnh cách mạng dữ liệu

Hệ thống thống kê quốc gia bao gồm các tổ chức thống kê trong một quốc gia, thực hiện nhiệm vụ thu thập, xử lý và phổ biến thông tin thống kê chính thức. Do đó, các cơ quan thống kê quốc gia là trung tâm cốt lõi của hệ sinh thái dữ liệu. Hệ sinh thái dữ liệu là sự kết hợp của cơ sở hạ tầng hoạt động và các ứng dụng được sử dụng để tổng hợp và phân tích thông tin. Một hệ sinh thái dữ liệu lớn  hiện đại, được gọi là “ngăn xếp công nghệ”, chứa ba yếu tố cơ bản gồm kiến trúc dữ liệu đáp ứng, phân phối trên quy mô lớn và quản lý dữ liệu thông minh dựa trên trí tuệ nhân tạo (AI).

Trong bối cảnh của cuộc CMDL, hệ thống thống kê quốc gia hoạt động ngày càng mạnh, vai trò ngày càng thay đổi khi tiếp cận với các đối tác mới, áp dụng các phương pháp mới và trở thành một phần của hệ sinh thái dữ liệu lớn mới nổi. Hệ sinh thái dữ liệu này được hình thành từ nhiều cộng đồng người sản xuất và sử dụng dữ liệu ngoài hệ thống thống kê quốc gia, bao gồm cả cộng đồng xã hội dân sự, khu vực tư nhân, cộng đồng học thuật và khoa học, cũng như cộng đồng khu vực, quốc tế và các cơ quan của LHQ và các nhà sản xuất dữ liệu chuyên biệt.

Vai trò của hệ thống thống kê trong cuộc cách mạng dữ liệu

Trong cuộc CMDL hiện nay, ngoài vai trò là chủ thể thu thập, sản xuất và phổ biến thông tin thống kê, các cơ quan thống kê quốc gia cần tích cực phối hợp với các nhà sản xuất dữ liệu phi chính phủ, tìm kiếm các nguồn dữ liệu tốt nhất để đáp ứng nhu cầu của cộng đồng người dùng tin. Xây dựng quan hệ đối tác với các chủ thể dữ liệu mới là hết sức cần thiết để tận dụng triệt để lợi ích của CMDL và hiện đại hóa chức năng của hệ thống thống kê quốc gia. Cơ quan thống kê quốc gia cũng có thể cung cấp dịch vụ kiểm soát chất lượng, tư vấn về việc thực hiện đúng các tiêu chuẩn và sử dụng dữ liệu từ các cuộc tổng điều tra, điều tra và hồ sơ hành chính để ước tính "dựa trên cơ sở có thật" thu được từ dữ liệu lớn hoặc các nguồn phi tiêu chuẩn.

Sự tương tác giữa các cộng đồng được xác định bởi ràng buộc pháp lý, chính trị, công nghệ và tài chính, cũng như mối quan tâm chung trong việc tối đa hóa giá trị dữ liệu có sẵn thông qua hợp tác trao đổi các bên cùng có lợi. Với tư cách là cơ quan điều phối hệ thống thống kê quốc gia và nhà quản lý lượng lớn dữ liệu, các cơ quan thống kê quốc gia tạo ra giá trị thông qua giám sát việc sản xuất các số liệu thống kê đáng tin cậy và hỗ trợ những chủ thể khác trong giải thích ý nghĩa các số liệu thống kê đó. Với vai trò là chuyên gia về đo lường xã hội, kinh tế và môi trường, các nhà thống kê chính thức cung cấp dữ liệu đáng tin cậy và hữu ích phục vụ nghiên cứu, phân tích và hoạch định chính sách. Còn với vai trò là cơ quan độc lập, cam kết về tính minh bạch và tuân thủ các tiêu chuẩn, các cơ quan thống kê quốc gia đảm bảo chất lượng của số liệu thống kê chính thức và tạo niềm tin vào quy trình hoạch định chính sách.

Thách thức đối với hệ thống thống kê quốc gia trong cuộc cách mạng dữ liệu

Chương trình nghị sự 2030 vì sự phát triển bền vững đặt ra những thách thức to lớn cho các nhà thống kê, đòi hỏi một kiến trúc dữ liệu toàn cầu vì sự phát triển bền vững. Nhu cầu về dữ liệu ngày một tăng, cả dữ liệu quốc gia và khu vực, dữ liệu tổng hợp và dữ liệu phân tổ chi tiết.

Bên cạnh các tiêu chuẩn thông thường về độ tin cậy, tính kịp thời và phù hợp, tính nhất quán của cơ sở dữ liệu phát triển toàn cầu rất quan trọng, cần phải thống nhất theo thời gian và không gian. Chỉ khi dữ liệu được duy trì theo thời gian chúng ta mới có thể sản xuất chuỗi số liệu cần thiết để đo lường nội hàm của quá trình phát triển. Và chỉ khi chúng ta áp dụng các phương pháp nhất quán trên toàn thế giới, chúng ta mới có thể so sánh giữa các quốc gia và châu lục, đảm bảo hỗ trợ toàn cầu sẽ đến được nơi cần nhất. Cuối cùng, chỉ khi các chính trị gia và người dùng tin thực sự sở hữu và tin tưởng vào số liệu thì họ mới thay đổi chính sách và suy nghĩ.

Để hiện thực hóa tham vọng của Chương trình nghị sự 2030, cần phải có hành động ở cấp địa phương, quốc gia, khu vực, toàn cầu và các cấp các ngành. Hành động này phải được hỗ trợ bởi dữ liệu phù hợp với mục đích. Cái chúng ta cần ở đây là một kiến trúc dữ liệu toàn cầu, nơi dữ liệu được tạo ra ở địa phương vàcấp quốc gia, được đánh giá về tính hợp lệ, sau đó được truyền tải một cách hiệu quả đến các cấp quyết định khác nhau.

Để thực hiện nhiệm vụ này đòi hỏi chúng ta phải đầu tư vào thống kê và dữ liệu ở cấp quốc gia và quốc tế; nâng cao năng lực kỹ thuật và phương pháp luận mới; chuyển đổi hệ thống thống kê quốc gia để giúp các cơ quan thống kê quốc gia thực hiệnvai trò mới là "các nhà quản lý dữ liệu chính", điều phối và thẩm định thông tin quốc gia ngoài số liệu thống kê chính thức và tích hợp thông tin không gian địa lý và dữ liệu lớn; xây dựng một khung kiến thức thống nhất để các bên liên quan đến dữ liệu khác nhau trên toàn cầu có thể làm việc cùng nhau một cách hiệu quả.

Trong cuộc CMDL, nhiều nguồn dữ liệu được sử dụng cho thống kê chính thức như dữ liệu hành chính, dữ liệu lớn, dữ liệu cảm biến, viễn thám,…do đó yêu cầu chia sẻ dữ liệu, đảm bảo tính bảo mật của dữ liệu, bảo vệ quyền riêng tư và ứng phó với các khó khăn kỹ thuật liên quan tới Dữ liệu lớn là những thách thức mà hệ thống thống kê luôn phải đối mặt. Bên cạnh môi trường pháp lý bảo vệ quyền riêng tư cũng cần có các quy định cụ thể cho phép các cơ quan thống kê quốc gia sử dụng dữ liệu lớn, dữ liệu vi mô nhạy cảm như bản ghi chi tiết cuộc gọi, … để phục vụ cho mục đích thống kê chính thức vừa đảm bảo uy tín và đạo đức nghề nghiệp vừa giảm thiểu rủi ro rò rỉ thông tin cá nhân trong quá trình sử dụng.

Phương pháp phối hợp tốt hơn và quản trị phù hợp sẽ thu hút sự tham gia của nhiều chủ thể khác nhau trong hệ thống. Do đó, một hệ thống thống kê tốt là hệ thống thích ứng nhanh với những yêu cầu về tính kịp thời và tính phù hợp của số liệu, đồng thời tích hợp hài hòa hơn các giải pháp về kinh tế, xã hội và môi trường. Các nhà hoạch định chính sách và ra quyết định ngày càng ít tập trung vào một lĩnh vực số liệu thống kê cụ thể mà tìm kiếm nhiều hơn những số liệu thống kê ở nhiều lĩnh vực khác nhau, chẳng hạn như tác động của dịch COVID-19 (số liệu thống kê hộ tịch) đối với các nền kinh tế (việc làm, GDP) và đối với xã hội (sức khỏe tinh thần, bạo lực gia đình, di cư). Đáp ứng nhanh và kịp thời các yêu cầu này cũng đặt ra những thách thức không nhỏ đối với hệ thống thống kê quốc gia.

Khuyến nghị đối với Thống kê Việt Nam

Trong bối cảnh hội nhập toàn diện, sâu rộng vào tất cả các lĩnh vực của toàn cầu hóa, Thống kê Việt Nam không thể đứng ngoài quá trình phát triển của cuộc CMDL nếu muốn hoàn thiện và cải tiến hơn nữa quy trình sản xuất thông tin thống kê để tạo ra những thông tin chất lượng cao, đáp ứng kịp thời nhu cầu sử dụng thông tin thống kê ngày càng đa dạng và phong phú của người dùng tin. Dưới đây là một số khuyến nghị nhằm tận dụng lợi thế mà CMDL mang lại cho hoạt động thống kê của Thống kê Việt Nam: 

Một là, cần đầu tư hơn nữa vào các quy trình sản xuất và công nghệ mới, đồng thời cần thiết lập quan hệ đối tác với các chủ thể mới từ khu vực tư nhân, giới truyền thông và học thuật để tận dụng cuộc CMDL làm thời điểm thực hiện cú hích lớn cho các khoản đầu tư vào dữ liệu tốt hơn.

Hai là, cần xác định rõ và nắm bắt kịp thời vai trò mới là nhà quản trị dữ liệu cũng như tận dụng lợi ích mà vai trò mới mang lại trong bối cảnh CMDL. Thực hiện vai trò mới là nhà quản trị dữ liệu, danh tiếng của Tổng cục Thống kê sẽ nâng lên, là cơ hội để nâng cao nhận thức về dữ liệu truyền thống và các nguồn dữ liệu phi truyền thống phục vụ cho thống kê chính thức, tác động đến những tiêu chuẩn mà các cơ quan thu thập dữ liệu khác trong hệ thống nhà nước áp dụng. 

Ba là, nắm bắt cơ hội của cuộc CMDL, tận dụng các nguồn dữ liệu phi truyền thống. Bên cạnh các nguồn dữ liệu truyền thống, khuyến khích đẩy mạnh sử dụng các nguồn dữ liệu phi truyền thống gồm dữ liệu hành chính, dữ liệu lớn như dữ liệu điện thoại di động, dữ liệu vệ tinh, dữ liệu quét, dữ liệu giao dịch điện tử, dữ liệu ngân hàng, dữ liệu đo lường điện tử, …Tổng cục Thống kê nên nắm bắt kịp thời những cơ hội này phục vụ cho hoạt động thống kê.

Bốn là, xác định mục tiêu và lĩnh vực cần đầu tư, hoàn thiện. Chiến lược phát triển thống kê Việt Nam là cơ hội để đánh giá việc cung cấp số liệu thống kê hiện nay của Tổng cục Thống kê và định hình việc cung cấp dịch vụ trong tương lai. Bên cạnh hình thức phổ biến truyền thống, cần nghiên cứu và bổ sung thêm các hình thức phổ biến khác cập nhật xu hướng chung toàn cầu trong bối cảnh hiện tại như cung cấp dịch vụ truy cập dữ liệu vi mô cho các lĩnh vực nghiên cứu hoặc các trường đại học, trực quan hóa dữ liệu, dịch vụ bảo mật thông tin, sử dụng các công cụ mã hóa cho bảng phân ngành kinh tế, mã hóa địa lý. Tiến hành phân tích điểm mạnh, điểm yếu, cơ hội và thách thức (SWOT) về cung cấp dịch vụ hiện tại đồng thời so sánh việc cung cấp dịch vụ thống kê của Việt Nam với một cơ quan thống kê quốc gia khác mà mình mong muốn sánh ngang, có giai đoạn phát triển tương tự, nền văn hóa tương đồng. Đồng thời kịp thời nắm bắt cơ hội và lợi ích mà Chương trình nghị sự 2030 về Phát triển bền vững mang lại. Đây là một chương trình phát triển có thể mang lại lợi ích cho Việt Nam và Thống kê Việt Nam khi và chỉ khi Tổng cục Thống kê xác định được đích cần đến và những lĩnh vực cần đầu tư, hoàn thiện./.
 
Ths. Lê Thị Thanh Huyền
Vụ Thống kê nước ngoài và Hợp tác quốc tế