Theo chương trình điều tra thống kê quốc gia do Thủ tướng Chính phủ ban hành tại Quyết định số 43 (ngày 17 tháng 10 năm 2016), từ năm 2017 đến nay, bình quân mỗi năm Tổng cục Thống kê thực hiện hơn 30 cuộc điều tra thống kê quốc gia nhằm có được nguồn số liệu tin cậy để cung cấp thông tin thống kê về tình hình kinh tế xã hội của đất nước phục vụ công tác quản lý, điều hành của Lãnh đạo Đảng, Nhà nước, Bộ, ngành và chính quyền địa phương.
Việc thực hiện các cuộc điều tra và Tổng điều tra theo đúng chương trình, kế hoạch và thực hiện công bố thông tin đảm bảo chất lượng đáp ứng nhu cầu người dùng tin và đảm bảo tiến độ quy định của lịch phổ biến thông tin thống kê là một trong những thành tựu quan trọng mà ngành Thống kê đã không ngừng nỗ lực để đạt được trong nhiều năm qua. Thành tựu đó có được một phần là nhờ Tổng cục Thống kê đã áp dụng quy trình sản xuất thông tin thống kê.
Quy trình sản xuất thông tin thống kê được nghiên cứu xây dựng từ những năm 2010 và được chính thức ban hành theo Quyết định số 945/QĐ-TCTK, ngày 24/09/2013 của Tổng cục trưởng Tổng cục Thống kê. Quy trình này gồm 07 bước: (1) Xác định nhu cầu thông tin; (2) Chuẩn bị thu thập thông tin; (3) Thu thập thông tin; (4) Xử lý thông tin; (5) Phân tích thông tin; (6) Phổ biến thông tin và (7) Lưu trữ thông tin. Theo đó, tất cả các cuộc điều tra do ngành Thống kê chủ trì đều tuân thủ các bước để biên soạn và phổ biến thông tin thống kê. Nhờ vậy, việc thực hiện các cuộc điều tra thống kê và thực hiện biên soạn và phổ biến kết quả điều tra do Tổng cục Thống kê thực hiện được triển khai một cách chuyên nghiệp, kịp thời, đảm bảo chất lượng.
Trong bối cảnh cuộc cách mạng công nghiệp lần thứ 4 đang diễn ra vô cùng mạnh mẽ, càng ngày, nhu cầu được cung cấp những số liệu thống kê chính xác và kịp thời càng trở nên bức thiết hơn bao giờ hết. Công chức ngành Thống kê đã và đang hết sức nỗ lực để có thể tính toán, biên soạn và tổng hợp kết quả điều tra thành các số liệu thống kê đảm bảo cung cấp kịp thời cho người dùng tin. Thực tế cho thấy, quy trình sản xuất thông tin thống kê được thực hiện tốt nhưng việc quản lý dữ liệu điều tra, một bước quan trọng trong 7 bước của Quy trình sản xuất thông tin thống kê mặc dù đã có nhiều cải tiến nhưng vẫn còn nhiều hạn chế. Việc biên soạn số liệu chủ yếu được thực hiện bằng phương pháp thủ công, mất khá nhiều thời gian và công sức. Thực trạng này xảy ra ở nhiều đơn vị nghiệp vụ của Tổng cục Thống kê, trong đó có Vụ Thống kê Dân số và Lao động. Điều này làm tăng gánh nặng công việc và giảm năng suất biên soạn số liệu thống kê của các công chức thống kê.
Với mục tiêu nghiên cứu để xây dựng quy trình quản lý dữ liệu này hỗ trợ công tác biên soạn tự động số liệu thống kê lao động việc làm, phục vụ việc công bố số liệu định kỳ và đột xuất với tần suất hằng quý, nhằm giảm gánh nặng cho công tác biên soạn số liệu, nhóm nghiên cứu của Vụ Thống kê Dân số và Lao động đã nghiên cứu cách thức quản lý dữ liệu điều tra lao động việc làm hiện tại của Vụ để thấy những ưu điểm, hạn chế của cách thức này, từ đó đề xuất xây dựng một quy trình quản lý dữ liệu này hỗ trợ công tác biên soạn tự động số liệu thống kê lao động việc làm.
Kết quả nghiên cứu cho thấy: Từ năm 2010, Tổng cục Thống kê đã triển khai thực hiện điều tra lao động việc làm hàng tháng để tính toán, tổng hợp và công bố thực trạng về tình hình lao động việc làm trong nền kinh tế Việt Nam hàng quý. Đều đặn hàng quý, báo cáo phân tích và số liệu Điều tra lao động việc được công bố rộng rãi đến người người dùng tin qua các kỳ họp báo và trên Website của Tổng cục Thống kê. Việc biên soạn số liệu thống kê chủ yếu mang nặng tính thủ công. Việc sử dụng các nền tảng phần mềm như SPSS, Excel để hỗ trợ công tác này còn rất hạn chế. Nguyên nhân của thực trạng này chủ yếu là do quá trình quản lý dữ liệu chưa được tốt. Cụ thể là:
(1) Quy trình quản lý dữ liệu điều tra lao động việc làm phân tán, chưa có tính hệ thống, thiếu tính đồng bộ, nhất quán
- Quản lý dữ liệu, biểu số liệu đầu ra thiếu tính hệ thống và đồng bộ: Dữ liệu vi mô lưu trữ, sử dụng phân tán trên nhiều máy tính cá nhân; các chỉ tiêu, biểu số liệu đầu ra trong điều tra LĐVL có tính so sánh theo thời gian (quý, năm,...), công tác hệ thống hóa, tư liệu hóa của bộ số liệu và biểu đầu ra theo thời gian chưa được thiết lập, trong khi đó các yêu cầu cung cấp số liệu từ các đơn vị trong và ngoài Tổng cục ngày càng gia tăng và yêu cầu có tính xâu chuỗi, tính hệ thống theo thời gian. Do vậy, trong bối cảnh công nghiệp 4.0 ngày càng phát triển, tin học hóa trong công tác thống kê là xu thế tất yếu, quản lý đồng bộ, hệ thống dữ liệu ở các đơn vị nghiệp vụ là hết sức cần thiết và hoàn toàn có khả năng thực hiện được. Cần có hệ thống quản lý dữ liệu tập trung, nơi người dùng có thể khai thác, dùng chung cùng một bộ số liệu cuối cùng theo quyền hạn được phân quyền, phân công nhiệm vụ truy cập.
- Dữ liệu vi mô được quản lý theo cá nhân và lưu trữ tại nhiều máy tính cá nhân khác nhau, trong quá trình sử dụng dữ liệu vi mô dễ xảy ra tình trạng có công chức sử dụng file số liệu chưa phải là cuối cùng khi tổng hợp các biểu số liệu mang tính đột xuất khi lãnh đạo yêu cầu gấp, và ngay cả khi thực hiện các báo cáo thường xuyên, định kỳ trong đơn vị. Tình trạng này xảy ra khi cá nhân được phân công lưu trữ hay làm sạch số liệu cuối cùng quên/chưa kịp chia sẻ bộ số liệu cuối cùng đến các đồng nghiệp trong đơn vị khi có bất cứ thay đổi về mặt số liệu vi mô thực tế hay quyền số trong bộ số liệu.
(2) Quy trình quản lý dữ liệu trong điều tra LĐVL đối với các chỉ tiêu, biểu số liệu đầu ra chưa được chuẩn hóa, chưa mang tính hệ thống và nhiều khâu mang nặng tính thủ công, tốn nhiều thời gian để thực hiện
- Các tài liệu liên quan cần thiết trong quá trình quản lý dữ liệu điều tra (tài liệu hướng dẫn khái niệm, định nghĩ chỉ tiêu, logic phiếu hỏi, cách tính toán chỉ tiêu đầu ra,...) chưa có tính hệ thống để sử dụng dùng chung, thống nhất, trong khi bản chất các tài liệu này là luôn có tính chính xác, tiêu chuẩn, thống nhất cao; cá nhân tự quản lý có thể lưu dưới nhiều phiên bản khác nhau hoặc có thể không được lưu trữ bởi cá nhân người sử dụng;
- Bộ dữ liệu vi mô điều tra LĐVL gồm nhiều biến số thể hiện nội dung của phiếu điều tra, các trường dữ liệu thể hiện thông tin của các đối tượng điều tra trong hộ dân cư. Bộ dữ liệu đặc tả (mô tả đặc điểm của các biến, nhãn biến, khái niệm, định nghĩa liên quan,...) chưa được coi trọng xây dựng, do mỗi cá nhân khi sử dụng bộ dữ liệu sẽ có các cách tiếp cận và sử dụng khác nhau theo nhiệm vụ được phân công. Đặc biệt, trong quá trình sản xuất chỉ tiêu, biểu số liệu, nhiều biến số mới được tạo bổ sung trong bộ dữ liệu vi mô để tổng hợp các biểu số liệu đầu ra, do đó, mỗi cá nhân lưu trữ một bộ dữ liệu là không đồng nhất (số lượng biến, tên biến, mô tả biến,...), vẫn có trường hợp biến số được tạo thêm nhầm lẫn, chưa chuẩn xác, dẫn đến các kết quả số liệu khác nhau. Khi đó, các cá nhân tổng hợp số liệu thêm công đoạn kiểm tra chéo lại số liệu của nhau, điều này gây lãng phí thời gian, công sức của người tổng hợp số liệu. Vì vậy, rất cần có không gian dữ liệu được chuẩn hóa dùng chung, ở đó dữ liệu đã được thống nhất, chuẩn hóa đến từng biến số là nhất quán, người dùng hoàn toàn yên tâm, tin tưởng khi sử dụng bộ số liệu đó với chất lượng số liệu đầu ra được tổng hợp chính xác, kịp thời.
- Hệ thống các biểu mẫu báo cáo theo định kỳ thường sẽ có các mẫu biểu giống nhau và có tính lặp lại theo thời gian, nhưng người sản xuất số liệu vẫn thường xuyên phải tổng hợp, công việc lặp đi lặp lại mang tính thủ công, trong khi chúng ta hoàn toàn có thể tin học hóa các khâu lặp lại này trong quy trình sản suất biểu đầu ra.
(3) Chương trình tổng hợp biểu đầu ra sử dụng phần mềm thống kê chưa có tính hệ thống, đồng bộ
Mặc dù, tổng hợp số liệu được sử dụng đồng nhất phần mềm thống kê như nhau (SPSS, Stata,...) nhưng do nhiều cá nhân viết các câu lệnh, chương trình tổng hợp khác nhau; trong khi, hệ thống biểu mẫu đầu ra lặp lại có tính chu kỳ theo thời gian, nhưng các chương trình tổng hợp số liệu chưa được hệ thống hóa để mọi người có thể cùng sử dụng thống nhất trên một hệ thống. Điều này có ý nghĩa với cả những cá nhân mới được phân công tiếp cận dữ liệu điều tra, họ hoàn toàn có thể học hỏi, nâng cao hiểu biết chuyên môn nghiệp vụ nếu có chương trình/câu lệnh nhất quán trên hệ thống truy cập dùng chung. Cụ thể trong quá trình tính toán biên soạn số liệu đầu ra, các câu lệnh tạo biến, câu lệnh tạo biểu số liệu hoàn toàn có khả năng thống nhất, đồng bộ theo bộ số liệu của từng quý, từng năm, nếu quản lý các chương trình này thống nhất thì người dùng tiết kiệm được thời gian, công sức và tính chính xác, tính thống nhất cũng sẽ được thiết lập trong hệ thống biểu số liệu đầu ra.
(4) Tổng hợp biểu số liệu mang tính thủ công, lãng phí công sức
Nhiệm vụ sản xuất biểu đầu ra trong cuộc điều tra hộ dân cư được phân công cho nhiều cá nhân thực hiện độc lập; công việc tổng hợp toàn bộ hệ thống biểu số liệu (nếu có) thường do một cá nhân tổng hợp. Nhiều công việc mang tính thường xuyên gây lãng phí thời gian, công sức và xác suất xảy ra sai sót do ý thức của người tổng hợp biểu số liệu.
Trước thực trạng đó, nhóm nghiên cứu đã khảo sát học tập kinh nghiệm và khuyến nghị quốc tế để đề xuất một quy trình quản lý dữ liệu nhằm ứng dụng công nghệ thông tin triệt để trong các khâu, giúp cho quá trình quản lý dữ liệu đang thực hiện tại Vụ Thống kê Dân số và Lao động trở lên minh bạch, rõ ràng, nâng cao chất lượng số liệu thống kê đầu ra; đồng thời dễ dàng kiểm soát sai sót không đáng có do phải thực hiện nhiều khâu mang tính thủ công. Việc xây dựng một quy trình quản lý dữ liệu chặt chẽ trong từng khâu sẽ giữ vai trò then chốt mang lại hiệu quả cao nhất đối với người làm công tác thống kê. Quy trình đó bao gồm các bước sau:
Bước 1: Chuẩn bị máy chủ và tạo lập hệ thống các thư mục
1. Chuẩn bị máy chủ dùng chung
Để thực hiện quản lý dữ liệu trong Điều tra LĐVL hàng năm, yêu cầu đầu tiên là tất cả các quy trình, chương trình, dữ liệu, siêu dữ liệu, số liệu đầu ra đều phải được đặt trên một máy chủ (được sao lưu thường xuyên) để tất cả các công chức phụ trách công việc có thể truy cập từ xa nhằm thực hiện các nhiệm vụ khác nhau trong quy trình chuẩn hóa và sản xuất biểu đầu ra.
Tuy nhiên, trước mắt trong trường hợp nguồn tài nguyên không có sẵn hoặc chưa có khả năng thiết lập máy chủ dùng chung, tức là hệ thống máy chủ được thiết lập khó khăn với đơn vị thực hiện, có một số cách khác đơn giản hơn khi người dùng thiết lập được một máy tính dùng chung của đơn vị, điều này có tính khả thi khá cao. Giải pháp nhanh chóng có thể được thực hiện là một ổ đĩa từ xa được chia sẻ đơn giản trên một máy tính để bàn chuyên dụng hoạt động như một máy chủ (được sao lưu thường xuyên) và các người dùng khác kết nối, truy cập từ xa với ổ đĩa từ máy tính của họ để khởi chạy các chương trình/quy trình trên ổ đĩa được chia sẻ, đồng thời cũng tự động lưu kết quả trên đó.
Đối với hệ thống kết nối của Tổng cục Thống kê, mỗi vụ Thống kê chuyên ngành đều có một ổ lưu trữ riêng để phục vụ các công việc của Vụ, do đó nhóm nghiên cứu đã sử dụng ổ lưu trữ của Vụ Thống kê Dân số và lao động để đảm bảo tất cả các thành viên của vụ đều có thể truy cập và sử dụng. Do đó, cần chuẩn bị hệ thống quản lý có thể là máy chủ có kết nối mạng internet dùng chung hoặc máy tính có ổ đĩa dùng chung (kết nối mạng LAN của Tổng cục Thống kê).
2. Tạo lập hệ thống các thư mục
Để quản lý tập trung, cần hệ thống hóa toàn bộ dữ liệu, tài liệu, và các khâu liên quan đến quản lý dữ liệu điều tra lao động việc làm, bước đầu tiên của quy trình là tạo lập hệ thống các thư mục được chuẩn hóa theo quy trình sản xuất thông tin thống kê. Bao gồm tạo lập thư mục chính và tạo lập thư mục con. Thư mục chính và thư mục con phải có quy định chuẩn hóa về việc đặt tên. Việc đặt tên phải theo hệ thống, không được ngẫu nhiên tùy hứng. Tên thư mục liên quan đến các câu lệnh tạo hệ biểu tự động nên cần thống nhất và phải được tuân thủ chặt chẽ
Bước 2: Chuẩn bị dữ liệu và chuẩn hóa dữ liệu
Việc tiêu chuẩn hóa tên, định dạng và phân loại tạo điều kiện thuận lợi cho việc sử dụng các chương trình và ứng dụng tiêu chuẩn chung để sản xuất và phổ biến các chỉ tiêu, biểu số liệu đầu ra thống kê.
- Tuy nhiên, đôi khi dữ liệu cuối cùng từ các vòng điều tra (các năm) khác nhau không được chuẩn hóa vì những lý do khác nhau (ví dụ: Thay đổi trong bảng câu hỏi, thay đổi trong phân loại, v.v.) và người dùng tin có thể muốn để nguyên dữ liệu theo cách đó vì một số lý do. Trong trường hợp này, có thể tạo bộ dữ liệu chuẩn hóa để phân tích và lập bảng (sử dụng cú pháp cụ thể cho các năm khảo sát khác nhau) và lưu trữ chúng trong thư mục con thể hiện theo thời gian.
- Các biến của file dữ liệu phải có tên tiêu chuẩn (cần đặc biệt chú ý đến phần mềm xử lý chữ thường và chữ hoa khác nhau): Chúng cũng cần có định dạng và phân loại tiêu chuẩn trong các phần khác nhau để tạo điều kiện thuận lợi cho việc tạo bảng tiêu chuẩn và các chỉ số thông qua các chương trình tiêu chuẩn hoặc các ứng dụng của hệ thống thông tin thị trường lao động.
- Tên, định dạng và phân loại của các biến (siêu dữ liệu) có thể khác nhau ở các giai đoạn khác nhau và trong các bộ dữ liệu khác nhau (mặc dù không được khuyến nghị). Điều quan trọng là các siêu dữ liệu này phải được ghi lại đầy đủ và sẵn sàng để các công chức tham gia vào các nhiệm vụ khác nhau tham khảo sử dụng. Người dùng nên đảm bảo rằng đầu ra mà họ tạo ra (là đầu vào cho các tác vụ tiếp theo) được tạo ra phù hợp với thông tin cụ thể được cung cấp.
Bước 3: Chuẩn bị hệ thống biểu mẫu đầu ra
Hệ thống biểu mẫu đầu ra là tập hợp nhiều biểu mẫu đầu ra được thiết kế để tổng hợp kết quả số liệu đầu ra của chỉ tiêu thống kê hoặc kết quả số liệu trung gian theo một số phân tổ tùy theo mục đích của người tổng hợp số liệu. Trong điều tra lao động việc làm, các báo cáo thống kê, báo cáo phân tích phục vụ các nhu cầu tổng hợp khác nhau thông thường các mẫu biểu được lặp lại định kỳ theo quý, năm nhằm tổng hợp các số liệu công bố định kỳ có tính đối chiếu so sánh cao, do đó các biểu mẫu đưa vào hệ thống quản lý để phục vụ tổng hợp tự động kết quả đầu ra có ý nghĩa hết sức quan trọng.
- Để tạo biểu tự động, người dùng phải xây dựng hệ biểu mẫu chuẩn theo nhu cầu sử dụng và lưu trữ tại thư mục bảng biểu mẫu (thư mục này được tạo ra trong thư mục con, có tên thư mục con phụ theo đúng quy định).
Bước 4: Thiết lập chương trình/câu lệnh phục vụ tổng hợp tự động kết quả điều tra lao động việc làm
Thiết lập các câu lệnh tính toán sử dụng phần mềm thống kê SPSS để tính toán, tổng hợp các chỉ tiêu theo biểu mẫu đầu ra đã được thiết lập sẵn: Các chương trình/thủ tục, biểu mẫu,... có thể dựa trên việc sử dụng phần mềm khác nhau cho các mục đích khác nhau, đề tài sử dụng thiết lập các câu lệnh sử dụng phần mềm SPSS. Tiêu chuẩn hóa và tái sử dụng các chương trình/thủ tục là yếu tố then chốt để tin học hóa quy trình quản lý dữ liệu được thực hiện một cách hệ thống, mang tính thống nhất và đem lại hiệu quả công việc tốt.
Kết quả nghiên cứu trên đã được ứng dụng thử nghiệm tại Vụ Thống kê Dân số và Lao động. Nhờ việc ứng dụng này, nguồn lực đầu tư cho việc tính toán quyền số, tổng hợp biểu đầu ra phục vụ báo báo kinh tế xã hội hàng quý mà đơn vị phải thực hiện đã giảm thiểu đáng kể.
Kết quả nghiên cứu này sẽ là cơ sở để xây dựng quy trình quản lý dữ liệu cho tất cả các cuộc điều tra thường xuyên của Tổng cục Thống kê. Việc áp dụng quy trình quản lý dữ liệu sẽ góp phần giúp ngành Thống kê nâng cao năng lực nhờ tăng cường ứng dụng tối đa công nghệ thông tin vào tất cả các khâu của quá trình sản xuất dữ liệu thống kê; góp phần nâng cao chất lượng nguồn thông tin đầu ra dựa trên tính chuyên nghiệp và hiệu quả./.
Việc thực hiện các cuộc điều tra và Tổng điều tra theo đúng chương trình, kế hoạch và thực hiện công bố thông tin đảm bảo chất lượng đáp ứng nhu cầu người dùng tin và đảm bảo tiến độ quy định của lịch phổ biến thông tin thống kê là một trong những thành tựu quan trọng mà ngành Thống kê đã không ngừng nỗ lực để đạt được trong nhiều năm qua. Thành tựu đó có được một phần là nhờ Tổng cục Thống kê đã áp dụng quy trình sản xuất thông tin thống kê.
Quy trình sản xuất thông tin thống kê được nghiên cứu xây dựng từ những năm 2010 và được chính thức ban hành theo Quyết định số 945/QĐ-TCTK, ngày 24/09/2013 của Tổng cục trưởng Tổng cục Thống kê. Quy trình này gồm 07 bước: (1) Xác định nhu cầu thông tin; (2) Chuẩn bị thu thập thông tin; (3) Thu thập thông tin; (4) Xử lý thông tin; (5) Phân tích thông tin; (6) Phổ biến thông tin và (7) Lưu trữ thông tin. Theo đó, tất cả các cuộc điều tra do ngành Thống kê chủ trì đều tuân thủ các bước để biên soạn và phổ biến thông tin thống kê. Nhờ vậy, việc thực hiện các cuộc điều tra thống kê và thực hiện biên soạn và phổ biến kết quả điều tra do Tổng cục Thống kê thực hiện được triển khai một cách chuyên nghiệp, kịp thời, đảm bảo chất lượng.
Trong bối cảnh cuộc cách mạng công nghiệp lần thứ 4 đang diễn ra vô cùng mạnh mẽ, càng ngày, nhu cầu được cung cấp những số liệu thống kê chính xác và kịp thời càng trở nên bức thiết hơn bao giờ hết. Công chức ngành Thống kê đã và đang hết sức nỗ lực để có thể tính toán, biên soạn và tổng hợp kết quả điều tra thành các số liệu thống kê đảm bảo cung cấp kịp thời cho người dùng tin. Thực tế cho thấy, quy trình sản xuất thông tin thống kê được thực hiện tốt nhưng việc quản lý dữ liệu điều tra, một bước quan trọng trong 7 bước của Quy trình sản xuất thông tin thống kê mặc dù đã có nhiều cải tiến nhưng vẫn còn nhiều hạn chế. Việc biên soạn số liệu chủ yếu được thực hiện bằng phương pháp thủ công, mất khá nhiều thời gian và công sức. Thực trạng này xảy ra ở nhiều đơn vị nghiệp vụ của Tổng cục Thống kê, trong đó có Vụ Thống kê Dân số và Lao động. Điều này làm tăng gánh nặng công việc và giảm năng suất biên soạn số liệu thống kê của các công chức thống kê.
Với mục tiêu nghiên cứu để xây dựng quy trình quản lý dữ liệu này hỗ trợ công tác biên soạn tự động số liệu thống kê lao động việc làm, phục vụ việc công bố số liệu định kỳ và đột xuất với tần suất hằng quý, nhằm giảm gánh nặng cho công tác biên soạn số liệu, nhóm nghiên cứu của Vụ Thống kê Dân số và Lao động đã nghiên cứu cách thức quản lý dữ liệu điều tra lao động việc làm hiện tại của Vụ để thấy những ưu điểm, hạn chế của cách thức này, từ đó đề xuất xây dựng một quy trình quản lý dữ liệu này hỗ trợ công tác biên soạn tự động số liệu thống kê lao động việc làm.
Kết quả nghiên cứu cho thấy: Từ năm 2010, Tổng cục Thống kê đã triển khai thực hiện điều tra lao động việc làm hàng tháng để tính toán, tổng hợp và công bố thực trạng về tình hình lao động việc làm trong nền kinh tế Việt Nam hàng quý. Đều đặn hàng quý, báo cáo phân tích và số liệu Điều tra lao động việc được công bố rộng rãi đến người người dùng tin qua các kỳ họp báo và trên Website của Tổng cục Thống kê. Việc biên soạn số liệu thống kê chủ yếu mang nặng tính thủ công. Việc sử dụng các nền tảng phần mềm như SPSS, Excel để hỗ trợ công tác này còn rất hạn chế. Nguyên nhân của thực trạng này chủ yếu là do quá trình quản lý dữ liệu chưa được tốt. Cụ thể là:
(1) Quy trình quản lý dữ liệu điều tra lao động việc làm phân tán, chưa có tính hệ thống, thiếu tính đồng bộ, nhất quán
- Quản lý dữ liệu, biểu số liệu đầu ra thiếu tính hệ thống và đồng bộ: Dữ liệu vi mô lưu trữ, sử dụng phân tán trên nhiều máy tính cá nhân; các chỉ tiêu, biểu số liệu đầu ra trong điều tra LĐVL có tính so sánh theo thời gian (quý, năm,...), công tác hệ thống hóa, tư liệu hóa của bộ số liệu và biểu đầu ra theo thời gian chưa được thiết lập, trong khi đó các yêu cầu cung cấp số liệu từ các đơn vị trong và ngoài Tổng cục ngày càng gia tăng và yêu cầu có tính xâu chuỗi, tính hệ thống theo thời gian. Do vậy, trong bối cảnh công nghiệp 4.0 ngày càng phát triển, tin học hóa trong công tác thống kê là xu thế tất yếu, quản lý đồng bộ, hệ thống dữ liệu ở các đơn vị nghiệp vụ là hết sức cần thiết và hoàn toàn có khả năng thực hiện được. Cần có hệ thống quản lý dữ liệu tập trung, nơi người dùng có thể khai thác, dùng chung cùng một bộ số liệu cuối cùng theo quyền hạn được phân quyền, phân công nhiệm vụ truy cập.
- Dữ liệu vi mô được quản lý theo cá nhân và lưu trữ tại nhiều máy tính cá nhân khác nhau, trong quá trình sử dụng dữ liệu vi mô dễ xảy ra tình trạng có công chức sử dụng file số liệu chưa phải là cuối cùng khi tổng hợp các biểu số liệu mang tính đột xuất khi lãnh đạo yêu cầu gấp, và ngay cả khi thực hiện các báo cáo thường xuyên, định kỳ trong đơn vị. Tình trạng này xảy ra khi cá nhân được phân công lưu trữ hay làm sạch số liệu cuối cùng quên/chưa kịp chia sẻ bộ số liệu cuối cùng đến các đồng nghiệp trong đơn vị khi có bất cứ thay đổi về mặt số liệu vi mô thực tế hay quyền số trong bộ số liệu.
(2) Quy trình quản lý dữ liệu trong điều tra LĐVL đối với các chỉ tiêu, biểu số liệu đầu ra chưa được chuẩn hóa, chưa mang tính hệ thống và nhiều khâu mang nặng tính thủ công, tốn nhiều thời gian để thực hiện
- Các tài liệu liên quan cần thiết trong quá trình quản lý dữ liệu điều tra (tài liệu hướng dẫn khái niệm, định nghĩ chỉ tiêu, logic phiếu hỏi, cách tính toán chỉ tiêu đầu ra,...) chưa có tính hệ thống để sử dụng dùng chung, thống nhất, trong khi bản chất các tài liệu này là luôn có tính chính xác, tiêu chuẩn, thống nhất cao; cá nhân tự quản lý có thể lưu dưới nhiều phiên bản khác nhau hoặc có thể không được lưu trữ bởi cá nhân người sử dụng;
- Bộ dữ liệu vi mô điều tra LĐVL gồm nhiều biến số thể hiện nội dung của phiếu điều tra, các trường dữ liệu thể hiện thông tin của các đối tượng điều tra trong hộ dân cư. Bộ dữ liệu đặc tả (mô tả đặc điểm của các biến, nhãn biến, khái niệm, định nghĩa liên quan,...) chưa được coi trọng xây dựng, do mỗi cá nhân khi sử dụng bộ dữ liệu sẽ có các cách tiếp cận và sử dụng khác nhau theo nhiệm vụ được phân công. Đặc biệt, trong quá trình sản xuất chỉ tiêu, biểu số liệu, nhiều biến số mới được tạo bổ sung trong bộ dữ liệu vi mô để tổng hợp các biểu số liệu đầu ra, do đó, mỗi cá nhân lưu trữ một bộ dữ liệu là không đồng nhất (số lượng biến, tên biến, mô tả biến,...), vẫn có trường hợp biến số được tạo thêm nhầm lẫn, chưa chuẩn xác, dẫn đến các kết quả số liệu khác nhau. Khi đó, các cá nhân tổng hợp số liệu thêm công đoạn kiểm tra chéo lại số liệu của nhau, điều này gây lãng phí thời gian, công sức của người tổng hợp số liệu. Vì vậy, rất cần có không gian dữ liệu được chuẩn hóa dùng chung, ở đó dữ liệu đã được thống nhất, chuẩn hóa đến từng biến số là nhất quán, người dùng hoàn toàn yên tâm, tin tưởng khi sử dụng bộ số liệu đó với chất lượng số liệu đầu ra được tổng hợp chính xác, kịp thời.
- Hệ thống các biểu mẫu báo cáo theo định kỳ thường sẽ có các mẫu biểu giống nhau và có tính lặp lại theo thời gian, nhưng người sản xuất số liệu vẫn thường xuyên phải tổng hợp, công việc lặp đi lặp lại mang tính thủ công, trong khi chúng ta hoàn toàn có thể tin học hóa các khâu lặp lại này trong quy trình sản suất biểu đầu ra.
(3) Chương trình tổng hợp biểu đầu ra sử dụng phần mềm thống kê chưa có tính hệ thống, đồng bộ
Mặc dù, tổng hợp số liệu được sử dụng đồng nhất phần mềm thống kê như nhau (SPSS, Stata,...) nhưng do nhiều cá nhân viết các câu lệnh, chương trình tổng hợp khác nhau; trong khi, hệ thống biểu mẫu đầu ra lặp lại có tính chu kỳ theo thời gian, nhưng các chương trình tổng hợp số liệu chưa được hệ thống hóa để mọi người có thể cùng sử dụng thống nhất trên một hệ thống. Điều này có ý nghĩa với cả những cá nhân mới được phân công tiếp cận dữ liệu điều tra, họ hoàn toàn có thể học hỏi, nâng cao hiểu biết chuyên môn nghiệp vụ nếu có chương trình/câu lệnh nhất quán trên hệ thống truy cập dùng chung. Cụ thể trong quá trình tính toán biên soạn số liệu đầu ra, các câu lệnh tạo biến, câu lệnh tạo biểu số liệu hoàn toàn có khả năng thống nhất, đồng bộ theo bộ số liệu của từng quý, từng năm, nếu quản lý các chương trình này thống nhất thì người dùng tiết kiệm được thời gian, công sức và tính chính xác, tính thống nhất cũng sẽ được thiết lập trong hệ thống biểu số liệu đầu ra.
(4) Tổng hợp biểu số liệu mang tính thủ công, lãng phí công sức
Nhiệm vụ sản xuất biểu đầu ra trong cuộc điều tra hộ dân cư được phân công cho nhiều cá nhân thực hiện độc lập; công việc tổng hợp toàn bộ hệ thống biểu số liệu (nếu có) thường do một cá nhân tổng hợp. Nhiều công việc mang tính thường xuyên gây lãng phí thời gian, công sức và xác suất xảy ra sai sót do ý thức của người tổng hợp biểu số liệu.
Trước thực trạng đó, nhóm nghiên cứu đã khảo sát học tập kinh nghiệm và khuyến nghị quốc tế để đề xuất một quy trình quản lý dữ liệu nhằm ứng dụng công nghệ thông tin triệt để trong các khâu, giúp cho quá trình quản lý dữ liệu đang thực hiện tại Vụ Thống kê Dân số và Lao động trở lên minh bạch, rõ ràng, nâng cao chất lượng số liệu thống kê đầu ra; đồng thời dễ dàng kiểm soát sai sót không đáng có do phải thực hiện nhiều khâu mang tính thủ công. Việc xây dựng một quy trình quản lý dữ liệu chặt chẽ trong từng khâu sẽ giữ vai trò then chốt mang lại hiệu quả cao nhất đối với người làm công tác thống kê. Quy trình đó bao gồm các bước sau:
Bước 1: Chuẩn bị máy chủ và tạo lập hệ thống các thư mục
1. Chuẩn bị máy chủ dùng chung
Để thực hiện quản lý dữ liệu trong Điều tra LĐVL hàng năm, yêu cầu đầu tiên là tất cả các quy trình, chương trình, dữ liệu, siêu dữ liệu, số liệu đầu ra đều phải được đặt trên một máy chủ (được sao lưu thường xuyên) để tất cả các công chức phụ trách công việc có thể truy cập từ xa nhằm thực hiện các nhiệm vụ khác nhau trong quy trình chuẩn hóa và sản xuất biểu đầu ra.
Tuy nhiên, trước mắt trong trường hợp nguồn tài nguyên không có sẵn hoặc chưa có khả năng thiết lập máy chủ dùng chung, tức là hệ thống máy chủ được thiết lập khó khăn với đơn vị thực hiện, có một số cách khác đơn giản hơn khi người dùng thiết lập được một máy tính dùng chung của đơn vị, điều này có tính khả thi khá cao. Giải pháp nhanh chóng có thể được thực hiện là một ổ đĩa từ xa được chia sẻ đơn giản trên một máy tính để bàn chuyên dụng hoạt động như một máy chủ (được sao lưu thường xuyên) và các người dùng khác kết nối, truy cập từ xa với ổ đĩa từ máy tính của họ để khởi chạy các chương trình/quy trình trên ổ đĩa được chia sẻ, đồng thời cũng tự động lưu kết quả trên đó.
Đối với hệ thống kết nối của Tổng cục Thống kê, mỗi vụ Thống kê chuyên ngành đều có một ổ lưu trữ riêng để phục vụ các công việc của Vụ, do đó nhóm nghiên cứu đã sử dụng ổ lưu trữ của Vụ Thống kê Dân số và lao động để đảm bảo tất cả các thành viên của vụ đều có thể truy cập và sử dụng. Do đó, cần chuẩn bị hệ thống quản lý có thể là máy chủ có kết nối mạng internet dùng chung hoặc máy tính có ổ đĩa dùng chung (kết nối mạng LAN của Tổng cục Thống kê).
2. Tạo lập hệ thống các thư mục
Để quản lý tập trung, cần hệ thống hóa toàn bộ dữ liệu, tài liệu, và các khâu liên quan đến quản lý dữ liệu điều tra lao động việc làm, bước đầu tiên của quy trình là tạo lập hệ thống các thư mục được chuẩn hóa theo quy trình sản xuất thông tin thống kê. Bao gồm tạo lập thư mục chính và tạo lập thư mục con. Thư mục chính và thư mục con phải có quy định chuẩn hóa về việc đặt tên. Việc đặt tên phải theo hệ thống, không được ngẫu nhiên tùy hứng. Tên thư mục liên quan đến các câu lệnh tạo hệ biểu tự động nên cần thống nhất và phải được tuân thủ chặt chẽ
Bước 2: Chuẩn bị dữ liệu và chuẩn hóa dữ liệu
Việc tiêu chuẩn hóa tên, định dạng và phân loại tạo điều kiện thuận lợi cho việc sử dụng các chương trình và ứng dụng tiêu chuẩn chung để sản xuất và phổ biến các chỉ tiêu, biểu số liệu đầu ra thống kê.
- Tuy nhiên, đôi khi dữ liệu cuối cùng từ các vòng điều tra (các năm) khác nhau không được chuẩn hóa vì những lý do khác nhau (ví dụ: Thay đổi trong bảng câu hỏi, thay đổi trong phân loại, v.v.) và người dùng tin có thể muốn để nguyên dữ liệu theo cách đó vì một số lý do. Trong trường hợp này, có thể tạo bộ dữ liệu chuẩn hóa để phân tích và lập bảng (sử dụng cú pháp cụ thể cho các năm khảo sát khác nhau) và lưu trữ chúng trong thư mục con thể hiện theo thời gian.
- Các biến của file dữ liệu phải có tên tiêu chuẩn (cần đặc biệt chú ý đến phần mềm xử lý chữ thường và chữ hoa khác nhau): Chúng cũng cần có định dạng và phân loại tiêu chuẩn trong các phần khác nhau để tạo điều kiện thuận lợi cho việc tạo bảng tiêu chuẩn và các chỉ số thông qua các chương trình tiêu chuẩn hoặc các ứng dụng của hệ thống thông tin thị trường lao động.
- Tên, định dạng và phân loại của các biến (siêu dữ liệu) có thể khác nhau ở các giai đoạn khác nhau và trong các bộ dữ liệu khác nhau (mặc dù không được khuyến nghị). Điều quan trọng là các siêu dữ liệu này phải được ghi lại đầy đủ và sẵn sàng để các công chức tham gia vào các nhiệm vụ khác nhau tham khảo sử dụng. Người dùng nên đảm bảo rằng đầu ra mà họ tạo ra (là đầu vào cho các tác vụ tiếp theo) được tạo ra phù hợp với thông tin cụ thể được cung cấp.
Bước 3: Chuẩn bị hệ thống biểu mẫu đầu ra
Hệ thống biểu mẫu đầu ra là tập hợp nhiều biểu mẫu đầu ra được thiết kế để tổng hợp kết quả số liệu đầu ra của chỉ tiêu thống kê hoặc kết quả số liệu trung gian theo một số phân tổ tùy theo mục đích của người tổng hợp số liệu. Trong điều tra lao động việc làm, các báo cáo thống kê, báo cáo phân tích phục vụ các nhu cầu tổng hợp khác nhau thông thường các mẫu biểu được lặp lại định kỳ theo quý, năm nhằm tổng hợp các số liệu công bố định kỳ có tính đối chiếu so sánh cao, do đó các biểu mẫu đưa vào hệ thống quản lý để phục vụ tổng hợp tự động kết quả đầu ra có ý nghĩa hết sức quan trọng.
- Để tạo biểu tự động, người dùng phải xây dựng hệ biểu mẫu chuẩn theo nhu cầu sử dụng và lưu trữ tại thư mục bảng biểu mẫu (thư mục này được tạo ra trong thư mục con, có tên thư mục con phụ theo đúng quy định).
Bước 4: Thiết lập chương trình/câu lệnh phục vụ tổng hợp tự động kết quả điều tra lao động việc làm
Thiết lập các câu lệnh tính toán sử dụng phần mềm thống kê SPSS để tính toán, tổng hợp các chỉ tiêu theo biểu mẫu đầu ra đã được thiết lập sẵn: Các chương trình/thủ tục, biểu mẫu,... có thể dựa trên việc sử dụng phần mềm khác nhau cho các mục đích khác nhau, đề tài sử dụng thiết lập các câu lệnh sử dụng phần mềm SPSS. Tiêu chuẩn hóa và tái sử dụng các chương trình/thủ tục là yếu tố then chốt để tin học hóa quy trình quản lý dữ liệu được thực hiện một cách hệ thống, mang tính thống nhất và đem lại hiệu quả công việc tốt.
Kết quả nghiên cứu trên đã được ứng dụng thử nghiệm tại Vụ Thống kê Dân số và Lao động. Nhờ việc ứng dụng này, nguồn lực đầu tư cho việc tính toán quyền số, tổng hợp biểu đầu ra phục vụ báo báo kinh tế xã hội hàng quý mà đơn vị phải thực hiện đã giảm thiểu đáng kể.
Kết quả nghiên cứu này sẽ là cơ sở để xây dựng quy trình quản lý dữ liệu cho tất cả các cuộc điều tra thường xuyên của Tổng cục Thống kê. Việc áp dụng quy trình quản lý dữ liệu sẽ góp phần giúp ngành Thống kê nâng cao năng lực nhờ tăng cường ứng dụng tối đa công nghệ thông tin vào tất cả các khâu của quá trình sản xuất dữ liệu thống kê; góp phần nâng cao chất lượng nguồn thông tin đầu ra dựa trên tính chuyên nghiệp và hiệu quả./.
ThS. Nguyễn Thị Thanh Mai; ThS. Nguyễn Thị Ngọc Lan;
ThS. Nhâm Thị Thu Hà; ThS. Nguyễn Thu Dung
(Vụ Thống kê Dân số và Lao động - TCTK)
ThS. Nhâm Thị Thu Hà; ThS. Nguyễn Thu Dung
(Vụ Thống kê Dân số và Lao động - TCTK)