Contenu connexe Similaire à SPSS - Data preparation - Chuẩn bị dữ liệu (8) Plus de Yen Luong-Thanh (17) SPSS - Data preparation - Chuẩn bị dữ liệu1. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
1
CHUẨN BỊ DỮ LIỆU
ThS. BS. Lương Thanh Bảo Yến
ltbyen@huemed-univ.edu.vn
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu
2
3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT
MỤC TIÊU
1. Hiểu được tầm quan trọng của chuẩn bị dữ liệu trước
khi tiến hành phân tích
2. Nắm rõ một số lỗi thường gặp trong một bộ dữ liệu
3. Nắm rõ quy trình làm sạch & các lưu ý khi chuyển đổi
dữ liệu
4. Xây dựng & thực hiện kế hoạch chuẩn bị dữ liệu cho
một bộ dữ liệu cụ thể bằng phần mềm SPSS
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 3
Slides này sẽ trình bày …
1. Vòng đời của dữ liệu nghiên cứu
2. Quy trình chuẩn bị dữ liệu
¡ Tầm quan trọng của làm sạch & chuyển đổi dữ
liệu
¡ Một số lỗi sai thường gặp & cách xử lý
¡ Một số nguyên tắc khi chuyển đổi dữ liệu
3. Thực hành chuẩn bị dữ liệu trên SPSS
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 4
ü Slides này sử dụng dữ liệu của nghiên cứu
“Khảo sát tình trạng thiếu máu ở trẻ em tại huyện A”
➡ Link download phiếu điều tra: shorturl.at/aQW48
➡ Link download data: shorturl.at/myCS2
➡ Link download Syntax: shorturl.at/iLNS7
ü Hình ảnh minh hoạ cho các thao tác trên phần
mềm SPSS được trích xuất từ SPSS v26
MỘT SỐ LƯU Ý TRƯỚC KHI BẮT ĐẦU…
2. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
2
1.VÒNGĐỜICỦA
DỮLIỆUNGHIÊNCỨU
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 5 ©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 6
Q1. Bạn có thể cho biết
một số thông tin về vòng
đời của dữ liệu nghiên cứu?
VÒNG ĐỜI
DỮ LIỆU
NGHIÊN CỨU
Khám phá &
lập kế hoạch
Thu thập
dữ liệu ban
đầu
Chuẩn bị
dữ liệu &
phân ?ch
Xuất bản
& chia sẻ
Quản lý
dài hạn
3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 7
VÒNG ĐỜI
DỮ LIỆU
NGHIÊN CỨU
Khám phá &
lập kế hoạch
Thu thập
dữ liệu ban
đầu
Chuẩn bị
dữ liệu &
phân ?ch
Xuất bản
& chia sẻ
Quản lý
dài hạn
3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8
3. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
3
2.1. Tại sao phải thực hiện trước
khi tiến hành phân tích?
2.2. Quy trình làm sạch dữ liệu
2.3. Nguyên tắc chuyển đổi dữ liệu
2.CHUẨNBỊDỮLIỆU
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 9
2.1. Tại sao phải thực hiện
trước khi tiến hành phân tích?
2.CHUẨNBỊDỮLIỆU
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 10
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 11
Q2: Tiến hành nhập dữ liệu từ phiếu điều tra
“Khảo sát tình trạng thiếu máu ở trẻ em huyện
A” vào máy tính, bạn có nên sử dụng ngay dữ
liệu này để phân tích hay không?
DỮ LIỆU THÔ
Nhập
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 12
DỮ LIỆU THÔ
CÓ THỂ CÓ CÁC LỖI SAU
ü Trùng lặp (duplicate)
ü Giá trị trống (missing values)
ü Giá trị không hợp lệ (invalid)
ü Giá trị ngoại lai (outliers)
4. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
4
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 13
DỮ LIỆU THÔ
ü Biến số chưa được định dạng phù hợp
ü Thiếu biến số cần thiết để phân tích
Chuẩn bị
dữ liệu
Làm sạch dữ liệu
Thao tác/ chuyển đổi dữ liệu
Dữ liệu hoàn chỉnh, sẵn
sàng cho việc phân tích!
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 14
2.2. Quy trình làm sạch dữ liệu
2.CHUẨNBỊDỮLIỆU
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 15 16
3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT
2.2. QUY TRÌNH LÀM SẠCH DỮ LIỆU
Chuẩn bị
codebook -
bảng mã
dữ liệu
Kiểm tra
loại lỗi sai
Xác định
trường hợp lỗi Xử lý
5. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
5
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 17
2.2.1. CHUẨN BỊ CODEBOOK
Tên biến số Nhãn biến Giá trị mã và ý nghĩa ...
msp Mã số phiếu Từ 1 đến 600
gioitinh Giới tính trẻ 1 = Nam
2 = Nữ
…
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 18
DỮ LIỆU THÔ
MỘT SỐ LỖI THƯỜNG GẶP
ü Trùng lặp (duplicate)
ü Giá trị trống (missing values)
ü Giá trị không hợp lệ (invalid)
ü Giá trị ngoại lai (outliers)
Giải quyết
như thế nào
khi phát hiện
lỗi này?
2.2.2. KIỂM TRA LOẠI LỖI SAI
19
3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT
LỖI - TRÙNG LẶP (DUPLICATE)
ü Hợp nhất các bản ghi trùng lặp
ü Xoá bản ghi trùng lặp còn lại
20
3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT
LỖI - GIÁ TRỊ TRỐNG (MISSING VALUES)
ü Xóa các bản ghi có giá trị trống/
ü Thay thế giá trị trống bằng một giá trị hợp lý
6. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
6
21
3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT
LỖI - GIÁ TRỊ KHÔNG HỢP LỆ
Lỗi logic
Nhập sai giá trị
mã hoá
ü Xoá bản ghi lỗi/
ü Thay thế bằng giá trị hợp lý
22
3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT
LỖI - GIÁ TRỊ NGOẠI LAI (OUTLIERS)
ü Cập nhật giá trị đúng nếu do lỗi nhập/
ü Loại bỏ hoặc giữ nguyên tuỳ theo chiến lược phân tích
2.3. Nguyên tắc chuyển đổi dữ liệu
2.CHUẨNBỊDỮLIỆU
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 23 ©SPSS 2022 | Y.LT
Cần lưu ý gì khi
tiến hành chuyển
đổi dữ liệu?
ü Nên tạo biến số mới thay vì thay đổi trực tiếp
trên biến số hiện có
ü Luôn kiểm tra tính chính xác của biến số mới
(bảng tiếp liên hoặc các lệnh lọc phù hợp)
ü Luôn ghi chú các thay đổi/ thao tác thực hiện
24
3 - Chuẩn bị dữ liệu
Biến số cũ Giá trị cũ Biến số mới Giá trị mới
Tuổi 1-15 Tuoi_gr2 1 = ‘>=10’
0 = ‘<10’
Ví dụ:
7. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
7
25
3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT
TÓM LẠI: QUY TRÌNH CHUẨN BỊ DỮ LIỆU
DỮ LIỆU THÔ
DỮ LIỆU HOÀN CHỈNH
Nhập
Chuẩn bị dữ liệu
- Làm sạch
- Thao tác/ chuyển đổi
Phân tích
Đừng quên:
Ghi chú lại các
thay đổi đối với dữ
liệu thô!!!
3.THỰCHÀNH
CHUẨNBỊDỮLIỆUTRÊNSPSS
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 26
3.1. Làm sạch dữ liệu
3.2. Chuyển đổi dữ liệu
27
3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT
NHẮC LẠI: CÁC LỖI SAI THƯỜNG GẶP
ü Trùng lặp (duplicate)
ü Giá trị trống (missing values)
ü Giá trị không hợp lệ (invalid)
ü Giá trị ngoại lai (outliers)
Lệnh nào giúp phát hiện
những lỗi này trên SPSS?
Chuẩn bị
bảng mã
dữ liệu
Kiểm tra lỗi
sai
Xác định
trường hợp lỗi Xử lý
ü Identify duplicate cases
ü Frequencies
ü Explore
ü Crosstabs
ü Select cases
ü Identify duplicate cases
ü Find
ü Sort cases
3 - Chuẩn bị dữ liệu
3.1. LÀM SẠCH DỮ LIỆU – MỘT SỐ LỆNH TRÊN SPSS
©SPSS 2022 | Y.LT 28
ü Màn hình: Variable view
ü Analyze/Reports/ Codebook
ü Utilities/Variables
8. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
8
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 29
3.1. LÀM SẠCH DỮ LIỆU – SƠ ĐỒ ĐỊNH HƯỚNG NHANH LỆNH SỬ DỤNG
Trùng lặp bản ghi Identify Duplicate cases
Riêng lẻ
Định tính Frequencies
Sort cases
Find
Select cases
Định lượng
Frequencies/
Explore
Có ràng buộc/ liên
quan biến khác
Crosstabs
Biến số cần
kiểm tra
30
3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT
¡Sử dụng data “TH_chuanbisolieu_BY.sav” để thực
hành các nội dung sau:
1. Có trường hợp trùng lặp nào trong bộ dữ liệu?
2. Có lỗi sai nào ở các biến số tuổi (tuoi), giới inh (gioi),
cân nặng lúc sinh ở trẻ (cnls)?
3.1. LÀM SẠCH DỮ LIỆU - MỘT SỐ VÍ DỤ
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 31
NÊN SỬ DỤNG LỆNH GÌ?
Trùng lặp bản ghi Idensfy Duplicate cases
Riêng lẻ
Định tính
Gioi
Frequencies
Sort cases
Find
Select cases
Định lượng
Tuoi
Frequencies/
Explore
Có ràng buộc/ liên
quan biến khác
cnls vs bietcnls
Crosstabs
Biến số cần
kiểm tra
VD1.Xácđịnhtrường
hợptrùnglặp
Identify Duplicate cases
Trùng lặp bản ghi
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 32
9. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
9
IDENTIFY DUPLICATE CASES
©SPSS 2022 | Y.LT 33
3 - Chuẩn bị dữ liệu
Biến số giúp xác định các
trường hợp trùng lặp
Tên biến
tạo mới
Output
©SPSS 2022 | Y.LT 34
3 - Chuẩn bị dữ liệu
Data view
Q3: Có bao nhiêu
lỗi trùng lặp?
IDENTIFY DUPLICATE CASES
Biến số
mới tạo
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 35
VD2. Kiểm tra biến số tuổi (tuoi), giới tính (gioi) và cân nặng lúc sinh (cnls)
Riêng lẻ
Định ?nh
Gioi
Frequencies
Sort cases
Find
Select cases
Định lượng
Tuoi
Frequencies/
Explore
Có ràng buộc/ liên
quan biến khác
cnls vs bietcnls
Crosstabs
Biến số cần
kiểm tra
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 36
Riêng lẻ
Định tính
Gioi
Frequencies
Sort cases
Find
Select cases
Định lượng
Tuoi
Frequencies/
Explore
Có ràng buộc/ liên
quan biến khác
cnls vs bietcnls
Crosstabs
Biến số cần
kiểm tra
VD2.1. Kiểm tra biến số tuổi (tuoi), giới nh (gioi)
10. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
10
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 37
Kiểm tra thông tin
của biến giới tính
(gioi) & tuổi (tuoi)
Thựchànhlệnh
Frequencies
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 38
FREQUENCIES
©SPSS 2022 | Y.LT 39
3 - Chuẩn bị dữ liệu
FREQUENCIES: OUTPUT
Outlier
Missing
Giá trị không
hợp lệ
©SPSS 2022 | Y.LT 40
3 - Chuẩn bị dữ liệu
11. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
11
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 41
Sau khi xác định loại lỗi sai, có thể xác định
trường hợp lỗi bằng một trong các lệnh sau:
ü Find
ü Sort Cases
ü Select cases
BTTH: Xác định 5 trường hợp tuổi có lỗi missing
và 1 trường hợp có tuoi=155
3.1.3. XÁC ĐỊNH TRƯỜNG HỢP NGHI LỖI?
Thựchànhlệnh
Find
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 42
FIND
Bôi đen
cột biến số
cần |m
Nhập giá trị
cần tìm
Tìm chính xác giá
trị trong ô Find
©SPSS 2022 | Y.LT 43
3 - Chuẩn bị dữ liệu
Data View
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 44
Q4: Sử dụng lệnh Find để tìm kiếm 5 trường
hợp có biến tuổi (tuoi) bị lỗi missing?
12. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
12
Thựchànhlệnh
SortCases
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 45
SORT CASES
Tăng dần
Giảm dần
©SPSS 2022 | Y.LT 46
3 - Chuẩn bị dữ liệu
SORT CASES
Tăng dần
Giảm dần
©SPSS 2022 | Y.LT 47
3 - Chuẩn bị dữ liệu
Hoặc thao
tác trực
tiếp ở Data
View
Outlier
Missing
©SPSS 2022 | Y.LT 48
3 - Chuẩn bị dữ liệu
… … … … … …
SORT CASES
Sau khi sử dụng lệnh Data View
13. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
13
Thựchànhlệnh
Selectcases
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 49
SELECT CASES
©SPSS 2022 | Y.LT 50
3 - Chuẩn bị dữ liệu
Khai báo điều kiện
lựa chọn
SELECT CASES
©SPSS 2022 | Y.LT 51
3 - Chuẩn bị dữ liệu
Khai báo điều kiện lựa chọn
SELECT CASES
©SPSS 2022 | Y.LT 52
3 - Chuẩn bị dữ liệu
Sau khi
sử dụng
lệnh
Data View
Biến mới tạo sau khi sử dụng lệnh
ü Có 2 nhóm giá trị là 0 &1
Hint: Sử dụng Rếp lệnh Find/Sort Cases
biến filter_$ để xác định phiếu nghi lỗi
14. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
14
SELECT CASES
©SPSS 2022 | Y.LT 53
3 - Chuẩn bị dữ liệu
Sau khi thực hiện
lệnh này, nhớ chọn
lại All cases
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 54
Q4: Có thể sử dụng Select cases để
|m các trường hợp missing của biến
tuoi hay không?
Hint: Sử dụng Function Missing
trong “Missing Values”
©SPSS 2022 | Y.LT
VD2.2. Phát hiện lỗi của
biến cnls như thế nào? Sử dụng lệnh
“CrossT
abs”/ “Select cases”
55
3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 56
Kiểm tra thông tin
của biến cnls &
bietcnls
15. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
15
Thựchànhlệnh
Crosstabs
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 57
CROSSTABS
©SPSS 2022 | Y.LT 58
3 - Chuẩn bị dữ liệu
OUTPUT
©SPSS 2022 | Y.LT 59
3 - Chuẩn bị dữ liệu
CROSSTABS
Thông tin về missing
của biến cnls và/ hoặc
biến số bietcnls
OUTPUT
©SPSS 2022 | Y.LT
Lưu ý: Output này không cho biết có bao
nhiêu trường hợp Bà mẹ biết cân nặng lúc sinh
nhưng cân nặng lúc sinh không được khai báo
Nên sử dụng lệnh Select cases thay vì
Crosstabs
60
3 - Chuẩn bị dữ liệu
CROSSTABS
16. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
16
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 61
Q5: Thao tác lệnh Select cases như thế nào để
|m phát hiện lỗi logic của biến cnls và bietcnls?
Hint: Sử dụng kết hợp Function
Missing trong “Missing Values”
©SPSS 2022 | Y.LT
Lệnh nào trên SPSS
giúp phát hiện
outlier ở biến tuoi?
Sử dụng “Explore” & kiểm tra
Histogram/ Boxplot/ bảng Extreme values
62
3 - Chuẩn bị dữ liệu
Thựchànhlệnh
Explore
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 63 ©SPSS 2022 | Y.LT 64
3 - Chuẩn bị dữ liệu
EXPLORE
17. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
17
©SPSS 2022 | Y.LT
OUTPUT – Histogram
65
3 - Chuẩn bị dữ liệu
EXPLORE
©SPSS 2022 | Y.LT
OUTPUT – Boxplot
66
3 - Chuẩn bị dữ liệu
Số thứ tự
của hàng trong
Data view
EXPLORE
©SPSS 2022 | Y.LT
OUTPUT – Extreme Values
67
3 - Chuẩn bị dữ liệu
EXPLORE
©SPSS 2022 | Y.LT 68
3 - Chuẩn bị dữ liệu
LỆNH TÌM ĐẾN TRƯỜNG HỢP NGHI LỖI?
18. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
18
Chuẩn bị
bảng mã
số liệu
Kiểm tra lỗi
sai trong bộ
số liệu
Xác định
trường hợp lỗi Xử lý
Check lại phiếu điều tra/ người
điều tra / người được phỏng vấn
à cập nhật giá trị phù hợp
3 - Chuẩn bị dữ liệu
3.1.4. LÀM GÌ SAU KHI PHÁT HIỆN TRƯỜNG HỢP LỖI?
©SPSS 2022 | Y.LT 69 70
3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT
3.2. CHUYỂN ĐỔI DỮ LIỆU - MỘT SỐ LỆNH PHỔ BIẾN
71
3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT
¡Sử dụng data “TH_chuanbisolieu_BY.sav” để thực
hành các nội dung sau:
1. Tạo biến số trình độ học vấn mẹ được khai báo kiểu số
(numeric) với các phân nhóm được gán số tương ứng
2. Tạo biến số nhóm tuổi với 2 phân nhóm là <10 và ≥10 tuổi
3. Tạo biến số số triệu chứng ở trẻ bao gồm da xanh, niêm
mạc mắt nhợt và lòng bàn tay nhợt
3.2. CHUYỂN ĐỔI DỮ LIỆU - MỘT SỐ VÍ DỤ
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 72
1. Trình độ
học vấn mẹ
2. Nhóm
tuổi
3. Số triệu
chứng
Compute Variable ✓ ✓ ✓
Count Values within Cases ✓ ✓
Recode into same variables Không nên sử dụng vì ghi chèn & làm
thay đổi dữ liệu gốc
Recode into different variables ✓ ✓
Automatic recode ✓
19. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
19
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 73
Trước khi thực hiện lệnh chuyển đổi,
đừng quên kiểm tra thông tin của biến
số được dùng để tạo biến số mới!
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 74
Kiểm tra thông tin
của biến tdhv
VD1. Tạo biến trình độ học vấn mẹ
Thựchànhlệnh
AutomaticRecode
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 75 ©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 76
AUTOMATIC RECODE
20. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
20
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 77
Khai báo tên
biến số mới
AUTOMATIC RECODE
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 78
Khai báo tên
biến số mới
AUTOMATIC RECODE
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 79
AUTOMATIC RECODE
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 80
AUTOMATIC RECODE
OUTPUT
Data view
Biến số mới tạo
21. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
21
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 81
AUTOMATIC RECODE
OUTPUT
Data view
Hiển thị nhãn giá trị
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 82
VD2. Tạo biến số
nhóm tuổi với 2 phân
nhóm là <10 và ≥10
tuổi
Thựchànhlệnh
ComputeVariable
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 83 ©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 84
Khai báo
biến số mới
COMPUTE VARIABLE
Khai báo kiểu (type)
và nhãn (label) của
biến số mới
22. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
22
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 85
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 64
COMPUTE VARIABLE
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 86
COMPUTE VARIABLE
Data View
Biến số mới tạo
Sau khi thực hiện lệnh
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 87
Kiểm tra tính chính xác
của biến vừa tạo bằng
lệnh Crosstabs?
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 88
Q6: Theo output
này, làm thế nào
biết được biến số
mới được tạo
đúng?
23. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
23
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 89
Q7: Có điều gì bất thường
ở output này?
Thựchànhlệnh
Recodeintodifferentvariables
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 90
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 91
Biến số đầu vào
(có sẵn trong data)
Biến số đầu ra
(tạo mới)
RECODE INTO DIFFERENT VARIABLES
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 92
Khai báo tên và
nhãn biến số mới
RECODE INTO DIFFERENT VARIABLES
24. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
24
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 93
RECODE INTO DIFFERENT VARIABLES
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 94
Khai báo giá trị của biến số
đầu vào và biến số mới
RECODE INTO DIFFERENT VARIABLES
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 95
Tích chọn nếu muốn biến số
mới có kiểu chuỗi (string)
Giá trị của biến số mới
Giá trị của biến số đầu vào
Khoảng từ
xx đến xx
Khoảng từ
giá trị nhỏ
nhất đến giá
trị được
điền vào
Khoảng từ giá trị
được điền vào đến
giá trị lớn nhất
Các giá trị còn lại
Ghi lại cách tạo giá trị của
biến số mới dựa trên giá
trị của biến số đầu vào
RECODE INTO DIFFERENT VARIABLES
Giá trị riêng lẻ
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 96
RECODE INTO DIFFERENT VARIABLES
Khai báo giá trị của biến số đầu vào và biến số mới
25. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
25
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 97
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 87
RECODE INTO DIFFERENT VARIABLES
Khai báo giá trị của biến số đầu vào và biến số mới
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 98
RECODE INTO DIFFERENT VARIABLES
Khai báo giá trị của biến số đầu vào và biến số mới
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 99
RECODE INTO DIFFERENT VARIABLES
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 100
RECODE INTO DIFFERENT VARIABLES
Data View Sau khi gán
nhãn giá trị
Sau khi thực hiện lệnh
26. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
26
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 101
Q8: Có thể cùng lúc tạo nhiều biến số
mới khi sử dụng lệnh Recode into
different variables hay không?
Thựchànhlệnh
RecodeintoSameVariables
Note: Đừng nên sử dụng lệnh này!
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 102
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 103
RECODE INTO SAME VARIABLES
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 104
Khai báo giá trị cũ và mới của biến số được mã hoá
RECODE INTO SAME VARIABLES
Giá trị mới
Giá trị cũ
27. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
27
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 105
RECODE INTO SAME VARIABLES
Khoảng từ giá trị nhỏ
nhất đến 9,999
Khai báo giá trị cũ và mới của biến số được mã hoá
Giá trị mới là 0
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 106
RECODE INTO SAME VARIABLES
Khai báo giá trị cũ và mới của biến số được mã hoá
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 107
RECODE INTO SAME VARIABLES
Nhập vào “1”
Nhập vào “10”
ü Cách tạo giá trị mới
của biến số “tuoi”;
ü Giá trị mới này sẽ được
ghi đè lên giá trị hiện
tại của biến “tuoi”
Khai báo giá trị cũ và mới của biến số được mã hoá
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 108
RECODE INTO SAME VARIABLES
28. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
28
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 109
RECODE INTO SAME VARIABLES
Data View Sau khi sử
dụng lệnh
Dữ liệu gốc đã được thay
thế bằng giá trị mới
110
3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT
¡Sử dụng data “TH_chuanbisolieu_BY.sav” để thực
hành các nội dung sau:
1. Tạo biến số trình độ học vấn mẹ được khai báo kiểu số
(numeric) với các phân nhóm được gán số tương ứng
2. Tạo biến số nhóm tuổi với 2 phân nhóm là <10 và ≥10 tuổi
3. Tạo biến số số triệu chứng ở trẻ bao gồm da xanh, niêm
mạc mắt nhợt và lòng bàn tay nhợt
3.2. CHUYỂN ĐỔI DỮ LIỆU - MỘT SỐ VÍ DỤ
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 111
Các biến số daxanh,
niemmac, longbtay đều
được mã 2=‘Có’
Thựchànhlệnh
CountValueswithinCases
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 112
29. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
29
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 113
COUNT VALUES WITHIN CASES
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 114
Khai báo tên và nhãn biến số mới
COUNT VALUES WITHIN CASES
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 115
ü Các biến số được
đếm cần phải có
cùng kiểu biến
COUNT VALUES WITHIN CASES
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 116
COUNT VALUES WITHIN CASES
Khai báo giá trị dùng để đếm tần số xuất hiện của giá trị
đó trong các nhóm biến số
30. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
30
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 117
COUNT VALUES WITHIN CASES
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 118
COUNT VALUES WITHIN CASES
Biến số mới “sotrch”
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 119
1. Trình độ
học vấn mẹ
2. Nhóm
tuổi
3. Số triệu
chứng
Compute Variable ✓ ✓ ✓
Count Values within Cases ✓ ✓
Recode into different variables ✓ ✓
Automatic recode ✓
BTTH: Hãy thử tạo các biến số trong ví dụ trên
bằng các câu lệnh được highlight J
©SPSS 2022 | Y.LT
1. Một số lỗi thường gặp khi làm sạch số liệu: trùng lặp, missing, giá trị không
hợp lệ, outlier
2. Khi chuyển đổi dữ liệu:
ü Nên tạo biến số mới thay vì thay đổi trực tiếp trên biến số hiện có
ü Luôn kiểm tra tính chính xác của biến số mới (bảng tiếp liên/các lệnh lọc)
3. Cần có kế hoạch làm sạch và chuyển đổi dữ liệu rõ ràng, chi tiết
4. Luôn có codebook của dữ liệu & sử dụng bản ghi chú để ghi lại quá trình
chuẩn bị dữ liệu (Vd: Syntax)
TAKE HOME MESSAGE
120
3 - Chuẩn bị dữ liệu
31. 3 - Chuẩn bị dữ liệu ©SPSS 2022 | Y.LT 8/8/22
31
GIGO - Garbage in, Garbage out
©SPSS 2022 | Y.LT 121
3 - Chuẩn bị dữ liệu
Hãy nhớ…
©SPSS 2022 | Y.LT
ltbyen@huemed-univ.edu.vn
122
3 - Chuẩn bị dữ liệu
©SPSS 2022 | Y.LT
3 - Chuẩn bị dữ liệu 123