Thống kê mô tả tóm tắt dữ liệu đã cho và cung cấp tóm tắt thống kê chính cho dữ liệu như mean, mode, median, Variance, standard deviation, Skewness, Count, maximum and minimum,…Khi làm việc với một tập dữ liệu lớn, biết thông tin thống kê chính về tập dữ liệu của bạn và các xu hướng trong dữ liệu của bạn có thể hữu ích.
Microsoft Excel có nhiều chức năng cài sẵn khác nhau có thể tính toán nhiều giá trị thống kê riêng lẻ như mean, variance, count,…Excel cũng có một công cụ bổ trợ có tên là Analysis Toolpak giúp bạn tạo tất cả các thống kê mô tả trong một lần. Trong bài viết này sẽ giải thích cách tính toán thống kê mô tả cho dữ liệu của bạn trong Excel.
Mục lục
Cách cài đặt công cụ phân tích dữ liệu vào Excel
Phân tích dữ liệu (hoặc thống kê dữ liệu) là một công cụ phân tích dữ liệu nâng cao, lấy một lượng lớn dữ liệu và tính toán một loạt các thống kê chính của tập dữ liệu. Công cụ phân tích dữ liệu có thể được truy cập từ tab dữ liệu của Excel. Trước khi có thể sử dụng công cụ phân tích dữ liệu, bạn cần cài đặt một phần bổ trợ có tên là Data Analysis ToolPak. Đây là cách bạn có thể cài đặt Data Analysis ToolPak trong Excel.
Đầu tiên, hãy chuyển đến tab ‘File’ ở góc trên cùng bên trái.
Sau đó, nhấp vào ‘Options’ ở cuối bảng điều khiển bên trái.
Khi hộp thoại Excel Options xuất hiện, hãy nhấp vào ‘Add-ins’ trong ngăn bên trái.
Ở cuối ngăn bên phải, chọn ‘Excel Add-in’ từ menu thả xuống và nhấp vào ‘Go ..’.
Một hộp thoại Add-ins mới sẽ bật lên. Tại đây, đánh dấu hoặc chọn tùy chọn ‘Analysis ToolPak’ và nhấp vào ‘OK’.
Khi bạn làm điều đó, công cụ ‘Data Analysis’ sẽ xuất hiện ở góc bên phải của Ruy-băng trong tab ‘Data’.
Cách nhận thống kê mô tả trong Excel
Sau khi bật công cụ phân tích dữ liệu, bạn có thể tính toán thống kê mô tả cho tập dữ liệu của mình.
Giả sử, bạn có tập dữ liệu mẫu dưới đây, trong đó chúng ta có số lượng sách được bán ở các thành phố khác nhau. Đối với tập dữ liệu này, bạn muốn tính toán thống kê mô tả. Đây là cách bạn có thể làm điều đó:
Để nhận thống kê mô tả, hãy chuyển đến tab ‘Data’ và nhấp vào công cụ ‘Data Analysis’ từ phần Analysis.
Trong cửa sổ hộp thoại Data Analysis, hãy chọn ‘Descriptive Statistics’ trong Analysis Tools và nhấp vào ‘OK’.
Thao tác này sẽ mở hộp thoại Descriptive Statistics nơi bạn cần định cấu hình các tùy chọn đầu vào và đầu ra.
Hãy xem cách bạn nên điền vào từng trường trong hộp thoại Descriptive Statistics.
Input Range: Phạm vi đầu vào là trường quan trọng nhất trong hộp thoại. Đối với điều này, hãy chọn phạm vi biến / giá trị bạn muốn phân tích.
Bạn có thể nhập phạm vi vào trường theo cách thủ công hoặc nhấp vào nút mũi tên hướng lên ở cuối trường để chọn phạm vi.
Sau đó, chọn phạm vi từ trang tính và nhấp vào nút mũi tên xuống để xác nhận phạm vi.
Grouped By: Chọn cách bạn muốn tổ chức các biến của mình (hàng hoặc cột).
Labels in first row: Nếu bạn đã chọn hoặc nhập phạm vi (trong Input Range) có tiêu đề, bạn nên đánh dấu vào tùy chọn này. Trong ví dụ này, chọn phạm vi đầu vào không có nhãn, vì vậy đã bỏ chọn phạm vi này.
Output Range: Chọn nơi bạn muốn hiển thị kết quả thống kê. Nếu bạn muốn hiển thị kết quả trong trang tính hiện tại hoặc các trang tính khác, hãy nhấp vào nút radio ‘Output Range‘ và chỉ định phạm vi trong trường bên cạnh.
New Worksheet Ply: Nếu bạn muốn hiển thị kết quả trong một bảng tính mới, chỉ cần chọn nút radio ‘New Worksheet Ply’.
New Workbook: Trong trường hợp bạn muốn hiển thị kết quả trong một sổ làm việc hoàn toàn mới, hãy chọn tùy chọn ‘New Workbook’.
Summary statistics: Nếu bạn muốn tính toán và hiển thị hầu hết các thống kê mô tả (chẳng hạn như mean, mode, dispersion, standard deviation,…), hãy chọn tùy chọn này.
Confidence Level for Mean: Chọn tùy chọn này nếu bạn muốn hiển thị khoảng tin cậy cho giá trị trung bình. Sau đó, nhập mức độ tin cậy bạn muốn được tính cho giá trị trung bình của mẫu. Mặc định là 95%.
Kth Largest: Tùy chọn này sẽ hiển thị giá trị lớn nhất trong tập dữ liệu. Khi bạn chọn tùy chọn này, giá trị mặc định là 1 có nghĩa là nó sẽ hiển thị giá trị lớn nhất đầu tiên. Nếu bạn nhập ‘2’, nó sẽ hiển thị giá trị lớn thứ hai, 3 sẽ hiển thị giá trị lớn thứ ba,…
Kth Smallest: Tùy chọn này sẽ hiển thị giá trị nhỏ nhất trong tập dữ liệu. Giá trị mặc định là 1 có nghĩa là nó sẽ hiển thị giá trị nhỏ nhất. Nếu bạn nhập ‘2’, nó sẽ hiển thị giá trị nhỏ thứ hai, 3 sẽ hiển thị giá trị nhỏ nhất thứ ba,…
Cuối cùng, nhấp vào ‘OK’ để tạo thống kê.
Và bạn sẽ nhận được bảng tóm tắt thống kê mô tả như hình bên dưới.
Cách đọc kết quả thống kê mô tả
Giải thích cho từng kết quả thống kê như sau:
- Mean – Trung bình là giá trị trung bình của dữ liệu mẫu của bạn, được tính bằng cách tổng tất cả các giá trị trong tập dữ liệu và chia cho số giá trị trong mẫu.
- Standard error – Điều này hiển thị các giá trị lỗi tiêu chuẩn của dữ liệu mẫu. Nó là thước đo về khả năng của mỗi trung bình dân số so với trung bình mẫu (sự khác biệt giữa giá trị dự đoán và giá trị thực tế).
- Median – Đây là giá trị giữa trong tập dữ liệu. Nó được tìm thấy bằng cách sắp xếp mẫu theo thứ tự tăng dần hoặc giảm dần và trích xuất giá trị chính giữa chính xác trong danh sách. Nếu số giá trị trong danh sách là số chẵn, thì hai giá trị ở giữa sẽ được lấy trung bình để tìm giá trị trung bình.
- Mode – Chế độ này đại diện cho giá trị xuất hiện thường xuyên nhất trong dữ liệu mẫu. Giá trị thống kê này rất hữu ích cho dữ liệu phân loại và thứ tự. Trong ví dụ trên, không có giá trị chung nhất, vì vậy chúng ta nhận được # N / A.
- Standard deviation – Nó cho biết độ lệch chuẩn của tập dữ liệu của bạn, là độ lệch chuẩn giữa mỗi điểm dữ liệu và giá trị trung bình. Độ lệch chuẩn càng cao thì độ biến thiên càng cao.
- Sample Variance – Phương sai mẫu là giá trị trung bình của độ lệch chuẩn bình phương.
- Kurtosis – Giá trị kurtosis là thước đo về cách các mẹo hay đỉnh và đuôi của phân phối của bạn khác với phân phối chuẩn. Phân phối chuẩn thường có giá trị Kurtosis bằng 0. Nếu giá trị kurtosis là dương, điều đó có nghĩa là phân phối của bạn là phân phối có đỉnh và các giá trị âm cho biết phân phối tương đối bằng phẳng.
- Skewness – Skewness đại diện cho sự không đối xứng của phân phối của bạn, trong đó 0 biểu thị một phân phối hoàn toàn đối xứng. Nếu giá trị Skewness lớn hơn 0 (dương), phân phối của bạn bị lệch dương hoặc sang phải. Nếu giá trị Skewness nhỏ hơn 0, phân phối của bạn bị lệch âm hoặc sang trái.
- Range – Phạm vi thể hiện sự khác biệt giữa các giá trị lớn nhất và nhỏ nhất trong dữ liệu của bạn. Nó được tìm thấy bằng cách trừ giá trị thấp nhất cho giá trị cao nhất trong tập dữ liệu.
- Minimum – Đây là giá trị thấp nhất trong tập dữ liệu của bạn.
- Maximum – Đây là giá trị cao nhất trong tập dữ liệu của bạn.
- Sum – Đây là tổng của tất cả các giá trị trong tập dữ liệu.
- Count – Đây là số lượng tất cả các giá trị trong dữ liệu của bạn.
- Largest – Nó cho biết số lớn nhất trong tập dữ liệu của bạn dựa trên số bạn đã chọn cho tùy chọn ‘Kth Largest’ trong khi thiết lập.
- Smallest – Nó cho biết số nhỏ nhất trong tập dữ liệu của bạn dựa trên số bạn đã chọn cho tùy chọn ‘Kth Smallest’ trong khi thiết lập.
- Confidence Level (95.0%) – Mức độ tin cậy cho biết phạm vi giá trị có thể chứa tham số hoặc giá trị trung bình của tổng thể.
Bạn cũng có thể tìm giới hạn trên và giới hạn dưới của khoảng tin cậy bằng cách sử dụng giá trị mức độ tin cậy từ kết quả.
Để có giới hạn trên của khoảng tin cậy, chỉ cần thêm giá trị trung bình với giá trị của mức độ tin cậy. Để làm điều đó, hãy sử dụng công thức tương tự – =B3+B18
, kết quả là 95,8891.
Để có giới hạn dưới của khoảng tin cậy, chỉ cần trừ giá trị trung bình khỏi giá trị của mức tin cậy. Để làm điều đó, hãy sử dụng một công thức tương tự – =B3-B18
, kết quả là 48.3109.
Tính toán số liệu thống kê riêng lẻ bằng công thức
Công cụ phân tích dữ liệu cho phép bạn thực hiện phân tích nâng cao trên dữ liệu của mình và tự động tạo một chuỗi 16 thống kê chính cho dữ liệu của bạn. Nhưng nếu bạn chỉ muốn tìm một số thống kê nhất định cho dữ liệu của mình (chẳng hạn như means, Standard deviation,…), bạn có thể sử dụng các công thức riêng lẻ để tính toán từng thước đo thống kê. Các công thức này sẽ tạo ra kết quả tương tự như công cụ phân tích dữ liệu.
Dưới đây là danh sách các công thức để tính toán thống kê mô tả trong Excel:
Nghĩa là:
=AVERAGE(B2:B21)
Thay thế B2:B21
bằng phạm vi giá trị trong mẫu của bạn.
Standard Deviation Error:
=STDEV.S(B2:B21)/SQRT(COUNT(B2:B21))
Median:
=MEDIAN(B2:B21)
Standard deviation:
=STDEV.S(B2:B21)
Sample Variance
=VAR.S(B2:B21)
Mode:
=MODE.SNGL(B2:B21)
Kurtosis :
=KURT(B2:B21)
Skewness:
=SKEW(B2:B21)
Range:
=MAX(B2:B21)-MIN(B2:B21)
Minimum:
=MIN(B2:B21)
Maximum:
=MAX(B2:B21)
SUM:
=SUM(B2:B21)
Count
=COUNT(B2:B21)
1st Largest Value
=LARGE(B2:B21,1)
Trong đó thay 1 bằng số lớn thứ k. Ví dụ: nếu bạn muốn tìm giá trị lớn nhất đầu tiên, hãy nhập 1, 2 cho giá trị lớn thứ hai,…
2nd Smallest
=SMALL(B2:B21,2)
Trường hợp thay thế 2
bằng số nhỏ nhất thứ k.