MACHINE LEARNING CHO NGƯỜI MỚI BẮT ĐẦU - PHẦN II: Hiểu về Dữ liệu

Giới thiệu về Dữ liệu và Bộ dữ liệu

Trong thời đại kỹ thuật số, dữ liệu đã trở thành nền tảng của cuộc sống hiện đại. Từ những chi tiết nhỏ nhặt trong đời sống hàng ngày tới những vấn đề tinh vi trong nghiên cứu khoa học, dữ liệu thấm nhập vào mọi khía cạnh hoạt động của con người. Nhưng dữ liệu thực sự là gì? Về cốt lõi, dữ liệu là bất kỳ thông tin, sự kiện, hay thống kê nào có thể được thu thập, lưu trữ và phân tích. Dữ liệu có thể tồn tại dưới nhiều hình thức khác nhau, bao gồm văn bản, số, hình ảnh, và hơn thế nữa, và thường là nguyên liệu thô để tạo ra những hiểu biết và quyết định.

Trong lĩnh vực khoa học dữ liệu và phân tích, bộ dữ liệu (dataset) là nguồn sống. Một bộ dữ liệu là một tập hợp có cấu trúc của dữ liệu, thường được tổ chức thành hàng và cột, dùng cho mục đích phân tích và nghiên cứu. Các bộ dữ liệu này có thể dao động từ các bảng tính nhỏ đơn giản tới những kho lưu trữ khổng lồ được lưu trong cơ sở dữ liệu hoặc phân tán trên Internet. Chúng có thể được sinh ra thông qua quan sát, thí nghiệm, khảo sát, mô phỏng, hoặc thậm chí được thu thập tự động bởi cảm biến và các thiết bị trong hệ sinh thái Internet of Things (IoT).

Việc hiểu rõ bộ dữ liệu là rất quan trọng cho bất kỳ ai làm việc với dữ liệu, dù là nhà khoa học dữ liệu, nhà phân tích, nhà nghiên cứu, hay chuyên gia kinh doanh. Bộ dữ liệu cung cấp nền tảng cho phân tích khám phá, mô hình thống kê, thuật toán học máy, và nhiều kỹ thuật dựa trên dữ liệu khác. Tuy nhiên, làm việc với bộ dữ liệu không phải lúc nào cũng dễ dàng. Dữ liệu có thể lộn xộn, thiếu sót, hoặc không đồng nhất, và chuẩn bị dữ liệu để phân tích thường đòi hỏi làm sạch, biến đổi và xử lý để đảm bảo chất lượng và độ tin cậy.

Hơn nữa, trong thời đại dữ liệu lớn (big data), nơi thông tin được sinh ra với quy mô và tốc độ chưa từng có, việc quản lý và xử lý bộ dữ liệu một cách hiệu quả trở thành vấn đề cấp bách. Các công nghệ như điện toán đám mây, các framework tính toán phân tán và hệ thống cơ sở dữ liệu tiên tiến đã xuất hiện để xử lý các thách thức này, cho phép tổ chức lưu trữ, truy cập và phân tích khối lượng dữ liệu lớn với tốc độ và khả năng mở rộng cao chưa từng có.

Dữ liệu và bộ dữ liệu đóng vai trò trung tâm trong thế giới dựa trên dữ liệu ngày nay. Chúng cung cấp nguyên liệu thô cho các hiểu biết, đổi mới và quyết định có cơ sở trong nhiều lĩnh vực, từ kinh doanh và tài chính đến y tế, khoa học và hơn thế nữa. Hiểu cách làm việc với dữ liệu và tận dụng bộ dữ liệu một cách hiệu quả là điều cần thiết cho bất kỳ ai muốn khai thác sức mạnh của thông tin trong thời đại số.

Hình minh họa dữ liệu và tập dữ liệu trong ML

Các kỹ thuật Tiền xử lý Dữ liệu (Làm sạch, Biến đổi, Trích chọn đặc trưng)

Tiền xử lý dữ liệu là một bước then chốt trong pipeline học máy, bao gồm việc biến đổi dữ liệu thô thành dạng phù hợp để huấn luyện mô hình. Quá trình này thường bao gồm làm sạch dữ liệu, biến đổi sang biểu diễn hữu ích hơn, và thực hiện feature engineering (trích chọn/tạo đặc trưng) để tách ra thông tin có ích. Dưới đây là mô tả chi tiết từng kỹ thuật tiền xử lý:

Data Cleaning (Làm sạch dữ liệu):

Là quá trình xác định và sửa lỗi, sự không nhất quán và giá trị thiếu trong bộ dữ liệu. Bước này đảm bảo dữ liệu chính xác, đầy đủ và đáng tin cậy trước khi dùng để huấn luyện mô hình học máy. Các kỹ thuật phổ biến trong làm sạch dữ liệu bao gồm:

Xử lý giá trị thiếu: Bao gồm việc ước lượng (impute) giá trị thiếu hoặc loại bỏ các hàng/cột chứa dữ liệu thiếu tùy theo bản chất của vấn đề và mức độ thiếu hụt.
Loại bỏ ngoại lệ (outliers): Ngoại lệ là các điểm dữ liệu lệch nhiều so với phần còn lại của bộ dữ liệu và có thể làm lệch kết quả của mô hình. Loại bỏ hoặc xử lý ngoại lệ giúp cải thiện độ bền và khả năng tổng quát hóa của mô hình.
Sửa lỗi: Nhận diện và sửa lỗi hoặc sự không nhất quán trong dữ liệu, chẳng hạn như lỗi gõ, bản ghi trùng lặp, hoặc định dạng dữ liệu sai.

Data Transformation (Biến đổi dữ liệu):

Biến đổi dữ liệu gồm chuyển đổi dữ liệu thô sang dạng thích hợp hơn cho việc huấn luyện mô hình. Điều này có thể bao gồm chuẩn hóa/scale các đặc trưng, mã hóa biến phân loại, và chuẩn hóa phân phối dữ liệu. Các kỹ thuật phổ biến:

Feature scaling (Chuẩn hóa/tiêu chuẩn hóa đặc trưng): Chuẩn hóa các đặc trưng về cùng một khoảng giá trị (ví dụ: min-max scaling, standardization) giúp tránh việc các đặc trưng có quy mô lớn thống trị quá trình huấn luyện và cải thiện sự hội tụ của các thuật toán tối ưu.
Encoding categorical variables (Mã hóa biến phân loại): Chuyển biến phân loại thành biểu diễn số (ví dụ: one-hot encoding, label encoding) để các thuật toán học máy có thể xử lý được.
Data normalization (Chuẩn hoá phân phối dữ liệu): Chuẩn hoá phân phối dữ liệu (ví dụ: chuẩn hoá Gaussian) để đảm bảo các đặc trưng có tính chất thống kê tương tự, điều này có thể cải thiện hiệu suất của một số thuật toán.

Feature Engineering (Trích chọn/Tạo đặc trưng):

Feature engineering là quá trình tạo ra các đặc trưng mới hoặc biến đổi các đặc trưng hiện có nhằm cải thiện hiệu suất mô hình học máy. Quá trình này gồm lựa chọn đặc trưng phù hợp, tạo tương tác giữa các đặc trưng và giảm chiều không gian đặc trưng. Các kỹ thuật thường dùng gồm:

Feature selection (Lựa chọn đặc trưng): Chọn những đặc trưng quan trọng nhất cho bài toán giúp giảm chiều, cải thiện khả năng diễn giải và khả năng tổng quát hóa của mô hình.
Feature extraction (Trích xuất đặc trưng): Tạo các đặc trưng mới bằng cách biến đổi hoặc kết hợp các đặc trưng hiện có (ví dụ: đặc trưng đa thức, embedding văn bản) để nắm bắt mối quan hệ phức tạp trong dữ liệu và cải thiện hiệu suất mô hình.
Dimensionality reduction (Giảm chiều): Giảm số lượng đặc trưng (ví dụ: PCA, t-SNE) giúp trực quan hóa dữ liệu có chiều cao, giảm curse of dimensionality và cải thiện hiệu suất tính toán của các thuật toán học máy.

Các kỹ thuật tiền xử lý như làm sạch, biến đổi và trích chọn đặc trưng là thiết yếu để chuẩn bị dữ liệu thô cho việc huấn luyện mô hình học máy. Bằng cách đảm bảo dữ liệu chính xác, đầy đủ và phù hợp, đồng thời biến đổi nó sang biểu diễn thích hợp, tiền xử lý giúp cải thiện hiệu suất và khả năng diễn giải của mô hình, dẫn đến những hiểu biết đáng tin cậy và có thể hành động được.

Phân tích Dữ liệu Khám phá (Exploratory Data Analysis - EDA)

Exploratory Data Analysis (EDA) là bước mở đầu quan trọng trong quá trình phân tích dữ liệu, cho phép nhà phân tích hiểu và tóm tắt các đặc trưng chính của bộ dữ liệu trước khi tiến tới các mô hình phức tạp hoặc kiểm định giả thuyết. Khác với các phương pháp thống kê chính thức thường dùng để xác minh hoặc bác bỏ giả thuyết, EDA tập trung vào việc khám phá các mẫu, xu hướng và mối quan hệ có trong dữ liệu.

Ở cốt lõi, EDA liên quan đến việc khám phá dữ liệu một cách trực quan bằng các kỹ thuật thống kê và đồ họa khác nhau. Nhà phân tích có thể tạo các biểu đồ histogram, boxplot, scatter plot và các trực quan khác để kiểm tra phân phối của từng biến, xác định ngoại lệ hoặc giá trị thiếu, và đánh giá mối quan hệ giữa các biến. Việc kiểm tra trực quan giúp nhà phân tích nắm bắt cấu trúc dữ liệu và phát hiện các mẫu hoặc bất thường cần nghiên cứu thêm.

EDA cũng bao gồm việc tính toán các thống kê tóm tắt như trung bình (mean), trung vị (median), độ lệch chuẩn (standard deviation), và hệ số tương quan (correlation coefficients) để lượng hoá xu hướng trung tâm, độ phân tán và mối quan hệ trong dữ liệu. Những thống kê tóm tắt này cung cấp cái nhìn số học về bộ dữ liệu và hỗ trợ nhà phân tích nhận diện các đặc trưng hoặc xu hướng mà trực quan hóa có thể chưa nêu rõ.

Một trong những mục tiêu chính của EDA là sinh ra các giả thuyết và định hình câu hỏi nghiên cứu dựa trên khám phá ban đầu. Bằng cách xác định các mẫu hoặc mối quan hệ thú vị, nhà phân tích có thể phát triển giả thuyết để kiểm định bằng các phương pháp thống kê chính thức. Do đó, EDA là bước tiền đề quan trọng cho việc kiểm định giả thuyết và xây dựng mô hình, hướng dẫn quá trình phân tích tập trung vào những khía cạnh dữ liệu có ý nghĩa nhất.

Bên cạnh việc phát hiện mẫu và mối quan hệ, EDA còn đóng vai trò quan trọng trong làm sạch và tiền xử lý dữ liệu. Bằng cách xác định giá trị thiếu, ngoại lệ và sự không nhất quán trong dữ liệu, nhà phân tích có thể thực hiện các bước làm sạch và tiền xử lý trước khi tiến hành các phân tích sâu hơn. Điều này đảm bảo rằng dữ liệu dùng để mô hình hóa hoặc kiểm định giả thuyết có chất lượng cao và không chứa những sai lệch hoặc thiên lệch có thể làm lệch kết quả.

Tác giả: Hoàng Thơ

PHẦN I - PHẦN II - PHẦN III - PHẦN IV - PHẦN V - PHẦN VI - PHẦN VII - PHẦN VIII - PHẦN IX - PHẦN X

MACHINE LEARNING CHO NGƯỜI MỚI BẮT ĐẦU - PHẦN II: Hiểu về Dữ liệu

Post a Comment

Post a Comment

Contact Form