Discussion about this post

User's avatar
Giang Sơn's avatar

Cảm ơn anh Hiếu đã chia sẻ rất chi tiết. Điều quan trọng nhất đúng là đọc kỹ đầu bài và hiểu mình cần thể hiện tệp kỹ năng gì, vì bộ kỹ năng của Data Engineer, Analyst & Scientist có nhiều điểm khác biệt. Cùng một dataset có thể được dùng làm input cho các bài toán khác nhau (chẳng hạn xây data pipeline, hay dựng report, hay dựng predictive models).

Một điểm nữa em cũng đồng tình, đó là làm personal project thì process sẽ từ dataset có sẵn -> vẽ ra bài toán để giải sao cho thể hiện được kĩ năng. Còn trong thực tế, bài toán kinh doanh luôn luôn tồn tại trước, rồi mới tới các bước thu thập, xử lý data và phân tích. Trong framework phân tích CRISP-DM cũng nhấn mạnh là 1. business understanding <-> 2. data understanding luôn là bước đầu tiên trong quy trình phân tích.

Vậy nên khi có người hỏi "tìm kiếm project cá nhân như thế nào?" em thường khuyên là "hãy nghĩ vấn đề trước rồi kiếm dataset/tự collect data để giải nó" (tất nhiên là nói thì dễ hơn làm 😅). Em cảm giác ("cảm giác" thôi vì chưa có data chứng minh) là một số bạn analyst khi luyện tập thì thường tập trung vào phương pháp phân tích (visualization, tính metrics, machine learning v.v) mà quên mất bước hiểu bài toán.

Expand full comment
1 more comment...

No posts