💡
Đây là một chủ đề khá thú vị để tìm hiểu, nếu bạn đang làm việc trong lĩnh vực dữ liệu thì đây có thể là một nguồn thông tin hữu ích để tham khảo cũng như định hướng cho sự phát triển sự nghiệp. Qua đây, mình cũng có thể thực hành các kiến thức SQL.

Dữ liệu

Là một file tổng hợp thông tin về nhân sự làm trong ngành dữ liệu từ các công ty trên toàn thế giới. Thông tin bao gồm vị trí địa lý của công ty, ví trí công tác của nhân sự, số năm kinh nghiệm, chức vụ, mức lương, v.v. Dữ liệu được thu thập qua các năm từ 2020 -> 2024. Dữ liệu có thể được tìm thấy bằng cách

  1. Tải về file .csv trực tiếp từ Kaggle.
  2. Bạn cũng có thể truy cập vào Redash của SQLInUse để trực tiếp thực hành phân tích bộ dữ liệu này sử dụng thuần SQL trên PostgreSQL cùng mình trong bài viết này nhé.

Nếu chưa biết Redash, có thể tham khảo thêm bài Thực hành SQL với Redash.

Tóm tắt nhanh các câu truy vấn

Link Dashboard tổng hợp tất cả.

  1. Lương trung bình theo chức danh công việc. Query 1.
  2. Phân phối của phổ lương qua các năm để thấy được sự tăng trưởng của ngành. Query 2.
  3. Lương và cấu trúc của thị trường theo Level. Query 3.
  4. Lương và cấu trúc của thị trường theo độ lớn của công ty. Query 4.
  5. Trung bình thu nhập theo vị trí địa lý của công ty và người lao động. Query 5, Query 6.

Bắt đầu thôi

Câu hỏi đầu tiên xuất hiện trong đầu khi tiếp cận bộ dữ liệu này là liệu phổ lương được phân bố như thế nào và có sự nhiều khác biệt về thu nhập giữa các vị trí khác nhau trong ngành này không. Tạm thời, mình bỏ qua yếu tố địa lý, số năm kinh nghiệm và thời điểm để có cái nhìn chung về đối tượng cần tìm hiểu (lương).

1. Dựa vào job_title, phổ lương có thể được chia làm 3 nhóm chính như trong Query 1
  1. Nhóm công việc liên quan đến vị trí chuyên viên phân tích (job_titleAnalyst hoặc Specialist) có mức từ $30k -> $100k. Chiếm 35%-40%.
  2. Nhóm công việc yêu cầu kỹ năng liên quan đến engineering/dev (kỹ sư phần mềm) hoặc cao cấp hơn chuyên viên phân tích một chút là scientist/data science có mức lương từ $100k -> $175k. Và nhóm này chiếm tỷ lệ cao nhất, khoảng hơn 50% phổ lương.
  3. Cao nhất, trên $175k, là nhóm kỹ sư không chỉ với chuyên môn và kinh nghiệm cao, mà còn đảm nhiệm các vai trò Head, Lead hoặc Manager để quản lý đội nhóm. Nhóm này chiếm 10%-15%.

Trung bình, mức lương của các vị trí trong 1 nhóm và giữa các nhóm không có sự chênh lệch bất thường ngoại trừ các vị trí top của nhóm 3. Điều này cũng không quá khó hiểu, các vị trí trên $200k đòi hỏi không chỉ kỹ năng chuyên môn mà còn có kỹ năng quản lý đội nhóm để hoạt động hiệu quả.

Thử thách: bạn hãy thử viết 1 câu truy vấn để kiểm chứng % mình đưa ra ở trên nhé. Cụ thể là, nhóm 1 chiếm 35-40%, nhóm 2 có 50%, còn lại là nhóm 3.
2. Ngoài ra, nếu nhìn vào phân phối của phổ lương, Query 2, qua các năm (của tất cả các vị trí), ta cũng thấy được những điểm chính
  1. Dữ liệu khá hạn chế ở năm 2020
  2. Năm 2021 và 2022 là giai đoạn bản lề cho sự bùng nổ ở năm 2023 và 2024 với sự ra đời của chatGPT cùng các công nghệ AI tương tự. Có thể thấy được qua sự gia tăng cả về số lượng công việc và mức lương trung bình của các phân phối.
  3. Năm 2023 ghi nhận mức tăng nhiều nhất, với sự bắt đầu xuất hiện của outliers lên đến trên $2M/year (absolutely insane).
  4. Năm 2024 rõ ràng có sự điều chỉnh với sự giảm mạnh có thể thấy rõ từ phân phối của năm 2023 nhưng vẫn trên đà phát triển so với năm 2022. Phân phối màu xanh lơ (2024) lọt thỏm trong lòng phân phối màu tím (2024), cả mean và frequency đều giảm. Outliers cũng giảm về số lượng và độ lớn so với năm 2023.

Bây giờ thử nhìn vào các yếu tố khác có tương quan và ảnh hưởng trực tiếp đến thu nhập như kinh nghiệm làm việc (được phản ánh qua level Entry/Junior, Middle, Senior, Executive) và độ lớn của công ty để xem cấu trúc nhân sự của ngành và mức lương thay đổi như thế nào qua các năm.

3. Về phần so sánh kinh nghiệm làm việc, Query 3

Cấu trúc của thị trường không có thay đổi rõ rệt qua các năm, nhu cầu vẫn tăng ở tất cả các level trừ senior level. Trong đó đến năm 2024, middle level có xu hướng tăng mạnh, chiếm 32% đến, entry chiếm khoảng 10%. Điều quan trong nhất có thể thấy được từ thu nhập là thu nhập trung bình của nhóm entry level đã tăng gấp đôi trong khoảng thời gian từ 2020->2024 với thu nhập từ $40k -> $100k. Các level khác tăng trung bình không quá 50%.

4. Về phần so sánh độ lớn của các công ty, Query 4

không quá khó để thấy được các công ty lớn thường sẽ có chế độ tốt hơn để thu hút nguồn nhân lực. Có một điều thú vị là tại thời điểm năm 2024 về cấu trúc thị trường, gần như không còn sự hiện diện của công ty cỡ nhỏ, hoặc có sự đầu tư để các công ty nhỏ trở thành vừa và tổng cộng chiếm hơn 95% cấu trúc thị trường, cho thấy sự cạnh tranh khá khốc liệt của các công ty trong lĩnh vực dữ liệu. Tuy vậy nếu có, các công ty nhỏ cũng đang rút ngắn khoảng các về lương so với các công ty lớn hơn để có được nhân sự như biểu đồ dưới đây giữa năm 2023 và 2024. Và các công ty size vừa và lớn gần như tương đồng trong việc đảm bảo thu nhập có tính cạnh tranh với thị trường.

5. Cuối cùng là cái nhìn tổng quát thu nhập theo vị trí địa lý (công ty và người lao động), Query 5, Query 6.

Âu Mỹ vẫn là các quốc gia trả lương cao nhất, theo như dữ liệu khảo sát, đứng đầu là Nga (bộ dữ liệu có vẻ được thu thập bởi anh người Nga), theo đó là Mỹ, Canada, etc.

Hướng khai thác phân tích tiếp

Bạn có thể viết các câu truy vấn để tìm

  1. Tìm top 10 các công việc (job_title) thịnh hành.
  2. Tìm top 5% thu nhập cao nhất phổ lương năm 2024.
  3. Phân tích sâu hơn về mức lương của từng khu vực địa lý cụ thể qua các năm để trả lời câu hỏi cách tốt/nhanh nhất để phát triển sự nghiệp và tăng thu nhập.
  4. Xu hướng làm remote ảnh hưởng đến thu nhập như thế nào. Liệu có cơ hội cho nhân sự ở các nước châu Á để có thu nhập như ở Âu Mỹ?
  5. Những job_title nào hoàn toàn không hề tồn tại trước đây nhưng bây giờ có (sau 2022) và thu nhập ra sao, ví dụ prompt engineer.

Và dựa vào những tương quan vừa tìm được từ các biến, xây dựng mô hình để dự đoán thu nhập.