The Data Organization Evolution
Tuỳ môi trường và thời kỳ mà hệ thống Data của bạn sẽ khác nhau
Mình nhận được rất nhiều ủng hộ từ bài viết lần trước của mình về Datalake, và mình cũng rất cảm ơn mọi người đã đọc bài của mình. Mình mong là những thứ mình chia sẻ trong bài viết cũng có ích gì đó cho mọi người.
Thực ra là mình thích viết lung tung nhiều chủ đề hơn, nhưng cũng đc chút ủng hộ của mọi người nên mình sẽ viết thêm một chút về câu chuyện Data vậy. Mình sẽ thử viết về Data Evolution trong các doanh nghiệp, và sự phát triển của hệ thống data, cũng từ những trải nghiệm của mình.
Trải nghiệm Data độc nhất
Việc phân tích, xử lý dữ liệu để tìm ra các insights kinh doanh, hoặc là phát triển sản phẩm thực sự là một việc đã luôn luôn tồn tại. Tuy nhiên đến thời những năm 2000-10s, với sự phát triển của máy tính cá nhân và các hệ thống cơ sở dữ liệu, việc phân tích data trở thành một nghiệp vụ quan trọng và chuyên biệt hơn, và ngày càng nhiều business áp dụng và biến nghiệp vụ dữ liệu, biến nó thành một phần không thể thiếu của doanh nghiệp.
Đó là sự phát triển và hình thành của các Team Data, và các job titles hay roles nằm trong team. Bạn nếu đã đọc qua thì có thể biết về các roles như Data Analysts, Data Engineers, Data Scientists; còn chuyên biệt hơn thì sẽ có các role đi theo cả domain và function: về Analytics Product Analytics, Business Analytics, Marketing Analytics, Growth Analytics; về Engineer thì có Data Platform Engineer, Analytics Engineers; DS cũng có Machine Learning Engineers, hay DS phân biệt theo problem domains.
Một điểm khá là đặc biệt, đó là trải nghiệm của team Data ở từng công ty thì thường là khá khác biệt, không ai giống ai. Ở mỗi công ty, bạn có thể thấy bạn DA lại làm phân tích cả dữ liệu cho reporting và làm cả việc ETL; hoặc bạn có thể thấy DE vừa xây dựng quản lý Kafka nhưng lại làm cả BI dashboards; hoặc một DS lại chạy cả Airflow Clusters chứ không được đụng đến Models mấy. Có những team được sử dụng 100% Enterprise tool, còn có các team phải ghép từng mảnh của các sản phẩm open-source với nhau để xây dựng hệ thống. Trải nghiệm của nghiệp vụ Data ở các công ty nó vô cùng đa dạng, dường như có thể nói là không có chỗ nào giống chỗ nào.
Theo những gì mình thấm được, thì điều này có thể phụ thuộc vào hai yếu tố chính. Một, đó là giai đoạn của công ty trong quá trình tiếp nhận Data, mình có thể tạm gọi nó là Data Organization Evolution. Hai, thì là về sức ỳ của hệ thống data, mà mình sẽ nhắc đến là Toolbox Inertia.
Data Organization và sự tiến hoá
Sự phát triển của Data Organization, nó như là những bước tiến hoá vậy. Sự tiếp nhận và sử dụng Data trong một công ty hay tập đoàn, nó sẽ có những bước tiến triển và phát triển từ từ. Tuỳ từng giai đoạn, cuộc sống Data nó sẽ có nhiều bước chuyển biến khác biệt.
(0) Thời kỳ đồ đá: Mình chỉ nói về giai đoạn này để làm cái gốc để discuss. Cái này thì thường chỉ có thể gặp ở các startup hoặc new business những giai đoạn đầu tiên sơ khai nhất. Các công ty đang scramble để bắt đầu kinh doanh, và lúc này thì các hành động sẽ đều là cảm tính, dự đoán, hoặc là thử nghiệm. Chưa có hệ thống gì cả, hoặc là nếu có sales data thì số lượng cũng rất nhỏ. Các dữ liệu có thể bắt đầu được thu thập, tuy nhiên những con số ở giai đoạn này cũng ko statistically significant. Có thể có những data points ở giai đoạn này, tuy nhiên những data points này nên giữ những nguyên bản thô nhất: customer survey/interviews nên có đầy đủ text, các dữ liệu về khách hàng có thể record 1 cách thủ công.
(1) Phát hiện ra lửa: Phải trải qua những khó khăn ban đầu của một doanh nghiệp, và xây dựng ra được những bước đầu tiên của quá trình vận hành. Mô hình doanh nghiệp và quy trình vận hành được định hình, và phải bắt đầu có những doanh thu, có những khách hàng đầu tiên; đó là khởi nguồn để doanh nghiệp bắt đầu thu thập dữ liệu về khách hàng, về kinh doanh, về sản phẩm. Đó là một sự bắt đầu, có sự nhen nhóm về “dữ liệu” ở trong công ty. Không có ai làm “data” cả, nhưng sẽ bắt đầu có một số “phân tích” tự phát; những phân tích này có thể bắt đầu từ bất kỳ ai: có thể là một bạn engineer tò mò, hoặc là một bạn marketing muốn đào sâu hơn vào tệp khách hàng. Những phân tích này thường sẽ chỉ đơn giản nằm trên Excel/Gsheets (hoặc nếu là Engineer, đôi khi là query thẳng từ production system). Các reports, các insights đầu tiên được thực hiện, understanding về business được phát triển thêm, và phân tích hiệu quả bắt đầu trở thành 1 phần của doanh nghiệp. Tuy nhiên, những phân tích này sẽ là một phần của các từng department, như là engineering, marketing hoặc là operation, và thực sự thì chưa có một đội ngũ official nào dành cho Data cả.
(2) Nền văn minh đầu tiên: Khối lượng dữ liệu và nhu cầu về báo cáo tăng lên nhiều trong cả business. Tuy nhiên, những dữ liệu này lại phân tán và rời rạc: dữ liệu users thì nằm với CRM, thông tin vận hành thì nằm trong backend databases, còn marketing traffic thì lại rải rác ở các external platform như Google Analytics hay Meta. Sự thấu hiểu về business đã được nâng cao hơn trước nhiều, và các team lãnh đạo bắt đầu nhận thấy sự kết nối một cách xuyên suốt giữa các departments. Đây là khởi điểm của nhu cầu về một hệ thống Centralized Data System đầu tiên, kết nối các dữ liệu của doanh nghiệp thành một tổng thể thống nhất. Các Data Engineer đầu tiên(đôi khi bất đắc dĩ, phát triển từ một engineer hoặc một analyst nào đó có technical understanding) sẽ bắt đầu kết nối và tổng hợp các hệ thống dữ liệu về cùng một chỗ (data warehouse), chuẩn hoá về cùng 1 định dạng (datetime format, id mapping, data sanitization). Một nhóm những người hay “phân tích” dữ liệu sẽ được gom lại thành team data đầu tiên, để đãi cát tìm vàng từ những dữ liệu được tổng hợp này.
(3) Cách mạng công nghệ: Nhu cầu dữ liệu của business trở nên ngày càng phức tạp hơn; Engineering có thể bắt đầu introduce khối lượng volume data lớn hơn, hoặc các streaming data use cases, near-realtime analytics. Business có thể yêu cầu thêm phân tích data theo nhiều hướng hơn; reporting cũng yêu cầu Self-service dashboard với nhiều dimensions để các team có thể cùng theo dõi hoặc deep-dive từ các góc nhìn khác nhau. Các nhu cầu đánh tag users cũng trở nên complex hơn, gán nhãn và A/B experiment/testing để phát triển sản phẩm hiệu quả hơn. Business bắt đầu đầu tư một cách nghiêm túc vào việc xây dựng Data Team và Data Platform, và đây là công ty bắt đầu có những cuộc “cách mạng” về data. Data Engineering team bắt đầu xây dựng Data Platform; họ không chỉ thuần làm việc “mang dữ liệu về”, mà bắt đầu có xây dựng những giải pháp chuẩn mực để “mang dữ liệu về”, quản trị về Data Ingestion, Data Storage, Workflow Orchestration, Metadata Management. Phía khác thì thiên hơn về phía người sử dụng data, họ xây dựng giải pháp về mặt Data Access: một mặt thiên về hướng data infra như là Query Engine, Compute Cluster, một mặt thì thiên về hướng Data Modeling: tổ chức lại data model thành những dữ liệu dim and facts, biến chuyển Data về dạng dễ sử dụng hơn cho những data users phía sau như DA, DS. Các Data Users như DA, DS không còn loay hoay xử lý dữ liệu local nữa; họ được onboard lên các hệ thống chuyên trách hơn cho data, như Cloud-based query engine/notebooks, xây dựng report/dashboard trên những tool chuyên nghiệp hơn, như templated dashboard, slice-and-dice data visualization. Công ty bắt đầu adopt các thứ mới nhất về Data Science, đầu tư xây dựng Feature Store, CDP, Online/Offline Model Serving. Thỉnh thoảng bạn sẽ nghe loáng thoáng đến MLOps, Automated Hyperparam tuning, nghe càng ngày càng cao siêu hơn. Đây là giai đoạn cách mạng chuyển mình của một Business, để họ thực sự biến mình thành một Data-Driven business.
(2.5) The incumbent Enterprise: Có một trường hợp đặc biệt, đó là những business lâu đời đã có từ trước thời đại của Big Data. Họ cũng có strong business understanding, và cũng có nhiều workflow đã dựa sẵn vào data từ trước đó, nhưng có thể đã được sử dụng trong những hệ thống enterprise khác. Những tập đoàn lớn này sẽ thường muốn tìm cách adopt big data, và cũng sẽ bước vào cùng một giai đoạn chuyển mình và hoà nhập vào thế giới của Big Data.
(3.5) The Data-driven Enterprise: Khi các công nghệ Big Data đã được biến thành một phần của nghiệp vụ, và công ty đã đi vào ổn định. Các business coi Data như một phần quan trọng của doanh nghiệp, tuy nhiên, nghiệp vụ chính của doanh nghiệp không nằm ở việc xây dựng một hệ thống tech thực sự là lồng lộn và hoành tráng. Họ chọn giải pháp về Data một cách ổn định, picking mature solutions, và sử dụng data cho việc phát triển business tiếp. Ngoại trừ 1 số team tham gia vào R&D, thì data usage sẽ thường đơn giản hơn, phát triển thêm dashboard hoặc report, hoặc optimize một số workflow có sẵn. Những business này thường chọn các stable tools, ít thay đổi nhiều, và quan tâm vào hiệu quả hoạt động kinh doanh bán hàng hoặc vận hành.
(4) Space Exploration Force: Đây là những công ty mà Data là dòng máu, và là nơi nhờ có data họ mới tiếp tục tồn tại và phát triển. Họ là những công ty tech lớn nhất, nhiều dữ liệu nhất, và sử dụng dữ liệu nhiều nhất. Sản phẩm của họ sẽ tự lớn và phát triển khi data của họ càng lớn mạnh. Họ sẽ chọn những giải pháp dễ mở rộng nhất, tự phát triển những sản phẩm tự thiết kế (bespoke products) để phục vụ các nhu cầu data của họ. Họ xây nên toolsets mới, data format mới, compute platform mới, reporting platform mới, vân vân và mây mây, vì nhu cầu sử dụng của họ là lớn nhất. Không có quá nhiều các công ty thế này trên thế giới, và họ là những người dẫn đầu thế giới này về công nghệ, và là những người luôn push the boundary for technologies. Chắc cũng không cần kể tên, nhưng bạn có thể đã có một vài cái tên quen thuộc trong đầu rồi.
Túm lại, các cấp độ khác nhau về maturity của Data Organization, mà cuộc sống của một data professional rất khác nhau.
Đây mình có cả ảnh để tóm tắt nhé.
Data System Inertia hay là sức ì của dữ liệu
Một điều mà nhiều người có thể nhận ra về ngành dữ liệu này, đó là số lượng tools, số lượng công nghệ, số lượng system, số lượng bạn đã nghe đến thì là rất rất nhiều. Chỉ nghe danh sách những cái tên mà cũng đã có thể bị ngợp. Ở mỗi công ty, mỗi tập đoàn, sẽ có một combinations khác nhau của các tools mà bạn sẽ nghe và sử dụng đến, nhưng khi bạn đứng núi này trông núi nọ thì thấy ở các chỗ khác lại dùng cái tool X platform Y mà nghe nó hay thế. Kết hợp lại, là những người trong cái ngành này lúc nào cũng hoang mang là thế thì chọn tool thế nào cho nó đúng, học technology nào cho nó ko bị lỗi thời.
Các system, các tool hay framework sẽ được adopt vào trong tech stack của một công ty vào một cách tuần tự, tuỳ theo kinh nghiệm và kiến thức của Data team vào thời điểm đó. Và khi đã có workload, có data được lưu vào cái hệ thống đó, thì hệ thống đó sẽ có một sức ì nhất định; càng nhiều dữ liệu thì hệ thống đó nó càng ì. Sức ì đó dẫn đến việc khi organication đã nhét vào một data system vào hệ thống và đã có production workload trên đó, thì gỡ nó ra vô cùng khó khăn. API integration có nhiều cấp độ của tích hợp, có thể là loose integration hoặc tight integration; nhưng khi đã có data integration, thì thường đó là tight integration, bởi vì data sẽ thường được integrate ở row-level record, data đang ở trạng thái raw. Khi data system mới đã được tích hợp và đem vào sử dụng, thì nó sẽ có khả năng cao sẽ tồn tại cho một thời gian dài. Mọi người sẽ thường chịu khó để tiếp tục sử dụng system này và dùng nó đến hết khả năng có thể của nó, trước khi suy nghĩ đến việc lựa chọn thêm đồ chơi mới.
Bạn nhiệt tình bắt đầu một công việc mới, và 80-90% là bạn không có quyền lựa chọn thứ bạn muốn được dùng. Và trừ khi có một ý chí quyết định lớn để dẹp bỏ những thứ cũ, thì nó sẽ có khả năng tồn tại rất rất lâu.
Thế thì học gì và làm gì
Mình thì cũng chả phải là ai mà tư vấn hướng nghiệp về Data, cũng không phải đến từ tương lai để biết trước được công nghệ nào về sau này sẽ hot. Từ ngày mình bắt đầu đi làm đến giờ thì Apache đã nhận thêm được 1 vườn thú các loại công nghệ từ kỳ lân đến phượng hoàng không thiếu con nào. Có những joke như là is it pokemon or big data, thật sự.
Nếu có gì mình nghĩ là quan trọng nhất về học Data, thì, nghe hơi ngược đời một xíu, nhưng mà đó là nên quan tâm về data. Data Types, Format, Storage, Encoding, Compresion, Data Flow, Data Integration, Data Transformation, những thứ căn bản nhất về data. Tool nó cũng phục vụ mục đích để làm những thứ trước mắt, và bạn cũng không được lựa chọn tool trong phần lớn thời gian, thì hãy đọc và tìm hiểu để nắm khái quát về nhiều tool và sự khác biệt với nhau, và đi sâu vào sử dụng khi có nhu cầu thực tế.
Về job scope và role, biết về hướng phát triển mà bạn đang mong muốn, và đi kèm với những câu chuyện về các giai đoạn khác nhau của một data organization, mà bạn có thể hiểu rõ về thứ mình đang làm. Bạn muốn công cụ ổn định để có thể đi chuyên sâu vào xử lý dữ liệu? Hay bạn muốn đóng góp xây dựng Infra vào để nâng tầm Data Org? Hoặc là bạn có tham vọng muốn nghiên cứu và được đi sâu phát triển thêm những khả năng với về dữ liệu? Những câu hỏi như thế có thể làm guidance cho bạn tìm định hướng cho bản thân.
Kết
Đọc qua thì mình thấy mình cũng có thể viết hơi dài dòng và lan man. Nếu ai đọc mà có cảm nhận khác hoặc là muốn trao đổi thêm thì cứ thoải mái nhé, mình rất thích nhận được feedback từ mọi người
Post có khá nhiều insights cho những ACE làm việc về mảng data, đặc biệt là nói về sự muôn hình vạn trạng về scope công việc của các nhánh Analytics, Engineers, Scientists,... tại các công ty là khác nhau và cũng không có một định nghĩa "chuẩn" nào cả - không phải vì không có định nghĩa chuẩn, mà là vì còn tùy thuộc vào bối cảnh giai đoạn phát triển của business và mindset của business leader tại từng giai đoạn đó. Do đó thấy 500 kiểu JD về data job trên Linkedin phần nào phản ảnh ý này.
Và cuối cùng như anh Hiếu đề cập, em thấy nhiều (rất nhiều) business enterprise lớn (trừ các cty products về data) thì có vẻ đang ở cái đoạn này "Các business coi Data như một phần quan trọng của doanh nghiệp, tuy nhiên, nghiệp vụ chính của doanh nghiệp không nằm ở việc xây dựng một hệ thống tech thực sự là lồng lộn và hoành tráng. Họ chọn giải pháp về Data một cách ổn định, picking mature solutions, và sử dụng data cho việc phát triển business tiếp." --> Nhưng ngặt nỗi là JD tuyển dụng nhân sự mảng data của họ thì out of universe haha.
Thanks bài viết của a Híu