[Artykuł sponsorowany]
Najpewniej nie muszę Cię przekonywać, że praca w branży data science to obecnie jedno z najciekawszych i najlepiej płatnych zajęć. Co jednak nie powinno być zaskoczeniem, wysokie zarobki wynikają z tego, że praca ta wymaga umiejętności, które nie są proste do zdobycia. Sam zajmuję się data science zawodowo od 2012 roku i między innymi przygotowuję innych do pracy w tej branży. Jest to pewna droga. Poniżej moje wskazówki, jak nią przejść, żeby dojść do celu.
Plan i odpowiednie podejście
Po pierwsze, to naprawdę jest droga, i o ile nie masz już teraz solidnych fundamentów matematycznych, statystycznych i programistycznych — długa droga. Co prawda fascynująca, ale wymagająca dużo pracy i czasu.
Jeśli po dwóch miesiącach nauki nie zobaczysz w tym nic interesującego, a jedynie ciężką robotę — odpuść sobie. Serio. Jedynie stracisz czas, nerwy i pieniądze, bo prawie na pewno nie uda Ci się dotrzeć do końca tej drogi. Wiem, że ten punkt może brzmieć dla kogoś brutalnie, ale moim zdaniem uczciwie jest tak postawić sprawę.
Pierwsze pół roku (albo dłużej, to jest bardzo indywidualne!) warto poświęcić wyłącznie na naukę. Mam na myśli: kursy, szkolenia, książki i oczywiście praktyczną pracę z danymi (programowanie). Polecam zupełnie odpuścić sobie tematy związane z uczeniem maszynowym, szczególnie że i tak nikt Cię nie zatrudni do budowy modelu bez większego doświadczenia. Przyjdzie na to czas później. Nie znaczy to, że później przestaniesz się uczyć. Data science nie da się nauczyć (i swoją drogą, właśnie dlatego jest to takie ciekawe). Istotą tej pracy jest ciągły rozwój. Natomiast po tym „pół roku” rozsądnie będzie pomyśleć konkretniej o przyszłej pracy, między innymi budując swoją wiarygodność, o czym napiszę później.
Programowanie w data science
Jeśli nie masz doświadczenia w programowaniu, jedyną opcją, żeby się tego nauczyć, to robić to codziennie lub prawie codziennie (choćby pół godziny). To jest obcy język, który musi stać się dla Ciebie ojczystym.
Wbrew powszechnej opinii, polecam uczyć się data science w języku R, nie w Pythonie. Bo trzeba odróżnić proces nauki analizy danych od późniejszego stosowania tej wiedzy w konkretnej firmie. W przeciwieństwie do Pythona, R został stworzony od analizy danych i jej nauka w tym języku jest zupełnie naturalna. Obecnie, niestety, coraz więcej osób chce jednocześnie nauczyć się programować w Pythonie i niejako przy okazji analizy danych — ewentualnie odwrotnie. Nie twierdzę, że tego nie da się zrobić, natomiast jeśli chcesz być naprawdę dobry/dobra w swojej pracy, odradzam takie podejście. Analizowanie danych w R wyrabia odpowiednie nawyki i znacznie łatwiej będzie Ci zacząć myśleć analitycznie — a to jest kluczowa umiejętność. Narzędzia się przecież zmieniają i szczerze wątpię, by za 10 lat ktoś pamiętał o Pythonie, przynajmniej w analizie danych. O R też — powstanie po prostu inne narzędzie.
Oczywiście ogólnie zachęcam do nauki Pythona, choć skupiając się bardziej na kwestiach programistycznych. I zdaję sobie też sprawę, że jeśli już znasz Pythona, moje argumenty mogą Cię nie przekonać. Powiem tak: jeśli potrafisz programować w tym języku naprawdę dobrze, sam siebie bym nie przekonał. Natomiast jeśli znasz tylko podstawy, lepiej przestawić się na R.
Pierwsza firma
Specyfika pracy w data science jest taka, że najczęściej realizujemy konkretny projekt i trwa to zwykle rok-dwa. Po tym okresie nie mamy już co robić w danej firmie i następuje zwolnienie. Co ważne, jest to korzystne zarówno dla pracodawcy, jak i dla nas. Dzięki temu łatwiej zebrać szersze doświadczenie i mieć lepszą pozycję negocjacyjną w rekrutacji do kolejnej firmy. Wynikają z tego dwa wnioski.
Celowanie od razu w firmę, która zajmuje się „prawdziwym” data science, to raczej nie jest optymalna droga. Szybciej jest zatrudnić się w firmie, która ma jakiś związek z analizą danych, żeby nabrać doświadczenia, a dopiero później szukać tej docelowej.
Ponieważ jak pisałem wyżej, regularna zmiana pracodawcy jest w data science powszechna, to ta „docelowa” firma wcale nie musi zajmować się tematyką, która Cię interesuje. Po pierwsze, analizowanie danych ma to do siebie, że zwykle jest ciekawe same w sobie, niezależnie od specyfiki danych. Po drugie, najpewniej za jakiś czas i tak tę pracę zmienisz.
Twoja wiarygodność
Obecnie nie wystarczy dobrze wypaść na rozmowie kwalifikacyjnej — bo najpierw trzeba być na nią zaproszonym. I jest to trudne, jeśli jedyne, co możesz pokazać rekruterowi, to Twoje CV. Musisz zbudować swoją wiarygodność. Robi się to poprzez profil na LinkedIn, GitHub, Kaggle czy własną stronę internetową (z tym ostatnim jest więcej roboty). W CV umieszczasz linki.
Profil na LinkedIn powinieneś mieć już teraz. Na początku obserwuj lub dodawaj "do znajomych" ludzi związanych z data science. Jeśli masz opór przed dodawaniem nieznajomych osób, to tam działa to inaczej: budujesz "sieć kontaktów". Większość przyjmie Twoje zaproszenie, bo im też się to opłaca, szczególnie jeśli coś publikują. Później, jak będziesz mieć coś do powiedzenia, a Twoja sieć kontaktów będzie duża, warto coś opublikować, np. pochwalić się projektem. Konto na Github też warto stworzyć dość szybko (jak zakończysz ten etap „nauki”, o którym pisałem wcześniej) i umieszczać na nim swoje analizy. Byleby nie na popularnych danych (np. z katastrofy Titanica).
Uczestnictwo w turniejach Kaggle to kolejny krok, ale tu już trzeba znać podstawy uczenia maszynowego. Natomiast na pewno nie trzeba być w tym dobrym — główną zaletą tych turniejów jest właśnie to, że można szybko nauczyć się czegoś nowego. Brzmi to może dość dziwnie (w końcu to turniej), ale wystarczy wziąć udział w jednym, żeby się przekonać, z czego to wynika. Poza tym organizowane są specjalne turnieje dedykowane właśnie nauce.
Mentoring
Ponieważ jak pisałem na początku, nie jest łatwo nauczyć się tego wszystkiego w pojedynkę, popularna jest współpraca z mentorem. Sprawdź, być może moja oferta wyda Ci się interesująca: https://danetyka.com/. Oczywiście wiąże się to z pewnym wydatkiem, natomiast jest to inwestycja, która zwraca się wraz z pierwszą wypłatą. A jeśli chcesz jedynie podszkolić się ze statystyki, co jakiś czas publikuję artykuły, które wyjaśniają poszczególne koncepcje i narzędzia: https://danetyka.com/statystyka-w-data-science/