He

ככל שארגונים מבינים כי עליהם לאמץ טכנולוגיות רלוונטיות לתחום ה- Data Analytics, עולה גם הצורך באנשי מקצוע מומחים בתחום. היום אחד הנושאים המעסיקים מנהלי ארגונים הוא לבסס גוף מקצועי אשר יידע לבנות תשתית לאיסוף ואחסון הנתונים, לבצע ניתוחים מתקדמים עליהם ואף לנבא תוצאות עתידיות על סמך המידע הקיים. כל זאת על מנת שמכל הנתונים הללו ניתן יהיה לספק תובנות שיאפשרו לקבל החלטות עסקיות חכמות יותר עבור הארגון.

ואכן, בקפיטרייה, במטבחון העבודה ואף בחדשות הולך וגובר השימוש במילים "AI", "אנליטיקה", "Machine Learning". , נושאים אלו הם חלק מתחום ה- Data Analytics שהוא אחד מהתחומים המאתגרים העומדים כיום בפני ארגונים המנסים להתמודד עם מסת המידע הקיים בארגונם ועם הצורך לעשות בו שימוש מושכל שיניב להם ערך.

במרבית הארגונים נדרש לאייש מגוון תפקידים וביניהם שני תפקידים שנשים עליהם את הזרקור היום: מהנדס המידע ( Data engineer) ומדען נתונים (Data scientist).

שני תפקידים אלה הם שמות יחסית חדשים והם אבולוציה של תפקידים אחרים וותיקים. אבולוציה שקרתה בעקבות השינויים בכלים הטכנולוגיים וכן באסטרטגיית הטיפול באנליטיקה בארגונים.
ננסה לעשות מעט סדר בהבדלים בין שני התפקידים ולהסביר איך אלו יכולים לקחת את הארגון למקום חדש בכל הקשור לקבלת ערך עסקי מנתונים.

מהנדס הנתונים (Data engineer)

רבים שואלים אותנו "מה זה data engineer?"

תפקיד זה הוא אבולוציה של תפקיד Backend BI Developer או ETL Developer. מהנדס הנתונים במהותו הוא מפתח, ותפקידו לבנות ולתחזק תהליכי שינוע של נתונים (Pipelines).

שינוע זה מתחיל במקורות המידע (DB, API, קבצים), דרך שכבות Staging ו- Data Lakes וכלה במחסני נתונים מוכווני תחקור (Data Wareshouse).  כחלק מתהליך זה עליו להכיר את מבנה מקורות המידע ולדעת להפעיל עיבודי סינון וטיוב מנתונים "מלוכלכים" (ללא שגיאות, ערכים חשודים, מספרים במקום טקסט, ערכים מוגזמים, ערכים בודדים ועוד). כמו כן עליו להפעיל אינטגרציה ומניפולציה על הנתונים על מנת שיגיעו למחסן הנתונים על פי מודל הנתונים שאופיין מבעוד מועד.

על מהנדס המידע להכיר מגוון שפות וכלים העוסקים בהעברת מידע בנפחים גדולים ובשפות המובילות היום בעולם הדאטה. Python ו- Spark הם סביבות עבודה נפוצות, אך גם כלי ETL/ELT של ספקי הענן (Microsoft Data Factory, AWS Glue) וכן של ספקי צד שלישי (Rivery, Informatica, DataStage).
Data Engineer נדרש לעיתים תכופות להמליץ על דרכים לשיפור איכות הנתונים המתקבלים ולייצר תבניות שימוש שיעשו "חיים קלים"  עבור מדעני הנתונים והאנליסטים שיעשו מחקר ואנליזות על בסיס המידע שמהנדס המידע מכין.

מדען נתונים (Data scientist)

מדעני הנתונים מחזיקים באחד מהתפקידים הנחשקים בשנים האחרונות בשוק העבודה. תפקיד זה הוא אבולוציה של תפקיד הסטטיסטיקאי או אנליסט הנתונים המתקדם. אם אנליסט דאטה \ BI  בדרך כלל ישתמש ב- Descriptive Analytics בכדי להציג נתונים (KPIs, דוחות, דשבורדים של מדדים), מדען נתונים ישתמש בכלי Predictive Analytics בכדי לבצע חיזוי נתונים עתידי על סמך הנתונים ההסטוריים.  הוא משתמש בכלי Machine Learning / Deep Learning ואלגלוריתמים על מנת לבצע אנליזות מתקדמות שמציגות קשרים בלתי נראים בין קבוצות נתונים וכן מאפשרים חיזוי של אירועים. 

תחקור נתונים ע"י מדעני נתונים מקצועיים

מדעני הנתונים הם אלו אשר יודעים לקחת שאלה עיסקית, להבין אותה לעומקה, לבצע מחקר נתונים מעמיק ולבנות לה מודל מותאם בעזרתם של כלים טכנולוגיים. כך למעשה, עבודתו של מדען הנתונים נחלקת לשתיים בדרך כלל: הצד המחקרי, והצד ההנדסי.

בהיבט המחקרי, עליו לקחת בעיה עסקית ולהגדיר אותה היטב. הגדרת השאלה העסקית המפורטת היא קריטית לתוצאות טובות. לצורך כך נדרש בשוטף גם להתעדכן ממאמרים ועבודות מחקר בתחום.  לצד השאלה העסקית מוגדרים גם הנתונים הנדרשים לטובת פתרונה. הגדרת הנתונים זו מועברת ל- Data Engineer על מנת שיכין את נתונים אלה בצורה מוכוונת תחקור. לאחר מכן יכול מדען הנתונים לעסוק בצד ההנדסי.

בהיבט ההנדסי – בו נבנה מודל אנליטיקה מתקדמת עד לפתרון השאלה העסקית. שלב זה דורש ידע בתכנות בשפת סטטיסטית (R, Python, SAS, SPSS) וכולל בדרך כלל הרבה איטרציות של Try&Error. לאחר קבלת תוצאות משביעות רצון (אפקטיביות מודל גבוהה, ROC גבוה) נדרש מדען הנתונים להציג את התוצאה באופן שיהיה ניתן לשימוש על ידי הארגון. כלומר, הפיכת המורכבות המתמטית לכדי קוד / תובנות ברורות ונגישות. 

לתפקידים אלו חסמי כניסה רבים, הרבה פעמים לארגונים ישנם דרישות שונות, לעיתים נדרשים אנשים עם יותר רקע הנדסי וטכנולוגי, לעיתים עם יותר רקע עסקי, לפעמים עם המון ידע במתמטיקה וסטטיסטיקה ולפעמים המון ידע בוויזואלציות. הרבה פעמים הכל ביחד.

גיוס Data Engineer ו- Data Scientist טובים כיום הוא תהליך מאתגר ולא פשוט כלל לארגון. מומלץ לצורך כך לקבל שירותים מחברות המתמחות בתפקידים אלה.

בין עובדי Nogamy נמצאים Data Engineers ו- Data Scientists כמתואר אשר מעורבים ויוצרים במספר רב של פרוייקטים מוצלחים.

בואו נהפוך את הנתונים
שלכם לתובנות מעצימות

השאירו פרטים ונהיה איתכם בקשר: