כתבו: ד"ר דניאל נבו, אוניברסיטת תל אביב, ד"ר אורי שליט, הטכניון
כמו שרובנו יודעים לדקלם, מתאם איננו סיבתיות, וקשר סטטיסטי בלבד בין שני משתנים לא מצביע שהאחד גורם לשני. מצד שני, כל כך הרבה שאלות במדע, מדיניות, ותעשייה הן שאלות סיבתיות במהותן, והמענה עליהן מבוסס על ניתוח סטטיסטי של נתונים ולא מסתפק בידע תיאורטי. האם העלאת שכר המינימום משפיעה על אחוז האבטלה? על רמת המחירים? האם חיסוני שפעת מונעים אשפוזים? בכמה יגדל האינגייג'מנט אם אצרף תמונה לפוסט? איזו משתי גרסאות של תוכנית מנויים (membership plan) תהיה בעלת אחוזי נטישה נמוכים יותר? ועוד ועוד.
השיעור המרכזי שתורת הסיבתיות המודרנית מלמדת אותנו היא שכדי להמיר מתאם לסיבתיות אין לנו ברירה אלא להניח הנחות מסויימות על העולם – הנחות שלא תמיד ניתן לבדוק סטטיסטית.
השלב הראשון בדרך ממתאם לסיבתיות הוא ההגדרה המתמטית של האפקט הסיבתי אותו אנו מנסים לאמוד. גישה אחת לבעיה היא גישת התוצאות הפוטנציאליות (potential outcomes), המגדירה אפקטים כהשוואה בין עולמות שונים: עולם בו התערבות א' (לדוגמא ללא שינוי שכר המינימום) יצאה לפועל לעומת עולם בו התערבות ב' (לדוגמא העלאת שכר המינימום) בוצעה. את האפקטים אלה לעולם לא נראה בנתונים, כי לא יתכן ששתי התערבויות יבוצעו באותו זמן עבור כלל האוכלוסייה. לכן, השאלה הראשונה עליה מנסים לענות היא שאלת הזיהוי (identification) – נניח והיה לנו נתונים ללא הגבלה, תחת אילו הנחות, ובשימוש באיזה שיטות היינו יכולים ללמוד מהנתונים את האפקט הסיבתי, כלומר את ההבדל בין מה היה קורה בעולם א׳ ובעולם ב׳? ההסתכלות הזו מאפשרת לנו לדון תחת מסגרת מתמטית אחת במחקרים מבוקרים (randomized controlled trials,A/B testing), מחקרים תצפיתיים (observational studies), וכוללת לדוגמא שיטה שמקדמיה ומפתחי התיאוריה שלה זכו בפרס נובל לכלכלה ב2021 (instrumental variables).
הגישה המרכזית הנוספת בתחום, המשלימה לגישת התוצאות הפוטנציאליות, היא גישת הגרפים הסיבתיים המבוססת על גרפים מכוונים חסרי מעגלים (directed a-cyclic graphs) שפותחה בין השאר על-ידי זוכה פרס טיורינג יהודה פרל. מסתבר שניתן להשתמש בגרפים אלו כדי לייצג בצורה מתומצתת את הידע וההנחות שלנו על העולם ועל הקשרים בין משתנים שונים. כתוצאה מכך ניתן לדוגמא לדעת האם אפקט סיבתי ניתן לזיהוי מהנתונים שבידינו בהינתן שגרף מסוים מייצג נאמנה את הנתונים, וניתן אף לדעת אלו משתנים אנחנו אמורים לכלול במודל שלנו. שיטות לאמידה ולכימות חוסר ודאות כמובן גם הן חלק מהתחום.
המחשבה על נתונים ללא הגבלה שעומדת בבסיס שאלת הזיהוי מדגימה אולי מדוע התחום צובר עניין כיום. נתוני עתק (big data) נהיו נפוצים בהרבה, ומודלים ואלגוריתמים מצויינים לחיזוי וסיווג נהיו נפוצים אפילו יותר. עם זאת, מסתבר ששימוש נאיבי בכלים קלאסיים או מודרניים של סטטיסטיקה ולמידת מכונה עשוי לתת מבל משים תשובות מוטות ולא נכונות לשאלות שמעניינות אותנו. כלומר המשפט "מתאם איננו סיבתיות" רלוונטי למקדם המתאם של פירסון באותה מידה שהוא רלוונטי למודלים של רשתות עמוקות שנלמדו מעשרות מיליוני תמונות. עם זאת, מסתבר שבשני המקרים, השילוב של אחת מהגישות הסיבתיות שהזכרנו לעיל עם מודלים ואלגוריתמים סטטיסטיים עשוי לעזור לנו להגיע למסקנות סיבתיות.