בפוסט זה נרצה להדגים את יכולתו של המודל של בטל בשישים בחיזוי (בדיעבד) של תוצאות הבחירות לכנסת ה-17 שנערכו ב-28 במרץ 2006. בקיצור נמרץ, סיפורנו מתחיל בשלהי נובמבר 2005, כשלושה חודשים אחרי ביצוע תוכנית ההתנתקות, עם החלטתו של אריאל שרון לפרוש מהליכוד יחד עם 12 ח"כים נוספים, להקים את סיעת קדימה ולפזר את הכנסת. ב-4 בינואר לקה שרון באירוע מוחי נרחב (לאחר ששבועיים קודם לכן שרד אירוע מוחי קל יותר) שבעקבותיו נכנס לתרדמת ממנה לא התעורר עד היום. בעקבות האירוע ירש אהוד אולמרט את שרון בראשות הממשלה והוצב בראש רשימת קדימה לקראת הבחירות. חובבי ההיסטוריה הפוליטית ייהנו להיזכר גם בפרטים מעט יותר פיקנטיים, כגון דריכת כוכבו של משה כחלון, שהפתיע ונבחר ראשון בפריימריס של מפלגת הליכוד או התהוות הברית בין מפלגות רע"מ ותע"ל ובין האיחוד הלאומי למפד"ל.
ליל הבחירות עצמו היווה הפתעה: מפלגת הגמלאים הגיחה משום מקום וגרפה 7 מנדטים, בעוד מפלגת קדימה הדלדלה מ-40 המנדטים שלה בסקרים הראשונים ל-29 בלבד בבחירות עם אחוז ההצבעה הנמוך בהיסטוריה (63.5%). גם במפלגות רבות אחרות פספסו הסקרים במנדטים ספורים לכאן או לכאן. בעקבות התוצאות, זכו הסוקרים לקיתונות של ביקורת ויום הבחירות זכה לכינויים מהסוג "יום הכיפור של הסוקרים" וכיוצא באלה.
האם ניתן היה לחזות את ההפתעה ולספק תחזית יציבה ואמינה גם לבחירות 2006? בואו נחזור 7 שנים לאחור ונראה...
הפיזיקאי נילס בוהר אמר פעם כי "חיזוי הוא דבר מסובך מאוד, בייחוד בכל הנוגע לעתיד". בניבוי בחירות, המתבסס ברובו על ניתוח-על סטטיסטי של סקרים הדוגמים כל אחד את דעת הקהל ברגע חולף, נדמה כי תובנה זו נכונה שבעתיים. אפילו בעזרת ניתוח יציב, אם הסקרים כולם עיוורים לחלק מן התמונה ו/או נשרכים אחר מצב-רוחו ההפכפך של הציבור בתקופה שלפני הבחירות, גם ניתוח-על פשטני יסבול מאמינות שנויה במחלוקת ותנודתיות רבה.
כפי שתיארנו בעבר, כאן טמון יתרונם של מודלים בייסיאנים לניתוח-על, שכן אלה נשענים על מספר הנחות מעבר לנתוני הסקרים. השאלה החשובה היא כיצד לכייל הנחות אלה, והאפשרות המבטיחה ביותר היא להתבונן במערכות בחירות קודמות ולברור מתוכן מסקנות עקביות שיעזרו לנו בניבוי הבחירות בעתיד. חשוב לציין כי יש לנקוט משנה זהירות בגישה זו כדי להימנע מהתאמת-יתר (overfitting) של המודל הססטיסטי (כפי שאמר פעם ג'ון פ. קנדי: "שינוי הוא חוק החיים. המביטים לעבר או בהווה בלבד, לבטח יחמיצו את העתיד.").
לאחר שכיילנו את המודל וקיבענו את הנחותיו השונות לקראת הבחירות הקרובות, פנינו לבדוק את מידת הצלחתו של אותו מודל בדיוק המשמש אותנו בתחזית לבחירות 2013 בניבוי בדיעבד של מערכות הבחירות הקודמות. נתאר כאן את קורות בחירות 2006 ובקרוב נפרסם תיאור נפרד עבור בחירות 2009.
אם כן, חמושים במסד נתונים מפורט של סקרי בחירות מ-2006, התחלנו להריץ את תחזית בטל בשישים כחודשיים לפני הבחירות. בהסתכלות לאחור על גרף הגושים, כבר מההתחלה ניכר היה כי אף גוש לא יחצה את רף 61 המנדטים:
לאורך השבועות הראשונים גוש הימין עלה בהדרגה, בעיקר על חשבון גוש המרכז שאיבד מכוחו בעקבות חילופי הגברי בראש מפלגת קדימה. כשלושה שבועות לפני הבחירות, התמונה בסקרים החלה להתייצב, וכפי שניתן לראות מהטבלה הבאה, ממוצע הסקרים של השבוע האחרון לא היה רחוק בהרבה מתוצאות האמת (תחזית בטל בשישים מצידה חזתה במדויק את גדלי הגושים, כפי שנראה להלן).
תחזית המפלגות של הסקרים השונים, לעומת זאת, היתה תנודתית בהרבה וכללה טעויות רבות, חלקן קטנות (ש"ס, למשל, נובאה בחסר; קריסתו של הליכוד לא נובאה במלואה וכו') וחלקן גדולות - לקדימה חזו הסקרים כ-35 מנדטים בממוצע, בעוד מפלגת הגמלאים כלל לא היתה צפויה לעבור את אחוז החסימה. בנוסף, למפלגות הערביות חזו הסקרים 30% פחות קולות משהתקבלו בפועל.
תחזית בטל בשישים היתה מדוייקת בהרבה מתוצאות הסקרים, כפי שניתן לראות מתמונת ההרכב בתחזית הסופית של בטל בשישים לכנסת ה-17:
לעומת תוצאות האמת:
כל מילה נוספת מיותרת. ובכל זאת, על-מנת להתרשם מאיכות התחזית של בטל בשישים, מומלץ להפעיל את האנימציה בגרף הבועות המופיע להלן:
העיגולים הירוקים בגרף מייצגים את הסקרים השונים, כאשר תחזית בטל בשישים מופיעה בכחול ותוצאות האמת מסומנות בצהוב. הציר האופקי מציין את המרחק במנדטים בין תוצאות הסקר הנוכחי לסקר הקודם של אותו סוקר ואילו הציר האנכי מודד את המרחק במנדטים בין תחזית הסקר לגדלי הגושים ובין תוצאות האמת.
ניתן לראות שתחזית בטל בשישים אכן עמדה במשימה - היא אמינה יותר מכל סקר בודד ואף מממוצע הסקרים והיא יציבה בהרבה מתוצאות הסוקרים השונים.
כיצד הצליח המודל הסטטיסטי בבסיסו של בטל בשישים לחזות את עליית הגמלאים על חשבון מפלגת קדימה? מדוע הטעויות עבור המפלגות הערביות והחרדיות היו קטנות בהרבה?
התשובה טמונה בהנחות הבייסיאניות של המודל, בזכותן השכיל להגיע לתוצאות טובות אף יותר מממוצע הסקרים האחרונים לפני הבחירות. לדוגמא, המודל מביא בחשבון את אחוזי ההצבעה השונים האופיינים לאוכלוסיות שונות (בראשן הציבור החרדי) ואת הקושי של הסוקרים לנפק תמונה מדוייקת של נטיות ההצבעה בקרב הציבור הערבי.
דוגמא נוספת היא תחזית המגמות של המודל. רוב הסקרים בארץ מתפרסמים בסוף השבוע ומהסתכלות רוחבית על התוצאות בהשוואה לאלו של השבוע הקודם, ניתן להסיק מסקנות לגבי המגמות המסתמנות ובכך לשפר את התחזית עבור השבוע שלאחר מכן. יכולת זו חשובה מאוד בשבוע שלפני הבחירות, אז המגמות מתחדדות ומתחזקות במיוחד.
בהקשר זה, מעתה נציג באתר בנוסף לתחזית בטל בשישים ליום הבחירות את תמונת הבחירות לו היו מתקיימות היום (ניתן לראותה בלחיצה על הלינק מתחת לגרף) על מנת שניתן יהיה לעקוב בנקל אחרי השינויים בדעת הקהל.
ליל הבחירות עצמו היווה הפתעה: מפלגת הגמלאים הגיחה משום מקום וגרפה 7 מנדטים, בעוד מפלגת קדימה הדלדלה מ-40 המנדטים שלה בסקרים הראשונים ל-29 בלבד בבחירות עם אחוז ההצבעה הנמוך בהיסטוריה (63.5%). גם במפלגות רבות אחרות פספסו הסקרים במנדטים ספורים לכאן או לכאן. בעקבות התוצאות, זכו הסוקרים לקיתונות של ביקורת ויום הבחירות זכה לכינויים מהסוג "יום הכיפור של הסוקרים" וכיוצא באלה.
האם ניתן היה לחזות את ההפתעה ולספק תחזית יציבה ואמינה גם לבחירות 2006? בואו נחזור 7 שנים לאחור ונראה...
הפיזיקאי נילס בוהר אמר פעם כי "חיזוי הוא דבר מסובך מאוד, בייחוד בכל הנוגע לעתיד". בניבוי בחירות, המתבסס ברובו על ניתוח-על סטטיסטי של סקרים הדוגמים כל אחד את דעת הקהל ברגע חולף, נדמה כי תובנה זו נכונה שבעתיים. אפילו בעזרת ניתוח יציב, אם הסקרים כולם עיוורים לחלק מן התמונה ו/או נשרכים אחר מצב-רוחו ההפכפך של הציבור בתקופה שלפני הבחירות, גם ניתוח-על פשטני יסבול מאמינות שנויה במחלוקת ותנודתיות רבה.
כפי שתיארנו בעבר, כאן טמון יתרונם של מודלים בייסיאנים לניתוח-על, שכן אלה נשענים על מספר הנחות מעבר לנתוני הסקרים. השאלה החשובה היא כיצד לכייל הנחות אלה, והאפשרות המבטיחה ביותר היא להתבונן במערכות בחירות קודמות ולברור מתוכן מסקנות עקביות שיעזרו לנו בניבוי הבחירות בעתיד. חשוב לציין כי יש לנקוט משנה זהירות בגישה זו כדי להימנע מהתאמת-יתר (overfitting) של המודל הססטיסטי (כפי שאמר פעם ג'ון פ. קנדי: "שינוי הוא חוק החיים. המביטים לעבר או בהווה בלבד, לבטח יחמיצו את העתיד.").
לאחר שכיילנו את המודל וקיבענו את הנחותיו השונות לקראת הבחירות הקרובות, פנינו לבדוק את מידת הצלחתו של אותו מודל בדיוק המשמש אותנו בתחזית לבחירות 2013 בניבוי בדיעבד של מערכות הבחירות הקודמות. נתאר כאן את קורות בחירות 2006 ובקרוב נפרסם תיאור נפרד עבור בחירות 2009.
אם כן, חמושים במסד נתונים מפורט של סקרי בחירות מ-2006, התחלנו להריץ את תחזית בטל בשישים כחודשיים לפני הבחירות. בהסתכלות לאחור על גרף הגושים, כבר מההתחלה ניכר היה כי אף גוש לא יחצה את רף 61 המנדטים:
לאורך השבועות הראשונים גוש הימין עלה בהדרגה, בעיקר על חשבון גוש המרכז שאיבד מכוחו בעקבות חילופי הגברי בראש מפלגת קדימה. כשלושה שבועות לפני הבחירות, התמונה בסקרים החלה להתייצב, וכפי שניתן לראות מהטבלה הבאה, ממוצע הסקרים של השבוע האחרון לא היה רחוק בהרבה מתוצאות האמת (תחזית בטל בשישים מצידה חזתה במדויק את גדלי הגושים, כפי שנראה להלן).
תחזית המפלגות של הסקרים השונים, לעומת זאת, היתה תנודתית בהרבה וכללה טעויות רבות, חלקן קטנות (ש"ס, למשל, נובאה בחסר; קריסתו של הליכוד לא נובאה במלואה וכו') וחלקן גדולות - לקדימה חזו הסקרים כ-35 מנדטים בממוצע, בעוד מפלגת הגמלאים כלל לא היתה צפויה לעבור את אחוז החסימה. בנוסף, למפלגות הערביות חזו הסקרים 30% פחות קולות משהתקבלו בפועל.
תחזית בטל בשישים היתה מדוייקת בהרבה מתוצאות הסקרים, כפי שניתן לראות מתמונת ההרכב בתחזית הסופית של בטל בשישים לכנסת ה-17:
לעומת תוצאות האמת:
העיגולים הירוקים בגרף מייצגים את הסקרים השונים, כאשר תחזית בטל בשישים מופיעה בכחול ותוצאות האמת מסומנות בצהוב. הציר האופקי מציין את המרחק במנדטים בין תוצאות הסקר הנוכחי לסקר הקודם של אותו סוקר ואילו הציר האנכי מודד את המרחק במנדטים בין תחזית הסקר לגדלי הגושים ובין תוצאות האמת.
ניתן לראות שתחזית בטל בשישים אכן עמדה במשימה - היא אמינה יותר מכל סקר בודד ואף מממוצע הסקרים והיא יציבה בהרבה מתוצאות הסוקרים השונים.
כיצד הצליח המודל הסטטיסטי בבסיסו של בטל בשישים לחזות את עליית הגמלאים על חשבון מפלגת קדימה? מדוע הטעויות עבור המפלגות הערביות והחרדיות היו קטנות בהרבה?
התשובה טמונה בהנחות הבייסיאניות של המודל, בזכותן השכיל להגיע לתוצאות טובות אף יותר מממוצע הסקרים האחרונים לפני הבחירות. לדוגמא, המודל מביא בחשבון את אחוזי ההצבעה השונים האופיינים לאוכלוסיות שונות (בראשן הציבור החרדי) ואת הקושי של הסוקרים לנפק תמונה מדוייקת של נטיות ההצבעה בקרב הציבור הערבי.
דוגמא נוספת היא תחזית המגמות של המודל. רוב הסקרים בארץ מתפרסמים בסוף השבוע ומהסתכלות רוחבית על התוצאות בהשוואה לאלו של השבוע הקודם, ניתן להסיק מסקנות לגבי המגמות המסתמנות ובכך לשפר את התחזית עבור השבוע שלאחר מכן. יכולת זו חשובה מאוד בשבוע שלפני הבחירות, אז המגמות מתחדדות ומתחזקות במיוחד.
בהקשר זה, מעתה נציג באתר בנוסף לתחזית בטל בשישים ליום הבחירות את תמונת הבחירות לו היו מתקיימות היום (ניתן לראותה בלחיצה על הלינק מתחת לגרף) על מנת שניתן יהיה לעקוב בנקל אחרי השינויים בדעת הקהל.
בשביל להעריך את המשמעות של ההצלחה ב2006 צריך לדעת באיזה מידה אימנתם את המודל לפי בחירות 2006, או תכננתם את ההנחות שלכם לפי מציאות שהשתקפה ב2006.
השבמחקהי יובל,
מחקודאי, אתה צודק לחלוטין. כדי להימנע מ-overfitting ומכיוון שאין לנו נתונים מהמון מערכות בחירות, השתדלנו לקבוע סט מצומצם מאוד של הנחות ולא לאמן את הפרמטרים לפי מערכות בחירות מסוימות, אחרת היינו חופרים לעצמנו קבר בהסתכלות קדימה.
בהחלט ייתכן שנבקיע גול עצמי בהנחה מסויימת, למשל שאחוז ההצבעה בקרב הציבור החרדי נוטה להיות גבוה מהציבור הכללי, אבל בהינתן המורכבות של התחזית (בשל ריבוי המפלגות), ניתוח-על פשוט עלול להחמיץ את התמונה האמיתית.
בהמשך השבוע תוכל להתרשם מהתוצאות של אותו מודל (עם אותן הנחות בדיוק) ב-2009, שבמובנים רבים היתה שונה מאוד מ-2006.
היה הרבה יותר נוח לקרוא את התוצאות אם הייתם מקפידים על שמות לציר הX והY וכותרות לגרפים.
השבמחקהסברים מפורטים יותר בטקסט.
אבל גרף בלי שמות צירים הוא לא גרף שניתן להבין.
מעניין מאוד.
השבמחקמה נותן לי הנתון של מה יקרה אם הבחירות יקרו היום?
למה לבני רשומה כשמאל? זו לא בעצם תנועת מרכז עם שאריות קדימה?
מה לגבי עלה ירוק או ארץ חדשה? האם הם מגרדים את אחוז החסימה?
תודה.
תודה על ההערות.
מחקלגבי התנועה, כללנו אותה בגוש השמאל מפני שהיא העמידה במפורש מועמדת משלה לראשות הממשלה ואנחנו מאמינים שהצגה כזו של הגושים נותנת את התמונה הטובה ביותר לקראת הניסיונות שיגיעו להרכבת קואליציה. אין ספק שזו בחירה שרירותית, אבל הנתונים כולם מוצגים באתר וניתן להרכיב כל גוש שרוצים בעזרתם.
אנחנו גם מתייחסים להרכבים שונים של מפלגות (כולל הרכבים חוצי-גושים) בטבלת ההסתברויות מימין.
לגבי ארץ חדשה ועלה ירוק כמו גם מפלגות אחרות, אם אין נתונים לגביהן בסקרים, אין לנו אפשרות להעריך מה יעלה בגורלן. אם לקראת הבחירות הן תחלנה לגרד את אחוז החסימה בתוצאות הסקרים המתפרסמות (כרגע זה לא המצב), המודל שלנו בהחלט ייתן לכך מענה, כפי שקרה בניתוח של בחירות 2006 עבור מפלגת הגמלאים.
"הסיכוי שניתן יהיה להרכיב ממשלת ימין-מרכז ללא חרדים:
השבמחקהליכוד-ביתנו + הבית היהודי + יש עתיד: 7.3%"
תוכלו להסביר בבקשה למה לא הרכבתם את התנועה של ציפי לבני לממשלה הנל ?
כי לבני לא תצטרף לממשלה עם בנט.
מחק(מה גם שביבי לא יוותר לעולם על ש"ס).