שלום, ברוכים הבאים לגליון 22!
אם העברית מבולגת, גירסת הדפדפן המסודרת יותר כאן.
הפעם, גליון פסח מיוחד: צפייה מודרכת.
אל תשכחו לספר חברים על הניוזלטר:
https://rotm.co.il
חג שמח
-מתי
בואו נדבר על הסרט “קדם-אימון ג’יפיטי 4.5” או כמו שאני מעדיף לקרוא לו, “חברים מספרים על הארבע וחצי” (יש לינק למטה למי שרוצה לצפות בכל השעה).
כמו שאר הסרטונים מסוגו, הוא קצת טכני מידי, וסובל מחוסר הכריזמה של הדוברים: מדעני נתונים מהטובים בתחומם בעולם, ומפקדם, סם אלטמן. אבל שווה להעניק יותר תשומת לב לשיחה הספציפית הזאת, בגלל הנושא שלה - גירסה 4.5 האומללה, צפיפות הרעיונות המורכבים שהיא דנה בהם, ולבסוף בזכות הדובר הימני, דן סלסם, שלא הכרתי עד היום, ועכשיו אני איכשהו מחבב במיוחד.
לפני כן, בואו ניזכר שניה מה זה הארבע וחצי הזה בדיוק.
לפני שנתיים, הוציאה OpenAI את GPT-4, ומיד התחילה לעבוד על הגירסה הבאה. באותם ימי קדם, כולם האמינו שאם נבנה מודל גדול יותר, עם יותר דאטה ובכלל יותר מהכל, הוא גם יהיה טוב וחכם יותר. וב-OpenAI ביקשו לבדוק אם זה באמת נכון, ותכננו שהגירסה החדשה תהיה “פי 10” בהכל.
אבל בזמן הרב שעבר מאז, התוודענו לסוג חדש של מודלי שפה, אלה שיודעים לחשוב ולהסיק ורק אז לתת תשובה. הסתבר שזו כנראה איסטרטגיה יעילה יותר להשתפר בסוג הבעיות שאנחנו מעדיפים. הרעם של 4.5 נגנב ממנו עוד לפני שנולד.
לפני חודשיים, כשיצא לבסוף אחרי שנתיים של עבודה מאומצת וזלילה של משאבי המחשוב של החברה, הסתבר שהמודל הגדול והיקר להחריד אמנם טוב יותר מקודמיו, אבל בדרך מעודנת בהרבה, ובטח לא מרגיש “פי 10” בהכל (חוץ מהמחיר למשתמשים שהוא דווקא יותר כמו “פי 30”, מה שמשקף את גודלו העצום).
בהודעות הרשמיות אמרה מיה גלייז, סמנכ”לית המחקר של החברה: “מה שמייחד את המודל הוא היכולת שלו להשתתף בשיחות חמות, אינטואיטיביות וזורמות באופן טבעי, והבנה טובה יותר של מה מתכוונים המשתמשים כשהם מבקשים משהו". הניו יורק טיימס כינה אותו “סוף העידן” (של מודלים שעונים מיד, בלי לתכנן ולחשוב על התשובה).
אז מה קרה פה?
לשם כך כינס אלטמן שלושה אנשי צוות להעלות זכרונות היישר מתוך מלחמת השוחות שהצוות ניהל בשנתיים שעברו. למי שמצוי בעניינים, מדובר בשיחה כנה ונדירה ממש. אחרי הכל, ישנם צוותים בודדים בעולם כולו שניהלו את התהליך חסר התקדים של אימון מודל בגודל כזה, וכל פירור מידע שהחברים משחררים הוא רב ערך.
כמו אחים לנשק, הם חולקים ביניהם חוויות מסמרות שיער (אם כי בואו, לא מסכנות חיים), ז’רגון ייחודי (ביטויים כמו Monorepo Loss, שרק שיחה אקראית עם מומחה גילתה לי את משמעותו), וצחוקים במקומות שלא ברור למה הם מצחיקים.
אנחנו כמובן מתעניינים ברעיונות הרחבים יותר, ולא בפירורים, ואת אלה מיטיב לספק דן, שיושב מימין. להבדיל מהאחרים, אמין ואלכס שמוזכרים ברשימת אנשי הצוות של 4.5 ראשונים ברשימת “המייסדים” המכובדת, דן אינו מוזכר כלל ברשימה, וקשה למצוא עליו הרבה מידע מעבר לרשימת הפרסומים שלו כ-PhD בוגר סטנפורד. מה הוא עושה שם?
כתבה בניו יורקר שנכתבה ע”י חבר ילדות, מתארת אותו: “הוא גבוה, כמעט מטר תשעים, ורזה להפליא, עם עור חיוור של אדם שבילה חלק ניכר מחייו בתוך מעבדה. היציבה שלו מצוינת, והוא ממצמץ רק לעתים רחוקות. הוא תואר על ידי אנשים רבים כ"אינטנסיבי".
בשיחה הוא לא מרבה בדיבור, ולעיתים אף מכבד את האחרים ומציע שהם יענו במקומו. אבל כשהוא כבר אומר משהו, כולם מקשיבים לו, מבסוטים. אז מה הוא אומר?
התובנה הראשית של החברים מהאימון הענק הוא שכח המיחשוב אינו החסם העיקרי שלנו יותר, אלא המיצוי של התובנות מתוך הדאטה.
מה פירוש? דן מסביר. אחרי שאספנו עבור המנוע את כל הדאטה שיכולנו למצוא - בספרים ובעיתונים ובאינטרנט, ואפילו דברים שנכתבו במיוחד רק בשבילו. כל מה שהמין האנושי פרסם אי פעם בכתיבה ובדיבור. והוא לומד ממנו את כל הדפוסים והתובנות שהוא יכול. “אבל יש מגבלה לעומק התובנות שהוא יכול לקבל מהנתונים”. בסופו של דבר אתה יכול להוסיף עוד ועוד מחשבים, אבל אין יותר נתונים ללמוד מהם! נגמר! והשלב הבא הוא למצוא דרך חדשה, משופרת להבין דברים מהערימות האלה.
ועם כל הכבוד למודלים המסיקים החדשים האלה, שיודעים לחשוב בזהירות ובשלבים, וכך לפתור סוגים מסויימים של בעיות, האימון המקדים (שממנו נוצר GPT 4.5) רוכש סוג מעודן יותר של אינטלגנציה, ולומד לדחוס את המידע.
רגע אחד. מה הכוונה לדחוס את המידע?
תראו מה יש לנו כאן. אני מציג לכם מליון פרטי מידע. אלף על אלף פיסקלים צבעוניים חסרי פשר. דאטה שאספתי מהיקום. האם תוכלו לאמר לי מה אתם רואים כאן?
אם עניתם “חתול”, ברכותי! אתם דוחסי מידע מעולים! ממליון פרטי מידע הורדתם את האינפורמציה שכאן לארבע אותיות בלבד. אם מישהו ישאל אתכם “מה, מה היה שם?” תוכלו להגיד לו “חתול”, ולא תזדקקו לדקלם חזרה את שמות כל הצבעים של מליון פיקסלים.
איך הצלחתם לדחוס בהצלחה כה מרשימה? זה כי אנחנו, בעלי המוח האנושי, מעולים במציאת הקשרים בין פרטי מידע. בהבנת העקרון המסדר של הדברים. בזיהוי דפוסים. והדבר הזה עם שתי “עיניים”, ועם “אוזניים” שהן “מחודדות”, ו “שפם” וכל השאר? נראה שזה בהחלט מצטרף לכדי הקונספט של “חתול”.
דרך אגב, כל הדחיסה הזו היא גם בעוכרינו לא פעם. היום, כשאנחנו מוצפים בכל כך הרבה מידע, אנחנו עדיין ממשיכים להתעקש למצוא עקרון מסדר בכל הכאוס הזה. אבל אהה.. פרטי המידע ממשיכים להתקיף אותנו במהירות בלתי נסבלת, והמשאבים שלנו לחישוב הדחיסה מוגבלים בסופו של דבר (לא כמו המחשבים שסאם אלטמן קונה עוד ועוד מהם). ואם פעם היה לנו זמן להבחין בין כמה גוונים של אפור, היום אנחנו נאלצים לחלק את הכל לשחור/לבן. שמאלני/ימני. אוהב/שונא. אין זמן לניואנסים עדינים יותר. אתם מרגישים את זה גם?
אבל נחזור לדן ומנוע השפה שלו. המנוע מתבונן בפרטי המידע הרבים ומוצא דרכים טובות יותר ויותר לדחוס אותם. הוא מבין את העקרון המסדר של היקום כולו דרך הדפוסים בשפה שהוא קורא. הוא מגלה קשרים עדינים. וסיבות. ואנלוגיות. ודברים. וככל שהוא מתקדם ולומד הוא מוצא דפוסים מוצלחים יותר וחוקיות בכל מקום.
בעצם, החבר GPT מנסה בכל כוחו לחפש את ההסבר הפשוט, הקצר, האלגנטי ביותר ליקום כולו (למעמיקים, דן משתמש במושג Solomonoff’s Induction כדי לתאר את האינטליגנציה האידיאלית).
והדברים החשובים ביותר, מסביר דן, היהלומים, מפוזרים רק פה ושם. בהתחלה אתה לומד דברים במהירות, מכל דבר שאתה קורא. אבל אחר כך, אולי רק באחד מכל 100 מסמכים שמצאת יש רעיון ממש טוב ללמוד אותו. ואחר כך כל אלף.
וזה אף פעם לא נגמר! תמיד יהיו עוד רעיונות ועקרונות לגלות אותם ביקום, אבל תצטרך לעבור על הרבה יותר ערימות של מידע עבורם, על זנב ארוך ואינסופי. ולכן, כדי להגיע לרמה הבאה של GPT נצטרך ללמוד לבחור עבורו בזהירות. להגדיל את יעילות הדאטה Data Efficiency.
אז איך הוא ה-GPT הזה ביחס אלינו, בני האנוש?
זה לא יאומן כמה אנחנו, אומר דן, עם כל החסרונות שלנו, עדיין עוקפים את הבינה המלאכותית בהרבה. בכמה? שואל סם? פי מאה אלף?
משהו כזה, אומר דן.
ואי פעם נגיע לרמה של מוח אנושי?
אנחנו משתפרים במהירות, והרבה אנשים עובדים על זה. כל אחד מוסיף פיסה קטנה, וביחד זה מצטרף לשיפור עצום. אבל כולם התעסקו בעיקר בצד של המחשוב, ולא היתה כזו התגייסות עד עכשיו לצד של יעילות המידע. ועכשיו כדאי לבדוק אם גם שם נצליח להשתפר ככה.
לא אמרתי, אבל בתחילת השיחה כל אחד מציג את עצמו. ודן אומר “אני דן, אני עובד על אלגוריתמים ויעילות דאטה”.
בהצלחה לדן החביב בהרפתקאה הגדולה של יעילות הנתונים, וחג שמח לכולם! נתראה בגליון הבא.
השיחה המלאה להנאתכם כאן:
תודה רבה!
סתם קוריוז, אם הסדרה Sevrence, לא הייתה קיימת, האם הם היו משתמשים בביטוי data refinement?