המודל ה"מסוכן מדי" של אנת'רופיק דלף - וזה ממש לא מחמיא לחברה

בתחילת אפריל השיקה אנת'רופיק בשקט את Claude Mythos, מודל AI שנחשב עוצמתי כל כך שהחברה החליטה לא לשחרר אותו לציבור. אז כמה מרגיע לגלות שהוא כבר הגיע לידיים לא מורשות - ממש ממש בקלות.

אז מה בעצם כל כך מסוכן ב-Mythos? זה לא עוד כלי שכותב קוד או מציע שיפורים. המודל הזה מסוגל לפרק מערכות שלמות, לזהות פרצות אבטחה מקצה לקצה באופן עצמאי, ולבנות תוכניות פעולה בהתאם. אנת'רופיק עצמה טענה שהמודל זיהה אלפי פרצות אבטחה, כולל פרצות Zero-Day ברמת חומרה גבוהה בכל מערכות ההפעלה והדפדפנים המובילים. הוא גם מצא פרצה בת 27 שנים ב-OpenBSD, ופרצות בקרנל של לינוקס שאפשרו השתלטות מלאה על מכונות.

כדי לשמור על הכוח הזה בשליטה, אנת'רופיק השיקה את Mythos דרך פרויקט ייעודי בשם Glasswing. הרעיון היה "גן סגור" שמגביל את יכולות המודל ומאפשר גישה אליו רק למספר מצומצם של שותפות אסטרטגיות. בחברה גם הצהירו שהם מנטרים ומשגיחים על כל הפעילות, ושאף גורם לא מורשה לא יוכל לגשת למודל. יפה מאוד.

אז איך הוא דלף? לא מדובר בפריצה מתוחכמת, לא בהנדסה חברתית מבריקה, ולא בנוזקה מיוחדת. לפי דיווח של בלומברג, כל מה שאותה קבוצה עשתה היה... לנחש את מיקום המודל בשרתים. זהו. ניחוש מושכל, אבל ניחוש.

איך בכל זאת הצליחו? השילוב היה פשוט: מצד אחד, מידע שדלף בפריצה ל-Mercor, חברה שמייצרת נתוני אימון למודלי AI, בתחילת החודש. מצד שני, אחד מחברי הקבוצה עבד בחברת קבלן חיצונית שבוחנת מודלים של אנת'רופיק, ולכן ידע פחות או יותר איפה לחפש. בשילוב הזה, הם מצאו את Mythos בקלילות מביכה.

החדשות הטובות? מי שהשיג גישה לא היה קבוצת האקרים עוינת. מדובר בקבוצת סקרנים מ-דיסקורד. 😅 כן, כזאת. אנת'רופיק עצמה כינתה אותם "קבוצה קטנה של משתמשים לא מורשים", ולפחות בשלב זה אין עדות לשימוש זדוני.

אבל הבעיה הגדולה יותר היא לא הדליפה עצמה - אלא שאנת'רופיק לא ידעה עליה בכלל עד שבלומברג דיווחה. החברה שהתיימרה לנטר כל גישה לא מורשית, לא ידעה שהמודל הרגיש שלה יצא מהשליטה. כל ההצהרות על אבטחה ופיקוח הוכחו כריקות.

זה גם לא מחמיא לתדמית שאנת'רופיק בנתה לעצמה. חלק ניכר מהמיתוג שלה מבוסס על האחריות - הם אלה שמקפידים על בטיחות, שמשחררים מודלים בזהירות, שמדברים תמיד על "AI בטוח". הדליפה הזאת סותרת בדיוק את הנרטיב הזה. ולפני ההכרזה הרשמית, גם קיומו של Mythos כבר לא נשמר בסוד.

השאלה שנשאלת ברשת בימים האחרונים היא הגיונית לחלוטין: למה לא השתמשו ב-Mythos עצמו כדי לאתר את הפרצה לפני שהיא קרתה?

בינתיים אנת'רופיק לא מסרה תגובה רשמית מפורטת על אופן הדליפה, ולא ברור אם יש שינויים מתוכננים לאופן ניהול הגישה ל-Mythos בעתיד.

המודל ה"מסוכן מדי" של אנת'רופיק דלף - וזה ממש לא מחמיא לחברה

תגובות

רגע, שקט פה מדי

חדשות שמכבדות את הזמן שלך