OpenAI השיקה את ChatGPT Images 2.0, הדור החדש של מודל יצירת התמונות שלה. המודל מסמן שינוי תפיסתי עמוק: במקום כלי שמייצר ויז'ואל בלבד, מדובר במערכת שמבינה, מנתחת ואף "חושבת" לפני שהיא מציגה את התוצאה הסופית.
עד לפני שנתיים ניתן היה לזהות תמונות שנוצרו בבינה מלאכותית בקלות יחסית, בעיקר בגלל טקסטים משובשים ופרטים קטנים שלא עבדו. הסיבה הייתה טכנולוגית: מחוללי תמונות כמו DALL-E עבדו בשיטה שנקראת diffusion, שבה התמונה נבנית בהדרגה מתוך רעש. אזורים קטנים כמו אותיות קיבלו פחות תשומת לב ולכן איכותם נפגעה. המודל החדש מציג שיפור דרמטי בדיוק, עד כדי יצירת טקסטים ברורים ומדויקים בתוך תמונות, גם בשפות מורכבות כמו יפנית, קוריאנית והינדית. בעברית, עם זאת, המערכת עדיין מקרטעת ויוצרת טעויות.
אחד החידושים המרכזיים הוא מצב פעולה המכונה Thinking, הזמין למנויי Plus, Pro ו-Enterprise. במצב זה המודל פועל לאט יותר אבל באופן מדויק ומעמיק יותר. הוא מבצע מחקר בזמן אמת דרך האינטרנט, מתכנן את מבנה התמונה ואף בודק את עצמו לפני שמציג את התוצאה. המשמעות היא שהמערכת לא רק "מציירת" אלא פועלת כסוכן מבוסס ניתוח והסקת מסקנות.
OpenAI לא חשפה באופן מלא את המנגנון המדויק שמפעיל את המודל, אבל רמזה לשילוב של יכולות חשיבה הדומות למודלים שפתיים. המערכת מסוגלת ליצור עד שמונה תמונות שונות מאותה הנחיה, לשמור על עקביות של דמויות, סגנון ואובייקטים בין פריימים שונים, ולהפיק תוצרים כמו קומיקס מרובה תמונות או סטורי בורד שלם מתוך הנחיה אחת.
איכות התמונה עצמה עלתה לרזולוציה של עד 2K, עם יכולת להתמודד עם קומפוזיציות מורכבות, פרטים קטנים ואילוצים סגנוניים עדינים. המשתמש יכול להנחות את המודל בצורה מפורטת ולקבל תוצאה שמכבדת את ההנחיות במידה גבוהה בהרבה מהעבר. מדובר בשיפור לא רק ברמת הדיוק אלא גם ברמת השליטה.
היכולות החדשות משנות את האופן שבו אנשי מקצוע יכולים לעבוד. במקום להיעזר בכמה כלים שונים לעיצוב, כתיבה ועריכה, ניתן לייצר קמפיין שלם מתוך הנחיה אחת. המודל יודע ליצור גרסאות שונות לאותו תוכן, להתאים גדלים לפלטפורמות שונות ולהפיק תוצרים מוכנים לשימוש ברשתות חברתיות, אתרי אינטרנט או אפליקציות, מפרסומות ועד תפריטי מסעדות.
המודל החדש אינו נטול מגבלות. גם בגרסה זו יש קשיים, בעיקר במשימות שדורשות הבנה פיזיקלית מדויקת של העולם, כמו קיפול אוריגמי או ייצוגים מורכבים של אובייקטים תלת ממדיים. עריכות חוזרות של אותה תמונה לעיתים מובילות לשחיקה באיכות. בנוסף, יצירת תמונות מורכבות אינה מיידית ולעיתים נדרשות מספר דקות לקבלת תוצאה מלאה.
ההשקה מגיעה עם הכרזה רשמית על סגירת DALL-E 2 ו-DALL-E 3 בתאריך 12 במאי 2026. כל יישום או שירות שעושה שימוש במודלים אלו יידרש לעבור ל-gpt-image-2. בכך יהפוך Images 2.0 למודל המרכזי והיחיד של החברה בתחום יצירת תמונות.
ההשקה מגיעה על רקע תחרות גוברת בתחום. גוגל הובילה לאחרונה במדדי ביצועים עם מודלי Gemini, ו-OpenAI מתמודדת עם לחץ גובר מחברות טכנולוגיה נוספות שמשקיעות משאבים עצומים בפיתוח מודלים דומים. לפי החברה, Images 2.0 נועד להחזיר לה את היתרון, תוך שילוב יכולות חשיבה שמקרבות את תחום יצירת התמונות לעולם המודלים הלשוניים.
המעבר הרשמי מ-DALL-E ל-Images 2.0 צפוי להסתיים עד מאי 2026, כאשר המודל החדש יהפוך לסטנדרט היחיד של OpenAI בתחום יצירת תמונות בבינה מלאכותית.
תגובות
רגע, שקט פה מדי
דעתך חשובה - תהיו הראשונים להגיב על הכתבה