חיים של פלסטינים: 8200 בונה מודל שפה ממיליארדי מילים בערבית

בצבא התקנאו ב-ChatGPT וכדי להדק את המעקב על פלסטינים החליטו להשתמש ב"כמויות פסיכיות" של מידע מודיעיני לבניית מודל שפה של ערבית מדוברת. "הפלסטינים הפכו לאובייקטים של מעבדה כדי להפוך AI לנשק", אומרים מומחים

מאת: יובל אברהם 5.3.2025

"בינה מלאכותית מגדילה כוח. היא מאפשרת שליטה על האוכלוסייה". מצלמת מעקב במזרח ירושלים (צילום: יונתן זינדל / פלאש90)

יחידת 8200 החלה לאמן מודל בינה מלאכותית חדש ועוצמתי, הדומה ל-ChatGPT, על בסיס כמויות גדולות של שיחות בערבית מדוברת של פלסטינים בשטחים – כך עולה מתחקיר של "שיחה מקומית" ו"הגרדיאן".

>> הצבא רצה בינה מלאכותית למלחמה, מיקרוסופט סיפקה לו

בעוד מודלי שפה גדולים בשוק האזרחי, כמו ChatGPT, אומנו על בסיס מיליארדי טקסטים פומביים שנלקחו מהאינטרנט, באנגלית ובשפות אחרות, הכלי החדש של 8200 – המוגדר כ"מודל שפה גדול" (LLM) – ניזון מ"כמויות פסיכיות" של מידע מודיעיני.

שלושה מקורות ביטחוניים עם ידע בנוגע לכלי החדש אמרו שמטרת המודל היא "לענות על שאלות" של אנשי מודיעין בכל נושא בנוגע לאנשים שהם עוקבים אחריהם, ובכך לסייע להם לעבד מידע במהירות. אחד מהם ציין שהמודל החדש מאומן על מאה מיליארד מילים בערבית מדוברת.

"חיפשנו ליצור דאטה-סט כמה שיותר גדול, לאסוף את כל הדאטה שיש למדינת ישראל בערבית אי פעם", הסביר שקד רוג'ר סיידוף, קצין מודיעין שהציג את עצמו כמוביל הפרויקט, בהרצאה פומבית בכנס בשנה שעברה.

.השימוש במידע, שנאסף גם דרך מעקב אחר אוכלוסייה אזרחית שחיה תחת משטר צבאי, מעורר בעיות אתיות קשות. "אנחנו מדברים על מידע אישי מאוד, שנלקח מאנשים שלא חשודים בפשע, כדי לאמן כלי שאחר כך יוכל לעזור לבסס חשד", אומר זאק קמפבל, חוקר טכנולוגיה בכיר בארגון Human Rights Watch.

"השאלה היא לא רק [פגיעה] בפרטיות, היא גם [שאלה של] כוח", אמר מקור מודיעיני שליווה פיתוח של מודלי שפה מקרוב באמ"ן בשנים האחרונות. "בינה מלאכותית מגדילה כוח. היא מאפשרת לפעול על מידע של הרבה יותר אנשים, וזה מאפשר שליטה על האוכלוסייה. זה לא רק פיגועי ירי. אני יכול לעקוב אחרי פעילי זכויות אדם, אחרי בנייה פלסטינית בשטחי C. יש לי יותר אמצעים לדעת מה כל בן אדם באיו"ש עושה. כשאתה אוחז בכל כך הרבה מידע, אתה יכול להפנות את זה לכל תכלית שאתה רוצה. ולצה"ל יש מעט מאוד עכבות בהקשר הזה".

פיתוח מודל השפה זה, על יסוד "כמויות פסיכיות" של מידע מודיעיני כאמור, ממשיך למעשה את המעקב הרחב אחר פלסטינים בשטחים הכבושים שישראל מבצעת במשך עשרות שנים. ב-2014 העידו חיילים ששירתו ביחידת 8200 כי עקבו אחר חפים מפשע שאינם קשורים לפעילות צבאית נגד ישראל, ובמסגרת המעקב אספו מידע שיכול לשמש לסחיטת אנשים – כמו מצב כלכלי קשה, נטיות מיניות או מחלה קשה שלהם או של בן משפחתם. כמו כן, העידו גם על מעקב אחר פעילים פוליטיים.

"אפשר לדעת על מה שמישהו בגדה עושה". חייל מצלם מפגין פלסטיני באל-מוע'ייר בגדה המערבית, דצמבר 2023 (צילום: אבישי מוהר / אקטיבסטילס)

"אפשר לדעת כל מה שמישהו עושה בגדה". חייל מצלם מפגין פלסטיני באל-מוע'ייר בגדה המערבית, דצמבר 2023 (צילום: אבישי מוהר / אקטיבסטילס)

כיום, עוד לפני הניסיון לפתח מודל נוסח ChatGPT של ערבית מדוברת, 8200 משתמשת במודלי שפה קטנים יותר, המאפשרים לסווג מידע, לתמלל שיחות ולחפש מילות מפתח ביעילות. מקורות במודיעין אמרו שהמעקב הרוחבי והשימוש במודלים אלו איפשר להגדיל באופן משמעותי את מספר המעצרים של פלסטינים בשטחים, ולהעמיק את השליטה באוכלוסייה. "עם התרחבות הכיסוי והתרחבות הנתונים, יש המון חשודים שהקשר שלהם לחשד הוא רופף ולפעמים גם מוטעה, אבל הם חשודים ויש עליהם חומר. אם מישהו ירצה לעצור אותם, יהיה לו תירוץ", טען מקור מודיעיני.

הבדל מהותי בין המודלים הקטנים יותר, שכבר נמצאים בשימוש, למודל הגדול המפותח עכשיו הוא שהמודל החדש עושה שימוש גם בשיחות יומיומיות ללא ערך מודיעיני. "מישהו שמתקשר למישהו, ואומר לו לצאת החוצה כי הוא מחכה לו מחוץ לבית ספר, זאת סתם שיחה, זה לא מעניין. אבל מבחינת מודל כזה – זה זהב, כי יש לי עוד ועוד דאטה שאני יכול לאמן עליו את המודל", אמר מקור ביטחוני. ל-8200 יש גישה למיליוני שיחות, והדבר חיוני לפיתוח המודל. "ערבית מדוברת זה דאטה שלא נמצא [כמעט] באינטרנט, אין תמלולים של שיחות, או שיחות ווטסאפ, באינטרנט. זה לא קיים בכמות שצריך בשביל לאמן מודל כזה", הסביר המקור.

8200 הפכה למומחית בתחום

לפי ההרצאה של סיידוף, תחילת העבודה על הפרויקט היתה בנובמבר 2022. מודל השפה של ChatGPTהונגש אז לראשונה לשימוש הציבור הרחב, ובמודיעין, סיפר סיידוף, הוקם צוות ייעודי במטרה לבחון כיצד ניתן לאמץ את הטכנולוגיה הגנרטיבית לשימושים מודיעיניים וצבאיים. "אמרנו וואו, ChatGPT, עכשיו נחליף את כל אנשי המודיעין באייג'נטים, וכל חמש דקות הם יקראו את כל המודיעין הישראלי ויגידו מי יהיה המחבל הבא", אמר סיידוף בהרצאה.

אבל היחידה לא הצליחה להתקדם כפי שרצתה. חברת OpenAI סירבה לבקשה של 8200 לקבל גישה ישירה למנוע השפה, ולייבא אותו אל תוך המערכת הפנימית והמנותקת מהאינטרנט של היחידה, ומודלים קיימים של חברות אחרות הצליחו לעבד מידע רק בערבית ספרותית ולא במדוברת.

נקודת המפנה קרתה עקב פרוץ המלחמה. מקורות סיפרו כי אחרי 7 באוקטובר, מומחים ישראלים "מהשורה הראשונה" למודלי שפה, שהגיעו בין השאר מהחברות מטא, גוגל ומיקרוסופט, התגייסו למילואים ב-8200 והשתתפו בפרויקט של פיתוח מודל שפה גדול ועצמאי. מקור ביטחוני שעסק בפרויקט סיפר שהמלחמה גרמה לכך שאנשי תעשייה עם ידע "שפשוט לא היה נגיש לפני זה, מעבר לקבוצה מאוד סגורה של חברות בעולם", הגיעו ליחידת 8200. הודות למומחים שהגיעו מהשוק האזרחי, סיפר מקור ביטחוני, 8200 הפכה למומחית בתחום, ורכשה בעשרות מיליוני דולרים חוות שרתים מתקדמות לטובת אימון מודל השפה.

ב-8200 ראו באנשי מיקרוסופט כמו חלק מהיחידה. המשרדים של מיקרוסופט בהרצליה (צילום: גיל יערי / פלאש90)

מומחים ישראלים, שהגיעו בין השאר ממטא, גוגל ומיקרוסופט, התגייסו למילואים ב-8200 והשתתפו בפרויקט. המשרדים של מיקרוסופט בהרצליה (צילום: גיל יערי / פלאש90)

אורי גושן, מנכ"ל חברת 21AI המתמחה במודלי שפה סיפר ל"שיחה מקומית" ו"הגרדיאן" כי עובדי החברה השתתפו בפרויקט. "גוף ביטחוני לא יכול לעבוד עם שירות כמו ChatGPT, ולכן נדרשת חשיבה איך מריצים AI בתוך מערכת מבודלת", הוא אמר.

גושן אמר שמודלי שפה גדולים כמו אלו יכולים לעזור לגופי ביון ליצור רשימות חשודים, לעבד מידע, ולהגיע לתשובות שמפוזרות בין כמה מקורות מידע במהירות. אך הכוח העיקרי שלהן הוא היכולת למצוא מידע לא באמצעות "כלי חיפוש פרימיטיביים", אלא פשוט "לשאול שאלות ולקבל תשובות". גושן מסביר, כי ניתן יהיה לשאול צ'טבוט מודיעיני האם שני אנשים אי פעם נפגשו או לברר בלחיצת כפתור אם בן אדם אי פעם עשה מעשה מסוים.

מודלי שפה גדולים הם כמו "מכונות ניחושים", והטעויות שלהן אינהרנטיות למערכת. "הניחושים יכולים לשמש להפליל אנשים", אמר קמפבל

צייץ

שתף

אולם גושן מזהיר כי הסתמכות עיוורת על מודלים כאלו עלולה להוביל לטעויות. "אלו מודלים הסתברותיים, אז אתה נותן להם איזושהי הוראה, או שאלה, והם יענו משהו שנראה כמו קסם. אבל הרבה פעמים אתה עלול לקבל תשובה שהיא לא הגיונית. מכנים את זה Hallucinations (הזיות)", הוא אמר.

גם קמפבל העלה חשש דומה. לדבריו, מודלי שפה גדולים הם כמו "מכונות ניחושים", והטעויות שלהן אינהרנטיות למערכת. המשתמשים בכלי הם לרוב אינם אלו שפיתחו אותו, הוסיף קמפבל, ומחקרים מראים שהם נוטים לסמוך עליו יותר. "בסופו של דבר הניחושים האלו יכולים לשמש כדי להפליל אנשים", הוא אמר.

נדים נאשף, מנהל ומייסד "חמלה", ארגון פלסטיני לזכויות דיגיטליות, מהדהד את החששות של קמפבל. "הפלסטינים הפכו לאוביקטים של המעבדה הישראלית לפיתוח הטכנולוגיות שהופכות AI לנשק", הוא אומר. "הכול כדי לשמר משטר אפרטהייד וכיבוש. נעשה שימוש בטכנולוגיות האלה כדי לשלוט בעם, לשלוט בחייהם. זו הפרה חמורה ומתמשכת של הזכויות הדיגיטליות של הפלסטינים, שהן גם זכויות אדם".

פעם ראשונה שנחשף שהצבא משמתמש באופן מסיבי ב-ChatGPT. צילום אילוסטרציה (צילום: pexels)

ל-8200 לא היתה את היכולת שפיתחו ב-ChatGPT. צילום אילוסטרציה (צילום: pexels)

שימוש "שאיננו מקובל"

יחידת 8200 היא לא היחידה שמנסה לפתח כלים של בינה מלאכותית גנרטיבית. ה-CIA האמריקאי פיתח כלי דומה ל-ChatGPT כדי לנתח מידע שנגיש באינטרנט, וגם גופי ביון בבריטניה מפתחים מודלי שפה גדולים משלהם. אבל אנשי ביטחון בריטים ואמריקאים לשעבר אמרו שקהילת המודיעין הישראלית לוקחת סיכונים גדולים יותר מהאמריקאים או הבריטים בכל הנוגע לשילוב של מערכות בינה מלאכותית בניתוח המודיעיני.

מנהל לשעבר בסוכנות ביון מערבית אמר שהאיסוף הנרחב של תוכן תקשורת של פלסטינים, מאפשר למודיעין הצבאי הישראלי להשתמש בבינה מלאכותית באופן "שאיננו מקובל" בסוכנויות ביון במדינות שיש בהן פיקוח הדוק יותר על השימוש באמצעי מעקב ועל הטיפול בדאטה רגיש של אנשים פרטיים.

בריאנה רוזן, אשת ביטחון לשעבר בבית הלבן וכיום חוקרת צבא וביטחון באוניברסיטת אוקספורד, אמרה שחוקר מודיעין שמשתמש בכלי כמו ChatGPT יכול "לזהות סכנות שבני אדם אולי פספסו לפני שהן קורות, אבל איך החוקר יודע אם [הכלי] מצא קשר שגוי או הגיע למסקנה לא נכונה?" לדבריה, חשוב שארגוני ביון יפקחו על הטכנולוגיה באופן משמעותי, ויבינו את ההיגיון שבבסיס החלטותיה.

אולי יעניין אותך

הבעייתיות בשימוש מבצעי במודלים המתבססים על בינה מלאכותית נחשפה, בין השאר, בתחקירים שפורסמו בשיחה מקומית ובמגזין 972+ בזמן המלחמה האחרונה בעזה. כך, לדוגמה, פורסם בתחקירים שהצבא השתמש בתוכנה בשם "לבנדר" כדי לייצר, באמצעות בינה מלאכותית, רשימה של עשרות אלפי פלסטינים החשודים בהשתייכות לארגונים כמו חמאס או ג'יהאד אסלאמי. לפי התחקיר, הרשימה הזו שימשה בסיס להתקפות על פעילים אלה בבתיהם, אף שהיה ידוע שהתוכנה טועה ב-10% מהמקרים. התחקיר חשף שקציני מודיעין אכן אישרו את ההתקפות על שמות שהופיעו ברשימה, אבל האישור היה בפעמים רבות שטחי מאוד ופעל כחותמת גומי. מרגע שהשמות הופיעו ברשימה, הם הפכו ליעד לתקיפה, והביקורת האנושית היתה מינימלית.

בפברואר השנה, דיווחה סוכנות הידיעות AP שבינה מלאכותית שאנשי מודיעין ישראלים השתמשו בה עזרה לבחור מטרה להתקפה אווירית בלבנון בנובמבר 2023 שהרגה ארבעה אנשים, מתוכם שלוש נערות. מסר שהגיעה לידי הסוכנות רמז שמטרת ההתקפה היתה מוטעית.

בגדה המערבית הצבא משתמש כבר היום במודלים של שפה הסורקים מידע רחב מאוד. מקור מודיעיני תיאר מודל שפה שכבר נמצא בשימוש, סורק מידע ומאתר פלסטינים המשתמשים במילים המעידות על "פורענות". אותו מקור השתמש במודל זה במצבים שבהם הצבא פלש לכפרים בגדה המערבית כדי "להפגין נוכחות". "הצבא בוחר רחוב, פורצים את כל הדלתות, ועוברים בית בית. קוראים [לזה] הפגנת נוכחות, לא התביישו בשם הזה. המטרה שלנו [במודיעין] היא להגיד אם מישהו מדבר [על כך] שהוא יוצא לזרוק אבנים על חיילים".

שוטרי מג"ב בתוך בית בג'נין, ב-23 בפברואר 2025 (צילום: חיים גולדברג / פלאש90)

"הצבא בוחר רחוב, פורצים את כל הדלתות, ועוברים בית בית. קוראים לזה הפגנת נוכחות, לא התביישו בשם הזה". שוטרי מג"ב בתוך בית בג'נין, ב-23 בפברואר 2025 (צילום: חיים גולדברג / פלאש90)

מקורות מודיעיניים הדגישו כי בכל הנוגע לגדה המערבית, הבעייתיות אינה בהכרח מידת הדיוק והטעויות, אלא ההיקף הרחב שמודלים כאלו מאפשרים: רשימות "החשודים" למעצר כל הזמן מתמלאות, מכיוון שנאגר מידע בהיקף אדיר שאפשר לעבד במהירות כל הזמן. כמה מקורות אמרו שמספיק "חשד כללי" ולעיתים מעורפל כדי לקיים מעצרים מנהליים ללא משפט של פלסטינים בשטחים. במציאות שבה המעקב רוחבי כל כך והסף למעצר כה נמוך, ניתן למצוא מידע מפליל שכזה על אנשים רבים.

מקורות ביטחוניים סיפרו כי מודלי שפה קיימים ביחידת 8200 מאפשרים לתמלל מידע בערבית, לתרגם אותו לעברית ולסנן אותו בצורה יעילה, כך שהחומר נגיש כיום בצורה מהירה וישירה יותר לחטיבות ולאוגדת איו"ש – שמבצעות את המעצרים בשטחים מדי לילה. כלומר מפקדים יכולים לגשת למידע המודיעיני הגולמי, שמתורגם לעברית ישירות, גם בלי לדעת ערבית בעצמם ובלי לעבור דרך מרכזי 8200, ולבחור מתוך רשימה הולכת ומתארכת של חשודים למעצר בכל כפר. "לפעמים זה פשוט מפקד באוגדה שרוצה שלושים, או מאה מעצרים בחודש בגזרה שלו", אמר מקור.

מדובר צה"ל נמסר בתגובה כי צה”ל פועל במגוון שיטות וכלים מודיעיניים לאיתור ובלימת פעילות טרור של ארגונים עוינים במזרח התיכון. בשל רגישות המידע, לא ניתן לפרט על אמצעים ושיטות ספציפיים, כולל תהליכי עיבוד המידע. כל שימוש בכלים טכנולוגיים נעשה תוך תהליך קפדני בהובלת אנשי מקצוע, במטרה להבטיח דיוק מירבי של המידע המודיעיני.

מגוגל נמסר כי "יש לנו עובדים שעושים שירות מילואים במדינות שונות ברחבי העולם. העבודה שעובדים אלה עושים כאנשי מילואים אינה קשורה לגוגל". ממטא וממיקרוסופט לא נמסרה תגובה.

סבסטיאן בן דניאל תרם לתחקיר

בזמן שרבים כל כך בתקשורת הישראלית זנחו את תפקידם והתגייסו לשמש ככלי תעמולה, שיחה מקומית גאה להיות מי ששומרת באופן עקבי על אמות מידה עיתונאיות וערכיות. אנחנו גאות וגאים להיות כלי התקשורת היחיד בעברית שמביא קולות מעזה באופן עקבי, ושחושף שוב ושוב את המנגנונים מאחורי מדיניות הלחימה הישראלית. התפקיד שלנו בשדה התקשורת הישראלית הוא חשוב וייחודי, ונוכל להמשיך למלא אותו רק בעזרתך. הצטרפות לחברות שיחה מקומית, על ידי תרומה חודשית קבועה בכל סכום, תסייע לנו להמשיך ולחשוף את המציאות. התרומות מקהל הקוראות והקוראים לא רק מסייעות לנו כלכלית, הן גם עוזרות לנו להבין שיש מי שעומדים מאחורינו, ושעבודתנו חשובה להם.

לתמיכה בשיחה מקומית