מודל השפה הגדול (LLM) יכול לכתוב מאמרים משכנעים המבוססים על מילים מהירות, לעבור מבחני מיומנות מקצועית ולכתוב מידע ידידותי למטופל ואמפתי. עם זאת, בנוסף לסיכונים הידועים של בדיה, שבריריות ועובדות לא מדויקות ב-LLM, סוגיות לא פתורות אחרות הופכות בהדרגה למוקד, כגון מודלים של בינה מלאכותית המכילים "ערכים אנושיים" מפלים פוטנציאליים ביצירתם ובשימושם, וגם אם LLM כבר לא מפברק תוכן ומבטל תוצאות פלט מזיקות בבירור, "ערכי LLM" עדיין עשויים לסטות מערכים אנושיים.
דוגמאות רבות ממחישות כיצד הנתונים המשמשים לאימון מודלים של בינה מלאכותית מקודדים ערכים אישיים וחברתיים, אשר עשויים להתגבש בתוך המודל. דוגמאות אלו כוללות מגוון יישומים, כולל פירוש אוטומטי של צילומי רנטגן של בית החזה, סיווג מחלות עור וקבלת החלטות אלגוריתמית בנוגע להקצאת משאבים רפואיים. כפי שצוין במאמר שפורסם לאחרונה בכתב העת שלנו, נתוני אימון מוטים עשויים להגביר ולחשוף את הערכים וההטיות הקיימים בחברה. להיפך, מחקרים הראו גם שניתן להשתמש בבינה מלאכותית כדי להפחית הטיה. לדוגמה, חוקרים יישמו מודלים של למידה עמוקה על צילומי רנטגן של הברך וגילו גורמים שהוחמצו על ידי מדדי חומרה סטנדרטיים (שדורגו על ידי רדיולוגים) בתוך מפרק הברך, ובכך הפחיתו הבדלי כאב בלתי מוסברים בין חולים שחורים ללבנים.
למרות שיותר ויותר אנשים מבינים את ההטיה במודלים של בינה מלאכותית, במיוחד מבחינת נתוני אימון, נקודות כניסה רבות אחרות של ערכים אנושיים אינן זוכות לתשומת לב מספקת בתהליך הפיתוח והפריסה של מודלים של בינה מלאכותית. בינה מלאכותית רפואית השיגה לאחרונה תוצאות מרשימות, אך במידה רבה, היא לא התחשבה במפורש בערכים אנושיים ובאינטראקציה שלהם עם הערכת סיכונים והיגיון הסתברותי, וגם לא עוצבה על יד מודל.
כדי להמחיש את המושגים המופשטים הללו, דמיינו שאתם אנדוקרינולוג הנדרש לרשום הורמון גדילה אנושי רקומביננטי לילד בן 8 הנמצא מתחת לאחוזון השלישי בגילו. רמת הורמון הגדילה האנושי המגורה של הילד נמוכה מ-2 ננוגרם/מ"ל (ערך ייחוס, >10 ננוגרם/מ"ל, ערך ייחוס עבור מדינות רבות מחוץ לארצות הברית הוא >7 ננוגרם/מ"ל), והגן המקודד להורמון גדילה האנושי שלו זוהה מוטציות נדירות של אי-אקטיבציה. אנו מאמינים כי היישום של טיפול בהורמון גדילה אנושי הוא ברור ובלתי ניתן לערעור במסגרת קלינית זו.
יישום טיפול בהורמון גדילה אנושי בתרחישים הבאים עלול לעורר מחלוקת: גובהו של ילד בן 14 היה תמיד באחוזון ה-10 של בני גילו, ושיא הורמון הגדילה האנושי לאחר גירוי הוא 8 ננוגרם/מ"ל. אין מוטציות תפקודיות ידועות שיכולות להשפיע על הגובה, וגם לא סיבות ידועות אחרות לקומה נמוכה, וגיל העצמות שלו הוא 15 שנים (כלומר, ללא עיכוב התפתחותי). רק חלק מהמחלוקת נובע מהבדלים בערכי הסף שנקבעו על ידי מומחים על סמך עשרות מחקרים בנוגע לרמות הורמון גדילה אנושי המשמשות לאבחון חסר בודד בהורמון גדילה. לפחות אותה מחלוקת נובעת ממאזן הסיכון-תועלת של שימוש בטיפול בהורמון גדילה אנושי מנקודת מבטם של מטופלים, הורי מטופלים, אנשי מקצוע בתחום הבריאות, חברות תרופות ומשלמים. אנדוקרינולוגים ילדים עשויים לשקול את תופעות הלוואי הנדירות של זריקות יומיות של הורמון גדילה במשך שנתיים עם ההסתברות לצמיחה כלל או מינימלית בלבד בגודל הגוף הבוגר בהשוואה להווה. בנים עשויים להאמין שגם אם גובהם עשוי לעלות רק ב-2 ס"מ, כדאי להזריק הורמון גדילה, אך המשלם וחברת התרופות עשויים להחזיק בדעות שונות.
אנו ניקח כדוגמה את קצב הסינון הגלומרולרי (eGFR) המבוסס על קריאטינין, שהוא מדד תפקוד כלייתי נפוץ לאבחון ודירוג מחלת כליות כרונית, קביעת תנאי השתלה או תרומת כליה, וקביעת קריטריונים להפחתה והתוויות נגד עבור תרופות מרשם רבות. EGFR היא משוואת רגרסיה פשוטה המשמשת להערכת קצב הסינון הגלומרולרי הנמדד (mGFR), שהוא סטנדרט ייחוס, אך שיטת ההערכה מסורבלת יחסית. משוואת רגרסיה זו אינה יכולה להיחשב כמודל בינה מלאכותית, אך היא ממחישה עקרונות רבים לגבי ערכים אנושיים והיגיון הסתברותי.
נקודת הכניסה הראשונה עבור ערכים אנושיים לכניסה למודל eGFR היא בעת בחירת נתונים להתאמת משוואות. התור המקורי ששימש לעיצוב נוסחת eGFR מורכב ברובו ממשתתפים שחורים ולבנים, וישימותו על קבוצות אתניות רבות אחרות אינה ברורה. נקודות הכניסה הבאות עבור ערכים אנושיים לנוסחה זו כוללות: בחירת דיוק mGFR כמטרה העיקרית להערכת תפקוד הכליות, מהי רמת דיוק מקובלת, כיצד למדוד דיוק, ושימוש ב-eGFR כסף להפעלת קבלת החלטות קליניות (כגון קביעת תנאים להשתלת כליה או מרשם תרופות). לבסוף, בעת בחירת תוכן מודל הקלט, גם ערכים אנושיים ייכנסו לנוסחה זו.
לדוגמה, לפני 2021, ההנחיות מציעות להתאים את רמות הקריאטינין בנוסחת eGFR בהתבסס על גיל, מין וגזע המטופל (מסווגים רק כאנשים שחורים או לא שחורים). ההתאמה המבוססת על גזע נועדה לשפר את הדיוק של נוסחת mGFR, אך בשנת 2020, בתי חולים גדולים החלו להטיל ספק בשימוש ב-eGFR המבוסס על גזע, תוך ציון סיבות כגון עיכוב זכאות המטופל להשתלה ויצירת מושג ביולוגי של גזע. מחקרים הראו כי תכנון מודלים של eGFR במונחים של גזע יכולות להיות בעלות השפעות עמוקות ומשתנות על הדיוק והתוצאות הקליניות; לכן, התמקדות סלקטיבית בדיוק או התמקדות בחלק מהתוצאות משקפת שיפוטים ערכיים ועשויה להסתיר קבלת החלטות שקופה. לבסוף, קבוצת העבודה הלאומית הציעה נוסחה חדשה שהותאמה מבלי להתחשב בגזע כדי לאזן בין סוגיות של ביצועים והוגנות. דוגמה זו ממחישה כי אפילו לנוסחה קלינית פשוטה יש נקודות כניסה רבות לערכים אנושיים.
בהשוואה לנוסחאות קליניות עם מספר קטן בלבד של אינדיקטורים ניבוייים, מודל LLM עשוי להיות מורכב ממיליארדי עד מאות מיליארדי פרמטרים (משקלי מודל) או יותר, מה שמקשה על הבנתו. הסיבה שאנו אומרים "קשה להבנה" היא שברוב מודלי ה-LLM, לא ניתן למפות את הדרך המדויקת לעורר תגובות באמצעות שאלות. מספר הפרמטרים עבור GPT-4 טרם הוכרז; לקודמו GPT-3 היו 175 מיליארד פרמטרים. יותר פרמטרים לא בהכרח אומרים יכולות חזקות יותר, שכן מודלים קטנים יותר הכוללים יותר מחזורי חישוב (כגון סדרת המודלים LLaMA [Large Language Model Meta AI]) או מודלים המכווננים בקפידה על סמך משוב אנושי יבצעו ביצועים טובים יותר ממודלים גדולים יותר. לדוגמה, על פי מעריכים אנושיים, מודל InstrumentGPT (מודל עם 1.3 מיליארד פרמטרים) עולה על GPT-3 באופטימיזציה של תוצאות פלט המודל.
פרטי האימון הספציפיים של GPT-4 טרם נחשפו, אך פרטי מודלים מהדור הקודם, כולל GPT-3, InstrumentGPT, ותכניות LLM רבות אחרות בקוד פתוח, נחשפו. כיום, מודלים רבים של בינה מלאכותית מגיעים עם כרטיסי מודל; נתוני ההערכה והאבטחה של GPT-4 פורסמו בכרטיס מערכת דומה המסופק על ידי חברת יצירת המודלים OpenAI. ניתן לחלק את יצירת ה-LLM באופן גס לשני שלבים: שלב טרום האימון הראשוני ושלב הכוונון העדין שמטרתו לייעל את תוצאות הפלט של המודל. בשלב טרום האימון, המודל מקבל קורפוס גדול הכולל את הטקסט המקורי מהאינטרנט כדי לאמן אותו לחזות את המילה הבאה. תהליך "השלמה אוטומטית" פשוט לכאורה זה מייצר מודל יסודי רב עוצמה, אך הוא יכול גם להוביל להתנהגות מזיקה. ערכים אנושיים ייכנסו לשלב טרום האימון, כולל בחירת נתוני טרום אימון עבור GPT-4 והחלטה להסיר תוכן לא הולם כגון תוכן פורנוגרפי מנתוני טרום האימון. למרות מאמצים אלה, ייתכן שהמודל הבסיסי עדיין לא יהיה שימושי ולא מסוגל להכיל תוצאות פלט מזיקות. בשלב הבא של הכוונון העדין, יופיעו התנהגויות שימושיות ולא מזיקות רבות.
בשלב הכוונון העדין, התנהגותם של מודלים לשוניים משתנה לעיתים קרובות באופן עמוק באמצעות כוונון עדין בפיקוח ולמידת חיזוק המבוססת על משוב אנושי. בשלב הכוונון העדין בפיקוח, אנשי קבלן שכירים יכתבו דוגמאות תגובה למילות הנחיה ויאימנו את המודל ישירות. בשלב למידת החיזוק המבוססת על משוב אנושי, מעריכים אנושיים ימיינו את תוצאות הפלט של המודל כדוגמאות תוכן קלט. לאחר מכן, ישימו את תוצאות ההשוואה הנ"ל כדי ללמוד את "מודל התגמול" ולשפר עוד יותר את המודל באמצעות למידת חיזוק. מעורבות אנושית ברמה נמוכה ומרשימה יכולה לכוונן מודלים גדולים אלה. לדוגמה, מודל InstrumentGPT השתמש בצוות של כ-40 אנשי קבלן שגויסו מאתרי מיקור קהל ועבר מבחן סינון שמטרתו לבחור קבוצת מפרטים הרגישים להעדפות של קבוצות אוכלוסייה שונות.
כפי שמדגימות שתי דוגמאות קיצוניות אלה, דהיינו הנוסחה הקלינית הפשוטה [eGFR] וה-LLM רב העוצמה [GPT-4], קבלת החלטות אנושיות וערכים אנושיים ממלאים תפקיד חיוני בעיצוב תוצאות המודל. האם מודלים אלה של בינה מלאכותית יכולים ללכוד את הערכים המגוונים שלהם בקרב המטופלים והרופאים? כיצד ניתן להנחות בפומבי את יישום הבינה המלאכותית ברפואה? כפי שצוין להלן, בחינה מחודשת של ניתוח החלטות רפואיות עשויה לספק פתרון עקרוני לסוגיות אלה.
ניתוח החלטות רפואיות אינו מוכר לרבים מהרופאים, אך הוא יכול להבחין בין חשיבה הסתברותית (עבור תוצאות לא ודאיות הקשורות לקבלת החלטות, כגון האם לתת הורמון גדילה אנושי בתרחיש הקליני השנוי במחלוקת המוצג באיור 1) לבין גורמי שיקול (עבור ערכים סובייקטיביים המצורפים לתוצאות אלו, שערכם מכומת כ"תועלת", כגון ערך של עלייה של 2 ס"מ בגובה הגבר), ולספק פתרונות שיטתיים להחלטות רפואיות מורכבות. בניתוח החלטות, על הרופאים לקבוע תחילה את כל ההחלטות וההסתברויות האפשריות הקשורות לכל תוצאה, ולאחר מכן לשלב את התועלת של המטופל (או צד אחר) הקשורה לכל תוצאה כדי לבחור את האפשרות המתאימה ביותר. לכן, תוקפו של ניתוח החלטות תלוי בשאלה האם הגדרת התוצאה מקיפה, וכן האם מדידת התועלת והערכת ההסתברות מדויקות. באופן אידיאלי, גישה זו מסייעת להבטיח שההחלטות מבוססות על ראיות ותואמות להעדפות המטופל, ובכך מצמצמת את הפער בין נתונים אובייקטיביים לערכים אישיים. שיטה זו הוכנסה לתחום הרפואי לפני מספר עשורים ויושמה על קבלת החלטות של מטופלים בודדים והערכת בריאות האוכלוסייה, כגון מתן המלצות לבדיקות סקר לסרטן המעי הגס לאוכלוסייה הכללית.
בניתוח החלטות רפואיות, פותחו שיטות שונות להשגת תועלת. רוב השיטות המסורתיות שואבות ערך ישירות ממטופלים בודדים. השיטה הפשוטה ביותר היא להשתמש בסולם דירוג, שבו מטופלים מעריכים את רמת ההעדפה שלהם לתוצאה מסוימת בסולם דיגיטלי (כגון סולם ליניארי הנע בין 1 ל-10), כאשר תוצאות הבריאות הקיצוניות ביותר (כגון בריאות מלאה ומוות) ממוקמות בשני הקצוות. שיטת חילופי הזמן היא שיטה נפוצה נוספת. בשיטה זו, מטופלים צריכים לקבל החלטה לגבי כמה זמן בריא הם מוכנים להשקיע בתמורה לתקופה של בריאות לקויה. שיטת ההימורים הסטנדרטית היא שיטה נפוצה נוספת לקביעת תועלת. בשיטה זו, נשאלים המטופלים איזו משתי האפשרויות הם מעדיפים: או לחיות מספר מסוים של שנים בבריאות תקינה עם הסתברות ספציפית (p) (t), ולשאת בסיכון למוות עם הסתברות של 1-p; או לוודא שהם חיים במשך t שנים תחת תנאי בריאות צולבים. שאלו את המטופלים מספר פעמים בערכי p שונים עד שהם לא מראים העדפה לאף אפשרות, כך שניתן יהיה לחשב את התועלת על סמך תגובות המטופלים.
בנוסף לשיטות המשמשות לגילוי העדפות אישיות של מטופלים, פותחו גם שיטות להשגת תועלת עבור אוכלוסיית המטופלים. דיוני קבוצות מיקוד (המפגישים מטופלים כדי לדון בחוויות ספציפיות) יכולים לסייע בהבנת נקודות המבט שלהם. על מנת לאגד ביעילות את התועלת הקבוצתית, הוצעו טכניקות שונות של דיון קבוצתי מובנה.
בפועל, הכנסת התועלת הישירה בתהליך האבחון והטיפול הקליני גוזלת זמן רב. כפתרון, שאלוני סקר מחולקים בדרך כלל לאוכלוסיות שנבחרו באופן אקראי כדי לקבל ציוני תועלת ברמת האוכלוסייה. כמה דוגמאות כוללות את שאלון EuroQol ה-5-ממדי, הטופס המקוצר של משקל תועלת ה-6-ממדי, מדד התועלת הבריאותית וכלי שאלון איכות החיים Core 30 של הארגון האירופי למחקר וטיפול בסרטן.
זמן פרסום: 1 ביוני 2024




