(עוד) דברים שאפשר ללמוד ממנועי חיפוש

רשומת המשך בסדרה על "מכונות חושבות ואינטרנט"

עכבישים, זחלנים ורובוטים – ממלכת החיות של האינטרנט

השלב הראשון בבניית אינדקס הוא בנית היכולת לעבור על כל המאגר ולהכניס את הרכיבים שלו לאינדקס. בבניית מנוע חיפוש אינטרנטי הבעיה הזו הופכת לקשה יותר בגלל סדר הגודל. בכל זאת מנועי החיפוש (גוגל, בינג וכו') מצליחים להוסיף מסמכים לאינדקס זמן קצר לאחר הפרסום שלהם. למעשה, גוגל מבצעים סריקה "רדודה" של האינטרנט במלואו בכל 6 שעות!.

הכלים שעושים את זה הם רובוטים שנקראים "זחלנים" או "עכבישים"  והם למעשה פיסות קוד שיודעות להביא דף "שורש" מסוים, להביא את כל הלינקים שמופיעים בו וכן הלאה.

אני מזכיר את הנושא הזה בשביל להדגיש נקודה מעניינת – התפיסה האינטואיטיבית של האינטרנט היא מערכת שבצד אחד שלה יש מחשבים, ובצד השני אנשים שמבקשים דפים, מעלים תכנים ומתקשרים ביניהם. הדוגמא של הזחלנים ממחישה שהאינטרנט היא סביבה גועשת של פעילות רובוטית. מכונות אוטומטיות רצות ברחבי האינטרנט, שולפות תכנים, שותלות תכנים (למשל תגובות ממומנות אוטומטיות) מבצעות בדיקות שונות וכו'. למעשה פעם קראתי (לא הצלחתי לשחזר את המקור) שהחל משנת 2009 רוב הפעילות באינטרנט מתבצעת בין מחשבים, ומרגע שגבול כזה נחצה פעם אחת הפער רק הולך וגדל.  העובדה הזו ממחישה את הנפח שתופסים אלגוריתמים ופעילות ממוחשבת מסך הפעילות שמתרחשת כל יום.

בין בינה מלאכותית וכלים תומכי החלטה

הזכרתי כבר את המחשב ווטסון של IBM שהביס במשחק טריויה כל שחקן שעמד מולו. זה הישג טכנולוגי מדהים. חברות רבות ניסו להשיג יכולות דומות, למשל חברה בשם powerset פיתחה מנוע שמסוגל לענות על כל שאלה שמוזנת אליו על ידי מציאת התשובה באינטרנט (החברה נרכשה על ידי מיקרוסופט והטכנולוגיה שולבה במנוע החיפוש בינג). לכאורה זו משימה הרבה יותר מתוחכמת מאשר לאחסן ערימה גדולה של מסמכים ולשלוף אותם לאחר מכן על ידי חיפוש בעזרת מילות מפתח. המשימה הראשונה דורשת פיתוח סוג של "הבנה" לגבי התוכן, בעוד שהשניה יכולה להיות מבוצעת בצורה מכנית בלבד. המשימה הראשונה מתקשרת בצורה יותר אנושית בעוד שהממשק של השניה הוא יותר טכני.

למעשה, מבחינת המשתמש ההבדל הוא לא כל כך משמעותי.  אני יכול לכתוב (בממשק הישן של powerset) "מי היה ראש הממשלה הראשון של מדינת ישראל" ולקבל את התשובה "דוד בן גוריון", לחלופין אני יכול לכתוב "ראש ממשלה ראשון ישראל" בגוגל ולהיות מוצף בתוצאות שכולן ילמדו אותי (כבר בדף התוצאות) שזה היה דוד בן גוריון.

הנקודה שאני מנסה להבהיר היא שיש רצף בין עיבוד נתונים, כלים תומכי החלטה ובינה מלאכותית ישומית. מנוע חיפוש הוא מימוש טוב של כרטסת שהייתה לכל ספרנית בשנות החמישים, אבל הכמות הופכת לאיכות, ומנועי חיפוש באינטרנט הפכו לכלים שיודעים לענות על כל שאלה כמעט. אנו נרגיש לא בנוח עם מחשב שמחליף רופא (או חייל), אבל נקבל בקלות יחסית מחשב מסייע שמציע להם במהירות מס' אפשרויות ומשאיר בידיהם את הבחירה הסופית. המשמעות היא שגם אם אין לנו יכולת מלאה לתת למחשב לפתור עבורנו בעיות, אנחנו יכולים להפיק תועלת רבה מהיכולת לסרוק במהירות כמות מידע עצומה (שחלקה הגדול יכול להיות לא רלוונטי), לסכם נתונים, למצוא נתונים דומים או לספק תשובות בעזרת כללי אצבע שמדייקים רק ב80% (שיחד עם כמות מקורות גדולה מקרבים אותנו לתשובה מדויקת בעזרת חוק המספרים הגדולים).

הפוסט הבא והאחרון בנושא יעסוק בניתוח סנטימנט – נושא שמשלב כמה מהנושאים שהוזכרו בסדרה.

כתיבת תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת / לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת / לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת / לשנות )

תמונת גוגל פלוס

אתה מגיב באמצעות חשבון Google+ שלך. לצאת מהמערכת / לשנות )

מתחבר ל-%s