ניתוח התנהגות וסינון שיתופי

רשומת המשך בסדרה "מכונות חושבות ואינטרנט"

בפוסט הנוכחי אני רוצה להדגים כמה יישומים של הממשק בין כריית מידע לאינטרנט.

אמזון היא חברת אינטרנט מאוד מעניינת. בדרך כלל כשחושבים על אמזון מדברים על הפן המסחרי והתפעולי של ענקית קמעונאות מקוונת, אבל אמזון היא גם חלוצה ומובילה בשימוש בכריית מידע (בנוסף היא גם ספקית מובילה בתחום מחשוב ענן. נדבר על זה בפעם אחרת).

כל מי שנהג להשתמש באמזון מכיר את התופעה שאחרי כמה פעמים מתחילים לקבל המלצות (באתר או במיל) על מוצרים שיכולים לעניין אותנו. ההמלצות לפעמים נראות טריוויאליות (למשל אם חיפשתי ספר על scala ימליצו לי על ספרי scala נוספים) ולפעמים מצליחות להפתיע באופן שלא ברור איך ידעו להמליץ לי דווקא על מוצר מסוים. היכולות האלה נפוצות היום אבל אמזון הייתה די חלוצה בתחום וזה בעצם מה שהפך את האתר שלה מקטלוג מוצרים משעמם למשהו שמצליח לתת חווית קניה.

כדי להגיע ליכולת הזאת אמזון קודם כל אוספת נתונים בקנאות – לא רק על מה שקניתם אלא כל מוצר שהסתכלתם עליו, כל חיפוש וכו'. כך לאט לאט ניתן לבנות מעין קוד גנטי שמייצג את הפעילות שלכם ואת העדפותיכם. מהמידע הזה ניתן ללמוד הרבה מעבר למה רכשתם. למשל, האם אתם קונים מתנות לקראת חג המולד? אולי לקראת ראש השנה היהודי? כל המידע הזה משמש כבסיס להמלצות שאמורות לפגוע גם בתוכן אבל גם בתזמון.

כדי להמליץ על ספרים או מוצרים השיטה הפשוטה ביותר היא להמליץ על מוצרים דומים מאותה קטגוריה (או בשלב הקניה – מוצרים משלימים) אבל באמזון יש עוד המלצה מעניינת "אנשים שהתעניינו במוצר X  התעניינו גם במוצר Y"). מה שיפה בישום הזה הוא שהוא לא צריך לדעת כלום על התוכן של המוצר, אלא רק מצליב אנשים בעלי התנהגות דומה. זה גם מאפשר לתת את ההמלצות המפתיעות והבלתי צפויות.

לטכניקה הזו קוראים סינון שיתופי, והיא מאפשרת דברים מאוד מעניינים. למעשה ניתן לעבור מרמת המאפיין הבודד (מי שקנה את X קנה גם את Y) לבנייה של מיפוי התנהגותי מלא ולאחר מכן לחזות התנהגות והעדפות של אדם לפי אנשים הדומים לו. כלומר, לא לבחון רק את הספר שאתם קונים כרגע, אלא כל מה שרכשתם בעבר, מתנות שקניתם לילדים וכו'. למעשה אם השתמשתם פעם בשירות מוסיקה כמו פנדורה – זו אחת הטכניקות שלפיה לומדים את הטעם שלכם ומנגנים לכם שירים לפי טעמכם.

אחת הדוגמאות המפורסמות בתחום היא האתגר של חברת השכרת סרטי הוידאו נטפליקס:  http://www.netflixprize.com

הם חיפשו אלגוריתם שיוכל לחזות ציון שיתנו צופים לסרט, על פי ציונים שהם נתנו לסרטים בעבר, כל זאת בלי לדעת דבר על התוכן של הסרטים, כלומר רק בהתבסס על הצלבה של הטעם שלהם עם טעם של אנשים אחרים. האתגר הזה היה פתח לציבור יחד עם בסיס הנתונים שלהם ופרס של מיליון דולר, והאלגוריתמים הטובים הצליחו להגיע לרמת דיוק של 90%~! כלומר אלגוריתם ממוחשב יודע לתת המלצות יותר מדויקות מכל חבר, מהמוכר בספריית הוידאו (פעם היה דבר כזה) ואפילו יותר מדויק מסרטים שתבחרו בעצמכם.

הפוסט קצת התארך אז אני מפסיק כאן ואמשיך בפוסט הבא

מחשבה אחת על “ניתוח התנהגות וסינון שיתופי

כתיבת תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת / לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת / לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת / לשנות )

תמונת גוגל פלוס

אתה מגיב באמצעות חשבון Google+ שלך. לצאת מהמערכת / לשנות )

מתחבר ל-%s