"מכונות חושבות" ואינטרנט

קצת על כריית מידע

בפוסט הקרוב אני מגדיר בצורה חופשית כמה מושגים מהעולם של כריית מידע, ובפוסט הבא נראה כמה יישומים של התחום הזה בעולם האינטרנט.

כריית מידע, data mining, הוא שם כללי לאוסף טכניקות שמפיקות מידע מתוך אוסף גדול של נתונים. המידע הזה יכול להצביע על דפוסים שקיימים במידע ואף לסייע בקבלת החלטות בנוגע לפריט מידע חדש.

הדוגמא הקלאסית הראשונה היא מערכת לדירוג אשראי. נחשוב על חברה שיש לה מאגר מידע היסטורי של הלוואות. לכל הלוואה קיימים מאפיינים רבים כגון פרטים דמוגרפיים של הלווה, סכום ההלוואה וכו' וכן המידע האם ההלוואה נפרעה או לא. החברה רוצה להפיק מהמאגר הזה קריטריון ברור שיקבע למי להעניק הלוואות. אלגוריתמים שונים של כריית מידע יכולים למצוא דפוסים מורכבים בתוך מאגר הנתונים שיכולים לנבא את יכולת ההחזר של ההלוואה, ומאפשרים לבנות מעין "מנוע החלטות" שיוכל לקבל פרטי הלוואה חדשה ולהחליט אם לאשר אותה או לא לפי פרופיל הסיכון שלה.

הדוגמא הנפוצה השנייה היא ניתוח של התנהגות קונים. מאגר המידע שכולל את הרכבי סל הקניות בסופר מסוים יכול לשמש כבסיס לחיפוש דפוסים מעניינים. למשל מן הסתם נגלה שקנייה של חיתולים תהיה מלווה לרוב בקנייה של מגבונים. באינפורמציה הזו אפשר להשתמש לטובת מבצעים, מניפולציות של מיקום מוצרים בחנות וכו'. אחת האנקדוטות המפורסמות בתחום היא שגילו שקנייה של חיתולים בשעות הלילה מלווה בדרך כלל בקניה של בירה (כנראה על ידי גברים שהבינו שאי אפשר לצאת, אבל גם לא לישון…). לאנקדוטה הזו יש חשיבות כיוון שהיא ממחישה שהיכולת להפעיל תהליך "עיוור" מסוגלת לזהות דפוסים שלא היו עולים במוחנו בתהליך יותר סטנדרטי של העלאת השערות ובדיקתן, כלומר היתרון הכמותי של המחשב הופך כאן ליתרון איכותי.

למידה ממוחשבת

האלגוריתמים שעומדים ביסוד היכולות האלה נוגעים בתחום שנקרא "למידה ממוחשבת". בתחום זה האלגוריתמים צוברים ידע ומשתפרים בעזרת הקלט שהם מטפלים בו. הדוגמאות שהבאתי ממחישות גם חלוקה חשובה לשתי קטגוריות: למידה מפוקחת ולמידה עצמאית.

הדוגמא הראשונה היא דוגמא ללמידה מפוקחת שכן נתנו לתוכנה מספר דוגמאות, וכל דוגמא שייכנו לקבוצה מסוימת (הלוואות שנפרעו או הלוואות שלא נפרעו). לאחר מספיק דוגמאות אנו מצפים מהתוכנה לפתח ידע שיאפשר לה לסווג דוגמאות חדשות באחת הקטגוריות.

הדוגמא השנייה היא דוגמא ללמידה עצמאית – לא אמרנו לתוכנה מה הציפיות שלנו, אלא זרקנו את האינפורמציה פנימה וחיכינו שיעלו דברים מעניינים.

כריית טקסט

בשתי הדוגמאות מנתחים למעשה מאגר גדול של סט מאפיינים (למשל בדוגמא 2 סט המאפיינים הוא רשימת הפריטים שנקנו, שעת הקניה, מיקום הסניף וכו'). באופן דומה ניתן לנתח מאגר מסמכים, כאשר המילים הם המאפיינים שלנו (למעשה לא נשתמש במילים, אלא בצורת ייצוג שעוזרת לעקוף בעיות של הטיות, צורות ריבוי, סמיכות וכו'). כך, על ידי שילוב טכניקות של כריית מידע וניתוח שפה ניתן להפיק מידע שהמקור שלו הוא בשפה טבעית. התחום הזה הוא חשוב ומעניין שכן שפה היא הממשק הטבעי שלנו, וכן בגלל העובדה שחלק גדול מהמידע האנושי קיים בפורמט הזה.

גם כאן קיים מגוון גדול של יישומים ונראה שתי דוגמאות:

סיווג מסמכים: קיבוץ של מסמכים בנושאים שונים לקבוצות על פי הנושא. אם נייצג כל מסמך כרשימת מילים והתדירות בה כל מילה מופיעה, נוכל (לאחר שנשמיט את המילים הנפוצות ביותר שהן כנראה מילות הקישור של השפה) להפריד בין מדריכים טכניים לבין מכתבי אהבה, גם בשפה שאנו לא מבינים כלל. הטכניקה הזו נקראת TFIDF ולמעשה מנועי חיפוש עושים דוגמא כללית יותר של מה שתואר כאן (במאמר מוסגר יש שאלה מעניינת מה רמת ה"הבנה" של מחשב שיודע לשלוף מסמך בנושא מסוים, מי שמתעניין יכול לגגל "פרדוקס החדר הסיני"). זו דוגמא לסוג של מידה לא מפוקחת.

ניתוח סנטימנט: שימוש בלמידה מפוקחת כדי ללמד את המחשב לנתח האם הרגש שמביע כותב מסוים כלפי נושא כלשהוא הינו חיובי או שלילי. נספק למחשב כמה דוגמאות (למשל פוסטים בפורום) בצירוף אינפורמציה לגבי הרגש המובע, והוא יבנה מאגר מידע (בצורה פשטנית – אוסף של ביטויים חיוביים ושליליים) וילמד לסווג הודעות בעצמו.

בפוסט הבא בנושא כמה דוגמאות של יישומים של הנושאים האלה באינטרנט.

כתיבת תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת / לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת / לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת / לשנות )

תמונת גוגל פלוס

אתה מגיב באמצעות חשבון Google+ שלך. לצאת מהמערכת / לשנות )

מתחבר ל-%s