|
גוגל: תמונה שווה אלף מילים |
|
|
גוגל החלה לאנדקס מסמכים שנסרקו בתוצאות החיפוש. כלומר, ניתן כעת לסרוק דף טקסט שלם, להעלותו לרשת וגוגל תתייחס אליו כאילו היה דף טקסט ממשי ולא כתמונה. גוגל מציינת כי בעוד שקריאת טקסט סרוק היא מטלה קלה למדי לאדם הממוצע, מדובר בתהליך הנוטה לשגיאות עבור מחשב, כך שלא סביר כי יהיה זה מאמץ נטול פגמים. על מעשיה של גוגל בנידון מרחיבה ארין ליווי, מנהלת מוצר, בפוסט בבלוג הרשמי של החברה:
"בעבר, מסמכים שנסרקו נכללו לעתים נדירות בתוצאות החיפוש היות ולא יכלנו להיות בטוחים בתוכנם. היו לנו רמזים מזדמנים מרפרנס למסמך - כך שיכלתם לקבל תוצאת חיפוש עם כותרת אך ללא קטע חתוך מהטקסט המדגיש את השאילתה שלכם. כיום זה משתנה. ביכולתנו לבצע כעת זיהוי תווים אופטי בכל מסמך סרוק שאנו מוצאים מאוחסן בפורמט PDF של Adobe. טכנולוגיית זיהוי תווים אופטי זו מאפשרת לנו להמיר תמונה (של אלף מלים) לאלף מילים אותן ניתן לחפש ולאנדקס, כך שניתן למצוא יותר בקלות את המסמכים בעלי הערך הללו. זהו צעד קטן אך חשוב קדימה במשימתנו להפוך את כל המידע בעולם לנגיש ושימושי. בעוד שאינדקסנו מסמכי PDF זה זמן מה, מסמכים סרוקים קשים יותר לקריאה עבור המחשב. ההדפסה הופכת מילים דיגיטליות לטקסט על הנייר, בעוד שסריקה הופכת את הנייר הממשי (והטקסט) לתמונה דיגיטלית כזו שניתן לאחסן ולצפות בה במחשב. התמונה הסרוקה של הטקסט אינה בדיוק אותו הדבר כמו המילים הדיגיטליות המקוריות, עם זאת - זוהי תמונה של מילים מודפסות...". קרא עוד: .
תגובות () |
 |
|
|
|
|