בזכות נטפרי....
-
@shraga יש אופציה בגוגל תמונות שאתה מעלה תמונה וזה מחפש דברים דומים, אתה לא מכניס טקסט כלל.
-
לקוראי אנגלית יש כאן הסבר מעובד גוגל על דרכם לזהה תמונות:
Question:
How does google image search engine work?
I am mainly interested in image retrieval based on the language input. How does it know that the image represent the query well? For instance when I type 'country road' I get pretty accurate results at least in the first page. I am also glad to see references.Answer by Sam Gendler
Sam Gendler, Engineer in search infrastructure at Google, Inc.
Written 7 May
I am one of the folks responsible for figuring out the list of terms to associate with every image that goes into the index. Obviously, there is a limit to the technical details I can provide as to how it is done, but I can speak in generalities that are well known and I'll mix in some ideas that may have been discarded or which are not yet implemented, too.Things we definitely know about an image -
The image data itself, including any metadata stored in the image file.
The URL of the image. URLs can be revealing unless they say things like IMG1095.JPG. But if it says Sunset_in_Hawaii.jpg, you've now got some useful info.
The URL of the page it is on.
The content of the page/site it is on, and which words are close to the image or references to the image.
If the image is also a link in the page, we know the URL it links to, as well as any words in the page which link to the same place.
if a page provides content for the visually impaired to associate with the image, we can definitely read that.
Things we can figure out about an image -We can run the image through a character recognition routine to extract any words out of signage visible in the photo (or to read the text of an image meme, for example)
We can recognize any famous landmarks (and we have sophisticated techniques for recognizing them from any angle)
We can recognize faces - of celebrities and famous people or, if talking about your private photos being indexed in the google photos search, we can recognize your family and friends from other photos. Even if we don't have names, we can potential spot familiar faces and group them together in the index. We can also recognize pets.
We can recognize objects - vehicles, buildings, animal species
We can find other instances of the same image in the index, and see what terms we associated with those.
The list of potential things we could extract from the binary data of a photo and associated page is pretty long and varied, but some things obvious deliver higher quality terms than others. The entire content of the page isn't necessarily that relevant. The caption directly under the photo, on the other hand, is tremendously relevant. Similarly, reading the text of a t-shirt that appears in a photo isn't nearly as useful as reading the street signs and store signs, which can easily allow us to figure out a location (remember, street view knows what pretty much every street on the planet looks like, if you have a way to look up 'similar' images, and that is sure to be something Google has invested heavily in, no?
So when we are looking for things to put in the index, we build up a big long list of things to associate with a photo, along with some information about our confidence that those terms accurately reflect the content of the photo. We can adjust those scores over time by determining how many people click on an image after searching for a particular term. If it gets lots of clicks, then it is probably reasonable to crank the score for that term way up. If it never gets clicked, relative to other photos near it on the results page, we can lower it.When someone issues a request, a lot of stuff happens. First, we have to translate natural language into a search query the computer systems actually understand. Then we have to figure out the set of photos that have terms that match the query. Then we have to rank those photos according to relevance, based on the scores of the terms that match. Then we build up a web page to display those results and send that to the user.
Now, if you want information about HOW we recognize faces and landmarks and such, I would recommend searching through Research at Google to see what the company has made public about our algorithms and data structures for landmark recognition, optical character recognition, face recognition, etc. Lots of our research gets published, eventually, though sometimes only after it no longer provides a competitive advantage, I imagine (I'm not involved in that decision making, so I don't know). Theres lots of AI and fancy math going on, and much of it is proprietary and is google's special sauce, so employees clearly cannot speak about it without permission.
-
@אורי אמר בבזכות נטפרי....:
לקוראי אנגלית יש כאן הסבר מעובד גוגל על דרכם לזהה תמונות:
והנה תרגום:
שְׁאֵלָה:
כיצד מנוע חיפוש התמונות של גוגל עובד?
אני מעוניין בעיקר אחזור תמונה על סמך קלט השפה. איך הוא יודע שהתמונה לייצג את השאילתה טובה? למשל כאשר אני מקליד 'בדרך כפרית "אני מקבל תוצאות מדויקות למדי לפחות בדף הראשון. אני גם שמח לראות אזכור.תשובה על ידי סם גנדלר
סם גנדלר, מהנדס בתשתיות חיפוש בגוגל, Inc.
נכתב 7 מאי
אני אחד האנשים האחראים להבין את רשימת המונחים לשייך כל תמונה כי נכנס המדד. כמובן, יש גבול הפרטים הטכניים אני יכול לספק באשר לאופן בו נעשה, אבל אני יכול לדבר בהכללות כי ידועים ואני לערבב כמה רעיונות שעשויים נמחקו או אשר אינן מיושמות עדיין, גַם.דברים שאנחנו בהחלט יודעים על תמונה -
הנתונים התמונה עצמה, לרבות כל metadata מאוחסן בקובץ התמונה.
כתובת האתר של התמונה. כתובות ניתן לחשוף אלא אם הם אומרים דברים כמו IMG1095.JPG. אבל אם זה אומר Sunset_in_Hawaii.jpg, יש לך עכשיו קצת מידע שימושי.
כתובת האתר של הדף הוא על.
התוכן של הדף / אתר הוא על, ואשר מילות הם קרובים לתמונה או אזכור של התמונה.
אם התמונה היא גם קישור בדף, אנחנו יודעים את כתובת האתר שאליו הוא מקשרים, וכן כל מילות בדף אשר לקשר לאותו המקום.
אם דף מספק תוכן עבור לקויי ראייה לשייך את התמונה, אנו בהחלט יכולים לקרוא את זה.
דברים שאנחנו יכולים להבין על תמונה -אנחנו יכולים להפעיל את התמונה דרך שגר זיהוי תווים כדי לחלץ כל מילות מתוך שילוט גלוי בתמונה (או לקרוא את הטקסט של מם תמונה, למשל)
אנחנו יכולים לזהות כל ציוני דרך מפורסמים (ויש לנו בטכניקות מתוחכמות להכרה אותם מכל זווית)
אנחנו יכולים לזהות פרצופים - של סלבריטים ואנשים מפורסמים או, אם מדבר על התמונות הפרטיות שלך לאינדקס בחיפוש התמונות של גוגל, אנחנו יכולים להכיר את המשפחה והחברים מצילומים אחרים. גם אם אין לנו שמות, אנחנו יכולים נקודה אפשרית פרצופים מוכרים וקבוצה אותם יחד במדד. אנחנו יכולים גם להכיר חיות מחמד.
אנחנו יכולים לזהות חפצים - כלי רכב, בניינים, בעלי חיים
אנחנו יכולים למצוא במקרים אחרים של אותה תמונה במדד, ולראות מה המונח שאנו מזוהים איתה.
רשימת הדברים פוטנציאל נוכל לחלץ נתונים בינאריים של תמונה לדף שמשויך די ארוכה ומגוונת, אבל כמה דברים ברורים לספק מבחינת איכות גבוהה יותר מאחרים. כל התוכן של הדף הוא לא בהכרח רלוונטי במיוחד עבורם. הכיתוב ישירות תחת התמונה, מצד שני, הוא רלוונטי מאוד. באופן דומה, לקרוא את הטקסט של חולצת טריקו שמופיע בתמונה הוא לא כמעט שימושי כמו קריאת שלטי הרחוב ושלטי חנות, אשר יכול בקלות מאפשרים לנו להבין במיקום (זוכר, אבל תצוגת רחוב יודעת מה פחות או יותר כל רחוב על פני כדור הארץ נראה, אם יש לך דרך להסתכל למעלה תמונות "דומות", וכי הוא בטוח יהיה משהו Google השקיע כספים רבים, לא?
לכן, כאשר אנחנו מחפשים דברים לשים במדד, אנו לבנות רשימה גדולה ארוכה של דברים לשייך תמונה, יחד עם קצת מידע על ביטחוננו שמונח אלה לשקף במדויק את התוכן של התמונה. אנחנו יכולים להתאים ציונים אלו לאורך זמן על ידי קביעה כמה אנשים לוחצים על תמונה לאחר מחפש מונח מסוים. אם זה נהיה הרבה קליקים, אז זה כנראה סביר לארכב את התוצאה עבור שעד טווח הדרך. אם זה לא מקבל לוחצים, ביחס לתמונות אחרות בקרבתה בדף התוצאות, שאנחנו יכולים להוריד אותו.כשמישהו מנפיק בקשת, הרבה דברים קורים. ראשית, עלינו לתרגם שפה טבעית לתוך שאילתת חיפוש במערכות המחשוב ממש מבינים. אז אנחנו צריכים להבין את הערכה של תמונות אשר יש במונחים התואמים את השאילתה. אז אנחנו צריכים לדרג את התמונות האלה על פי רלוונטיות, המבוססות על עשרות התנאים תואמים. ואז אנו בונים דף אינטרנט כדי להציג את התוצאות האלה ולשלוח כי למשתמש.
עכשיו, אם אתה רוצה מידע על האופן שבו אנו לזהות פנים ציוני דרך כאלה, אני ממליץ על חיפוש דרך מחקר בגוגל כדי לראות מה החברה עשתה הציבור על האלגוריתמים שלנו ומבני נתונים עבור בהכרה ראויה לציון, זיהוי תווים אופטי, זיהוי פנים, וכו ' . הרבה המחקר שלנו מתפרסם, בסופו של דבר, אם כי לפעמים רק אחרי זה כבר לא מספק יתרון תחרותי, אני מתאר לעצמי (אני לא מעורב כי קבלת החלטות, אז אני לא יודע). המון Theres של AI ומתמטיקה מפואר קורה, וחלק ניכר ממנה הוא קנייני הוא רוטב מיוחד של גוגל, כך שהעובדים בבירור לא יכול לדבר על זה בלי רשות.
-
@למדן-וידען כתבתי "הוא 'גם' לפי הכיתוב שבסביבות התמונה"