גוגל לעזרת נטפרי



  • יש לי רעיון מעניין,
    גם היום לאחר שנטפרי קיימת כבר למעלה משנתיים עדייין סינון טקסט שאינו ראוי לוקה בחסר וטעון שיפור וזה בעיני אחד מהאתגרים הגדולים ביותר.
    הקושי הגדול בין היתר הוא מציאת מילים עם מספר משמעויות שלחלקן יש משמעות לא ראויה.
    חשבתי על דרך לברר את המשמעות של המילה על ידי שימוש בגוגל טרנסטלייט כלומר שהדף יעבור כביכול תרגום לאנגלית ואם בתרגום ימצא שיש מילה שאינה ראויה זה יחסום את הדף או ישלח אותו לבדיקה.
    יש לי דוגמאות של דפים עם מילים לא ראויות שבתרגום יוצא שגיאה אבל אני לא רוצה לעלות אותם פה.



  • @יוליוס אמר בגוגל לעזרת נטפרי:

    יש לי דוגמאות של דפים עם מילים לא ראויות שבתרגום יוצא שגיאה

    סתם כדי להבין. אתה טוען בעצם, שבאנגלית נטפרי הצליחו בסינון מלל, יותר מבעברית ?



  • לא, אין לי מושג מה המצב באנגלית למרות ששם בגלל שיש אותיות ניקוד אני חושב שיש פחות מילים שיש להם מספר משמעויות.
    אני מתכוון לומר שלפעמים בעברית למילה בעייתית יש משמעות גם כשרה, ואז הרובוט לא מזהה את זה כבעייתי. אבל כשמתרגמים את הטקסט לאנגלית הרובוט קולט שיש פה מילה בעייתית וחוסם.
    גוגל באמתעות השקעה רבה בבינה מלאכותית יודעים באחוז די גבוה מה המשמעות האמיתית של כל מילה לפי ההקשר של כל הקטע. נגיד המילה ישן יכול להיות גם במשמעות של שינה וגם במשמעות של עתיק. וגוגל לפי ההקשר יודעים מה המשמעות.
    לדוגמא: 'הבית הזה ממש ישן' מתורגם "This house is really old", ו'הילד שלי ישן' מתורגם "My child is asleep".
    אם ישן במובן של עתיק/זקן היתה מילה בעייתית אז מתרגום גוגל הרובוט היה עולה על זה שיש פה מילה בעייתית. אבל כיום או שהוא חוסם את שני המשמעויות או שהוא פותח.

    כואב לי שהנושא של הטקסט עדיין לא מושלם, ולכן אני חושב על פתרונות קצת הזויים אבל גם אם זה לא יעזור, לפחות זה יעורר את המודעות לנושא ויפתח פתח אולי לפתרונות אחרים טובים יותר.



  • זה בעיה, כי הסינון מלל צריך להיות מהר מהר.
    פניה לגוגל לוקחת המון המון זמן במושגים של "מייד".



  • @נטפריס אמר בגוגל לעזרת נטפרי:

    זה בעיה, כי הסינון מלל צריך להיות מהר מהר.
    פניה לגוגל לוקחת המון המון זמן מושגים של "מייד".

    חשבתי על זה, אבל מה זה שונה מתמונה שברגע הראשון זה נחסם ואחרי מספר שניות/דקות זה נפתח.
    פה זה אמור לקחת מקסימום שתי שניות - הזמן שלוקח לגוגל לעבור על כל הדף.
    אני חושב שיש בעיה אחרת, לבודד את הקטע שהתגלה כבעייתי מתוך התרגום ולהצליבו עם הקטע בעברית. כך שלא כל הדף יחסם.
    אולי לפחות זה ישלח התראה למערכת וכך יעזור לשפר את האלגוריתם של הרובוט.



  • @נטפריס אמר בגוגל לעזרת נטפרי:

    זה בעיה, כי הסינון מלל צריך להיות מהר מהר.
    פניה לגוגל לוקחת המון המון זמן במושגים של "מייד".

    אין אפשרות להשיג מסד נתונים של התרגום גוגל?
    הרי בסמארטפונים יש אפשרות להוריד שפה מסויימת כך שיעבוד גם בלי חיבור.



  • מאמר על שיטת התרגום של גוגל - Neural Machine Translation
    http://amisalant.com/?p=12816



  • לדעתי הדרך היחידה לשיפור הרובוט, זה לדווח, ככך שידווחו יותר על מלל שלילי - הרובוט ישתפר.



  • @shraga אמר בגוגל לעזרת נטפרי:

    לדעתי הדרך היחידה לשיפור הרובוט, זה לדווח, ככך שידווחו יותר על מלל שלילי - הרובוט ישתפר.

    דרך זו עד היום תרמה גם המון בעיות ברובוט.



  • @יוליוס אמר בגוגל לעזרת נטפרי:

    חשבתי על זה, אבל מה זה שונה מתמונה שברגע הראשון זה נחסם ואחרי מספר שניות/דקות זה נפתח.

    בתמונות אתה מיידית מקבל תמונה חילופית. ויש תור בו נבדקים התמונות והתור הזה עולה זמן וכסף.
    אם אתה מתכוון להעתיק את המודל הזה לכל חתיכת טקסט זה נראה לי לא מציאותי. אכן אני מסכים שיש טעם לשלוח מקרים בהם זוהה מלל שלילי.



  • @נטפריס אמר בגוגל לעזרת נטפרי:

    @shraga אמר בגוגל לעזרת נטפרי:

    לדעתי הדרך היחידה לשיפור הרובוט, זה לדווח, ככך שידווחו יותר על מלל שלילי - הרובוט ישתפר.

    דרך זו עד היום תרמה גם המון בעיות ברובוט.

    יתכן,
    אך לא נראה לי שיש אפשרות אחרת טובה יותר



  • @נטפריס אמר בגוגל לעזרת נטפרי:

    אם אתה מתכוון להעתיק את המודל הזה לכל חתיכת טקסט זה נראה לי לא מציאותי. אכן אני מסכים שיש טעם לשלוח מקרים בהם זוהה מלל שלילי.

    זה נשמע כרעיון טוב - יתאפשר רובוט עם סטנדרטים יותר מחמירים ובמקרה של זיהוי תוכן בעייתי הדבר יישלח לבדיקה יותר מעמיקה מבלי לשבש את מבנה העמוד כמו בתמונות.
    דרך אגב, כדי להשתמש בגוגל translate צריך לשלם (עד 2 מיליון תווים לחודש מקבלים חינם, אח"כ עולה $20 לכל מיליון תווים)



  • @yzahn אמר בגוגל לעזרת נטפרי:

    דרך אגב, כדי להשתמש בגוגל translate צריך לשלם (עד 2 מיליון תווים לחודש מקבלים חינם, אח"כ עולה $20 לכל מיליון תווים)

    אם ידיעתי וארנקי לא מתעתעים בי, אתה לא מעודכן בהקשר של ה2M הראשונים, זה בוטל וזה עולה מהתו הראשון.
    ואגב בבינג זה עדיין קיים מלבד שהמחיר זול במחצית.
    זה באמת יהיה עלות אבל גם התמונות זה עלות.



  • @yzahn ליותר ממליארד תווים יש הנחה...


  • נקיפדיה

    @נטפריס אם כבר, אפשר להשקיע לפתח קצת בינה מלאכותית לעניין.
    איך אומרים: 'בנטפרי השמים הם הגבול'...



  • גא"מ לגוף הבעיה שאין סינון מלל באנגלית ברמה ההרמטית של הסינון בעברית.



  • @יהושע-ב.

    @ליכט אמר בגוגל לעזרת נטפרי:

    סתם כדי להבין. אתה טוען בעצם, שבאנגלית נטפרי הצליחו בסינון מלל, יותר מבעברית ?

    @יוליוס אמר בגוגל לעזרת נטפרי:

    לא, אין לי מושג מה המצב באנגלית למרות ששם בגלל שיש אותיות ניקוד אני חושב שיש פחות מילים שיש להם מספר משמעויות.
    אני מתכוון לומר שלפעמים בעברית למילה בעייתית יש משמעות גם כשרה, ואז הרובוט לא מזהה את זה כבעייתי. אבל כשמתרגמים את הטקסט לאנגלית הרובוט קולט שיש פה מילה בעייתית וחוסם.
    גוגל באמתעות השקעה רבה בבינה מלאכותית יודעים באחוז די גבוה מה המשמעות האמיתית של כל מילה לפי ההקשר של כל הקטע. נגיד המילה ישן יכול להיות גם במשמעות של שינה וגם במשמעות של עתיק. וגוגל לפי ההקשר יודעים מה המשמעות.

    אז אתה טוען ממש הפוך מהנ"ל



  • @נטפריס
    אין אפשרות להשיג מסד נתונים של התרגום גוגל?
    הרי בסמארטפונים יש אפשרות להוריד שפה מסויימת כך שיעבוד גם בלי חיבור.



  • @MacroShadow אמר באמזון איטליה - עזרה דחופה:

    @elisha אמר באמזון איטליה - עזרה דחופה:

    @baruch וכאן הבן שואל למה א"א פשוט להכניס את רשימת המילים השליליות מהשפות הנ"ל ל- translate ולתרגם לאיטלקית והנה יש לנו רובוט שמבין גם איטלקית ?

    א. לא מדובר ברשימת מילים שליליות בלבד, מדובר בביטויים מורכבים מאוד היחודיים לכל שפה. הרובוט לא חוסם רק לפי רשימת מילים, אלא גם צירופי מילים הנמצאים בקירבה מסויימת (כפי שהוגדר לפי העניין) אחד לשני (לשלישי ולרביעי, וכן הלאה). כמו"כ יש ביטויים שלא ייחסמו אם יופיע מילה מסויימת בקירבה מסויימת (כפי שהוגדר לפי העניין). לדוגמא: ברור ש"בורא מיני בשמים" לא אמור להיחסם, למרות שיש שם מילה שאמורה להיחסם באופנים מסויימים.
    ב. לא ניתן לתרגם מילים גרועות מאוד בגוגל טרנסלייט.
    ג. אם השתמשת פעם בגוגל טרנסלייט, אתה יודע כמה הוא אמין בתרגום מדוייק...

    אפשר לומר שבעברית (באנגלית אני לא מתמצא) סינון המלל מקיף 99.9 מהמילים והמשמעויות הברורות שצריכות להיחסם, הבעיה היא במשפטים שאין בהם מילה בעלת אופי שלילי מובהק, בשביל כזה דבר לא יעזור שום בינה מלאכותית, הדרך היחידה היא ללמד את הרובוט ביטויים וצירופי מילים, זה דבר שיכול להתבצע רק על ידי בן אנוש.



  • @shraga חקרת את הנושא של בינה מלאכותית ולמידת מכונה?



  • @WEB-developer כלל לא, אך אני מניח שגם אם זה אפשרי, התוצאות לא יהיו מושלמות וההשקעה תהיה כבירה, כך שבמבחן התוצאה זה לא ישתלם, אדרבה, אם יש מישהו שחושב אחרת ומכיר את התחום, שיציע את הצעותיו


התחבר כדי לפרסם תגובה