תוכן

מתוך הסדנא לידע ציבורי
קפיצה אל: ניווט, חיפוש

כל מידע שאנחנו מנגישים הוא תוכן. לפעמים הוא ערימה של מילים שמתגבשת לידי הצעת חוק, לעיתים אלו הם בליל מספרים שהופכים לתקציב המדינה. לכן, יש גם לאנשים שלא מבינים כלום בכתיבת קוד מקום לסייע ולעזור לחשמבירים השונים של הסדנא. בעמוד זה נתאר את תרומתם של אנשי התוכן בסדנא ונסביר ומה הם עושים בסדנא.

Data wrangling

במקרים רבים המידע שעליו מתבסס פרויקט זמין ממקורות שונים: כתוכן באתרים קיימים (לדוגמה, אתרים ממשלתיים), כקבצים בפורמטים "לא נוחים" (כמו PDF או תמונות) ואפילו בדפוס (ארכיונים, ספריות). על אף שבמקרים אלו המידע זמין באופן עקרוני, פיתוח מרכיב תוכנה שיתבסס על הנתונים ידרוש בד"כ עבודת הכנה ועיבוד של הנתונים בצורתם המקורית לכדי קובץ\אוסף נתונים גולמי בפורמט מתאים לפיתוח (" פורמט קריא מכונה"). התהליך כרוך תמיד בלפחות כמה מהצעדים הבאים:

  • איתור הנתונים ממקורות שונים: באיזה אתר, מאיזה משרד ממשלתי או רשות מקומית, ארכיון או מקור פרטי הנתונים עצמן זמינים בצורה כלשהי
  • איחזור\השגת הנתונים: אם מדובר באתר ניתן בד"כ לכתוב קוד ש"ימשוך" את הנתונים בצורה אוטומטית, צילום\סריקה של מסמכים (ע"ע "הסדנא בארכיון הכנסת") וכן הלאה.

לפעמים הנתונים קיימים ברשות גוף כלשהו אך אינו משוחרר לציבור. במקרה זה לחץ תקשורתי\ציבורי (ע"ע "הסדנא וההעברות התקציביות") ו\או פעולה משפטית (עתירות) היא הדרך היחידה לפעול לשם הפיכת המידע לזמין.

  • המרת הנתונים: אם מדובר בקבצי PDF או אקסל וכדומה יש להמירם לפורמט ידידותי ("קריא מכונה"), אם מדובר במסמכים סרוקים יהיה צורך בהקלדה ידנית של הנתונים או שימוש ב-OCR ע"מ לייצר קובץ טקסט או טבלה.
  • איגוד נתונים: כאשר הנתונים מפוזרים על פני מסמכים\קבצים רבים יש צורך לקבצם לקובץ (או מסד נתונים)יחיד שמרכז את כל המידע הזמין.
  • הבטחת איכות נתונים (QA): בכל אחד מהשלבים הקודמים יש פוטנציאל לטעויות, מידע חסר, שגוי, דו-משמעי וכו'. הבטחת איכות הנתונים הינה מרכיב מכריע בתהליך שכן מהימנות הפרוייקט

מושתת על מהימנות הנתונים. לרוב צעד זה אינו טכני במהותו אבל דורש הגיון תשומת לב לפרטים ויכולת התמדה. הבנה מעמיקה (ועניין) בתחום הינם משאב חשוב גם כן. מכיוון שלרוב כמות המידע גדולה יחסית, דווקא כאן יש לעיתים תכופות צורך במשתתפים רבים שאינם בהכרח אנשי תוכנה או עיצוב בעיסוקם, מה שנדרש הינם אנשי דעת שאיכפת להם.

  • טיוב נתונים: שילוב נתונים ממקורות שונים (סתם כדוגמה, שילוב נתוני המיצ"ב על הישגי תלמידים בבתי ספר עם נתוני הכנסה מהלמ"ס), הוספת קישורים

למדיה ברחבי הרשת (בלוג פוסטים, כתבות) ו-"תוכן-משתמשים".

לתהליך הזה שיכול לקחת יום-יומיים ולפעמים לא נגמר לעולם יש שם: Data wrangling (או בעברית מתאבק מידע או ממכן מידע). כיוון שכמעט תמיד הנתונים הזמינים דורשים לפחות חלק מהצעדים כתנאי מקדים לאתר (או אפליקציה) עבודתו של להטוטן המידע היא חשובה ביותר, וכאמור יש בה מרכיב אנושי חשוב שאינו טכני.

דוגמאות לעבודת תוכן כזו שעושים בסדנא:

  • סידור דברי הסבר בתקציב המדינה
  • תיוג חוקים ב"כנסת פתוחה"
  • חיפוש קבצי פנסיה ברשת והעברתם מפורמט PDF לפורמט אקסל.
  • סריקת קבצים ב- OCR.


מיצוי מידע

אחרי שהעברנו את כל המידע לפורמט קריא למחשב, צריך למצוא את "המחט בערימת השחת". אנשי מיצוי המידע הם האנשים אשר מוצאים בים המידע את התובנות החשובות ומנגישים אותו לציבור כמעין "מתאבן" על מנת שהאזרחים ימשיכו וינסו למצות בעצמם את הנתונים. ישנם סוגים שונים של מיצוי מידע -

  • מיצוי מידע כמותני - במיצוי מידע זה מנסים להבין מה קורה סטטיסטית בנתונים למשל כמה שעות נכח ח"כ במשכן או כמה כסף מהתל"ג הושקע הושקע בתקציב החינוך או אילו ח"כים מנהלים קשרי חקיקה.
  • מיצוי מידע מסקנתי - מיצוי מידע בו מחפשים תובנות איכותניות כמו למשל אמירות מוזרות של ח"כים או תוכניות בנייה משונות שאושרו בתב"ע פתוחה.

הסדנא מנסה שהמידע המעובד לא יהיה צבוע בגוון פוליטי מסויים, וינסה לשמור על נייטרליות על מנת לתת לאזרח לבחון בעצמו את המידע.

תרגום

הנגשת מידע לא תהייה מלאה אם היא לא תגיע לאוכלוסיה רחבה של אנשים. במדינת ישראל חיות אוכלוסיות שונות ומגוונות, אך המידע היום נגיש לרוב רק בשפה העברית. מידע ציבורי אינו משוחרר היום בשפה הערבית, שהינה שפה רשמית של מדינת ישראל. בנוסף, המידע לא מגיע בשפות חשובות אך לא רשמיות אחרות כמו אנגלית רוסית ואמהרית. אנחנו מחפשים אנשים אשר יעזרו לנו להנגיש את הנתונים באתר על ידי תרגומם בשפות הבאות:

  • ערבית
  • אנגלית
  • רוסית

את עבודת התרגום ניתן לעשות מהבית בצורה נוחה וקלה. המון פעמים, המתרגמים שלנו גם עוזרים לתרגם ספרי הדרכה כמו ה- Open Data Handbook או חומרי שיווק כמו כתבות על הסדנא.

אז מי יכול לעזור

תחומי העניין בתוכן הם מגוונים ושונים. אנחנו מחפשים את הטיפוסים הבאים:

  • לא מפחדים מטכנולוגיות חדשות
  • פתוחים לרעינות חדשים
  • יוזמים ויצירתיים
  • בעלי ידע קודם בכלכלה או בפוליטיקה
  • אם אתם מתרגמים - אז בעלי יכולות שפה זרה גבוהות

אני לא מתכנת, אני יכול ליזום בחשמביר שאני מתנדב בו?

כן! רוב מובילי הפרוייקטים הם אנשי תוכנה והם ישמחו מאוד לעזור לכם ביוזמות משלכם בפרוייקטים להם. אל תהססו לפנות אליהם עם רעיון חדש.