باستان‌شناسان آینده شما را چطور خواهند دید؟ [بایگانی] - سایت علمی نخبگان جوان

Rez@ee

16th May 2011, 08:23 PM

http://www.konjkav.com/images/image.php?w=200&h=200&url=/images/news/dn20395-1_3001305484332.jpegگسترش وب و فراوانی محتوای متنی و چندرسانه‌ای از کاربران دنیای امروز باورنکردنی است. اگر تاریخ‌دانان سال 2061 / 1440 بخواهند تولد عالم‌گیر وب را مطالعه کنند، از کجا باید شروع کنند؟

سامیت پل-چاژوری ,نیوساینتیست: امروز، مورخان مجبورند جزئیات زندگی‌های سوژه‌هایشان را از تکه‌های ریز شواهد و مدارک موجود پیدا کرده و در کنار هم جمع کنند. جانشینان آنه نیز احتمالا دچار مشکلات زیادی خواهند شد: مشکل، پیدا کردن ماجرای تولد میراث وسیع دیجیتالی خواهد بود. شیوه آن‌ها برای کشف این ماجرای عظیم چه خواهد بود؟

بیشتر ما امروز آن‌قدر اطلاعات تولید می‌کنیم که از توان مدیریتی‌مان خارج است؛ کافی است عکس‌هایی را در نظر بگیرید که در مناسبت‌ها و تعطیلات مختلف گرفته‌اید و هنوز فرصت نکرده‌اید در یک آلبوم جمع‌آوری‌شان کنید.

محتویات هارددیسک رایانه همه ما، یک آش شله‌قلمکار حسابی است! کمبود ساختاری وب را در کنار گم‌نامی یا نام‌های مستعاری بگذارید که دنیای آنلاین را برای تاریخ‌دانان آینده به چالشی بزرگ و ترسناک تبدیل خواهد کرد.

به نظر می‌رسد تمام فایل‌های HTML، MP3 و JPEG که وب امروز را می‌سازند، تا مدت‌های مدیدی خوانا خواهند بود. اما حفظ نکردن منبع اصلی و سند صحت این مطالب، شاهکار نیست؛ چراکه داده‌ها معمولا کپی شده، ویرایش شده، تفسیر شده و اصلاح شده هستند.

برای حفاظت از فایل‌ها، باید از آن‌ها فایل پشتیبان (Back Up) تهیه کنیم، مدارک و مستندات را برای خودمان ای‌میل کنیم یا عکس‌ها را به صورت آنلاین ارسال کنیم. به‌علاوه، فایل‌ها در بین مردم دست به دست می‌شوند که معمولا منجر به تغییر در فایل می‌شوند؛ هرچند این تغییرات معمولا ناچیز بوده و برای انسان نامحسوس است.

به این ترتیب سفره‌ای از نعمت‌های درهم و برهمی در اختیار باستان‌شناسان اینترنت قرار خواهد گرفت. از سویی دگرگونی‌ها، بینش ارزشمندی از نحوه گسترش اطلاعات در اختیار کارشناسان آینده قرار می‌دهد و از سویی دیگر، همین دگرگونی‌ها، پیدا کردن نقطه پیدایش این ارتباطات وسیع را سخت می‌کند.

فیلتر نامعلوم

روش بروت‌فورس (Brute-Force، یکی از حملات هکرها برای بدست آوردن رمزهای عبور) برای وارسی کردن منشا تمام فایل‌ها، درهم‌سازی (Hashing) است.

یک شیوه ریاضی که بخش اعظمی از اطلاعات را به عدد کوچک‌تری خلاصه می‌کند یا «مقدار در‌هم» (Hash Value) و مقایسه فایل‌ها را آسان می‌کند. اما از آن‌جاکه حتی کوچک‌ترین تغییر در اصل داده «مقدار درهم» را به کل عوض می‌کند، کشف رابطه بین کپی‌ها سخت خواهد بود.

تجزیه هر فایل به چند قطعه و ایجاد هش‌های جداگانه (انجام یک عمل خلاصه‌سازی روی جریان ورودی که غیرقابل برگشت است و می‌توان آن را به عنوان یک اثر انگشت دیجیتالی فرض کرد) برای هر قطعه، باعث می‌شود ترکیبات دو فایلی که بیشترین قطعات مشابه را داشته و احتمالا با هم مرتبطند، مشخص شود.

چنین هش‌های نامعلومی می‌توانند برای پیدا کردن شبیه‌ترین کپی‌ها و شناسایی طرح‌های ناتمام یا ابتدایی استفاده شوند؛ اطلاعاتی که ممکن است برای یک شرح‌حال‌نویس مفید باشد.

این شیوه کامل نیست، توانایی آن برای تشخیص شباهت‌ها،‌ خوب و نامعلوم است و برای برخی از انواع فایل‌ها بهتر از دیگر روش‌ها کار می‌کند. مثلا کمی فشرده کردن یک عکس، تاثیر زیادی بر ظاهر آن نخواهد داشت اما می‌تواند مقدار درهم آن را تا حد چشمگیری تغییر دهد.

نوشته‌ها

محتوای متنی چطور؟ اینترنت پر است از نظرات بی‌نام، وضعیت‌های به‌روز‌رسانی شده و مطالب بلاگ‌ها. تاریخ‌دانان شاید دوست داشته باشند نقاب از چهره نویسندگان بردارند.

یک راه برای این کار، جستجوی مشخصه‌های نوشتاری است: لغات‌شان، طول جملاتی که استفاده کرده‌اند، الگوی کلمات و نقطه‌گذاری‌های مورد علاقه آن‌ها، و حتی عادات غلط دستوری.

معمولا این کار به تکه بزرگی از متن نیاز دارد که بتوان روی آن کار کرد، اما محققان موسسه ملی محاسبه و تحقیقات خودکار در گرنوبل، فرانسه، سیستمی طراحی کرده‌اند که می‌تواند اسامی مستعار مختلفی را که یک نفر برای خود انتخاب کرده، با استفاده از حروفی که در نام‌های کاربری استفاده شده، به هم مرتبط کند.

می‌توانید یک نسخه ساده از این برنامه را در وب‌سایت (http://iwl.me/)I Write Like ببینید، که به شما می‌گوید نثر شما یادآور کدام نویسنده مشهور است. همچنین این وب‌سایت مشکلات دستیابی به این هدف را نیز توضیح می‌دهد، که آشکارا نمی‌تواند برخی نویسنده‌ها را، که به عنوان مرجع از آن‌ها استفاده می‌کند، تشخیص دهد.

بدون شک روش‌های ماهرانه بیشتر می‌توانند بهتر عمل کنند اما تغییراتی که در طول زمان در نوشته‌هایمان ایجاد می‌شود، باز هم کار شناسایی نویسنده را سخت می‌کند. (بعد دوباره، چنین تغییراتی می‌تواند برای کارآگاهان ادبی موضوع را روشن کند: تحلیل آخرین اثر آگاتا کریستی این سوءظن را قوی‌تر کرده که وی از زوال عقل رنج می‌برد.)

کشف مفاهیم

نوشته‌ها خود را در قالب متن محبوس کرده‌اند اما ابزار تحلیل معنایی فراتر از این حد رفته و تلاش می‌کند تا اطلاعات مرتبط با معنی متن را شناسایی کند؛ این کار به محققان آینده کمک خواهد کرد تا بدون مطالعه تمام وضعیت‌های به‌روز شده شما، متوجه شخصیت‌تان شوند.

Defuse نام سیستمی در دست احداث است که نظرات افراد در وب‌سایت‌های مختلف را بر اساس نوع زبان و میزان تطابق با قواعد ارتباطی که استفاده کرده‌اند، به صورت بخش‌های رنگی نشان می‌دهد.

بنا به گفته آرون زینمن که طراحی این سیستم را در در ام.آی.تی انجام می‌دهد، این کار تلاشی است برای ایجاد یک «بدنه دیجیتال»: پرتره‌ای جزء به جزء که از توانایی ما برای تجسم فردی در دنیای مادی در یک نگاه، تقلید می‌کند.

اما زینمن در مورد تفسیر داده توسط چنین سیستمی توضیح کاملا دقیقی داده: «درک پیچیدگی انسان‌ها بسیار مهم است. بیوگرافی یک فرد مهم ممکن است به چند صد صفحه بالغ شود، اما باز هم خلاصه‌ای از زندگی اوست که از دیدگاهی خاص و با هدفی خاص نوشته شده است.

میلیون‌ها راه وجود دارد که شما می‌توانید داده‌های مربوط به یک فرد را برش بزنید که فرد در هر برش، متفاوت با برش دیگر به نظر می‌رسد.»

این همان عنصری است که در پروژه جدیدتر زینمن، Personas، به‌طور صریح به آن پرداخته شده و قصد دارد با جستجوی نظرات «معنا‌دار» نشان دهد که وب، ما را چطور می‌بیند.

بی‌نظمی واقعی

وقتی سعی کردم از Personas برای خودم استفاده کنم، نتیجه‌اش «مدیریت، تحصیلات، اخبار» شد، که به نظر من بیشتر به یک تصویر تلفنی تیره از من شباهت داست تا یک پرتره با جزئیات دقیق و کامل! نکته اینجاست که زینمن قصد دارد از این سیستم برای اثبات ضعف دستگاه‌‌های امروزی برای درک بی‌نظمی مردم واقعی استفاده کند.

ویکتور میر شونبرگر از موسسه اینترنت آکسفورد در انگلستان نیز یادداشت اخطار آمیزی در این مورد نوشته است: «حافظه دیجیتال فقط مصنوعات دیجیتال را درک می‌کند. هرقدر ما بیشتر به آن وابسته شویم، بیشتر وسوسه می‌شویم که ویژگی‌های برایش قائل شویم که واقعا ندارد، مثل سندیت و جامعیت.»

بنابراین حتی اگر ابزار موجود در بازار، تا نیمه بعدی قرن نیز پیشرفت بی‌حدی داشته باشد، باز هم محدود به سند و مدرک‌هایی است که ما از خود به جای می‌گذاریم.

مادامی‌که این اسناد و مدارک غنی‌تر از همیشه می‌شوند، با موقعیت‌ها و حتی ضربان قلب‌هایمان که امروز ثبت می‌شود، تاریخ‌دانان 2061 / 1340 ممکن است باز هم نگاهی سریع و اجمالی بر آن‌چه ما واقعا بودیم، یا حداقل سعی می‌کردیم باشیم، دستگیرشان شود.
کنجکاو