Rez@ee
16th May 2011, 08:23 PM
http://www.konjkav.com/images/image.php?w=200&h=200&url=/images/news/dn20395-1_3001305484332.jpegگسترش وب و فراوانی محتوای متنی و چندرسانهای از کاربران دنیای امروز باورنکردنی است. اگر تاریخدانان سال 2061 / 1440 بخواهند تولد عالمگیر وب را مطالعه کنند، از کجا باید شروع کنند؟
سامیت پل-چاژوری ,نیوساینتیست: امروز، مورخان مجبورند جزئیات زندگیهای سوژههایشان را از تکههای ریز شواهد و مدارک موجود پیدا کرده و در کنار هم جمع کنند. جانشینان آنه نیز احتمالا دچار مشکلات زیادی خواهند شد: مشکل، پیدا کردن ماجرای تولد میراث وسیع دیجیتالی خواهد بود. شیوه آنها برای کشف این ماجرای عظیم چه خواهد بود؟
بیشتر ما امروز آنقدر اطلاعات تولید میکنیم که از توان مدیریتیمان خارج است؛ کافی است عکسهایی را در نظر بگیرید که در مناسبتها و تعطیلات مختلف گرفتهاید و هنوز فرصت نکردهاید در یک آلبوم جمعآوریشان کنید.
محتویات هارددیسک رایانه همه ما، یک آش شلهقلمکار حسابی است! کمبود ساختاری وب را در کنار گمنامی یا نامهای مستعاری بگذارید که دنیای آنلاین را برای تاریخدانان آینده به چالشی بزرگ و ترسناک تبدیل خواهد کرد.
به نظر میرسد تمام فایلهای HTML، MP3 و JPEG که وب امروز را میسازند، تا مدتهای مدیدی خوانا خواهند بود. اما حفظ نکردن منبع اصلی و سند صحت این مطالب، شاهکار نیست؛ چراکه دادهها معمولا کپی شده، ویرایش شده، تفسیر شده و اصلاح شده هستند.
برای حفاظت از فایلها، باید از آنها فایل پشتیبان (Back Up) تهیه کنیم، مدارک و مستندات را برای خودمان ایمیل کنیم یا عکسها را به صورت آنلاین ارسال کنیم. بهعلاوه، فایلها در بین مردم دست به دست میشوند که معمولا منجر به تغییر در فایل میشوند؛ هرچند این تغییرات معمولا ناچیز بوده و برای انسان نامحسوس است.
به این ترتیب سفرهای از نعمتهای درهم و برهمی در اختیار باستانشناسان اینترنت قرار خواهد گرفت. از سویی دگرگونیها، بینش ارزشمندی از نحوه گسترش اطلاعات در اختیار کارشناسان آینده قرار میدهد و از سویی دیگر، همین دگرگونیها، پیدا کردن نقطه پیدایش این ارتباطات وسیع را سخت میکند.
فیلتر نامعلوم
روش بروتفورس (Brute-Force، یکی از حملات هکرها برای بدست آوردن رمزهای عبور) برای وارسی کردن منشا تمام فایلها، درهمسازی (Hashing) است.
یک شیوه ریاضی که بخش اعظمی از اطلاعات را به عدد کوچکتری خلاصه میکند یا «مقدار درهم» (Hash Value) و مقایسه فایلها را آسان میکند. اما از آنجاکه حتی کوچکترین تغییر در اصل داده «مقدار درهم» را به کل عوض میکند، کشف رابطه بین کپیها سخت خواهد بود.
تجزیه هر فایل به چند قطعه و ایجاد هشهای جداگانه (انجام یک عمل خلاصهسازی روی جریان ورودی که غیرقابل برگشت است و میتوان آن را به عنوان یک اثر انگشت دیجیتالی فرض کرد) برای هر قطعه، باعث میشود ترکیبات دو فایلی که بیشترین قطعات مشابه را داشته و احتمالا با هم مرتبطند، مشخص شود.
چنین هشهای نامعلومی میتوانند برای پیدا کردن شبیهترین کپیها و شناسایی طرحهای ناتمام یا ابتدایی استفاده شوند؛ اطلاعاتی که ممکن است برای یک شرححالنویس مفید باشد.
این شیوه کامل نیست، توانایی آن برای تشخیص شباهتها، خوب و نامعلوم است و برای برخی از انواع فایلها بهتر از دیگر روشها کار میکند. مثلا کمی فشرده کردن یک عکس، تاثیر زیادی بر ظاهر آن نخواهد داشت اما میتواند مقدار درهم آن را تا حد چشمگیری تغییر دهد.
نوشتهها
محتوای متنی چطور؟ اینترنت پر است از نظرات بینام، وضعیتهای بهروزرسانی شده و مطالب بلاگها. تاریخدانان شاید دوست داشته باشند نقاب از چهره نویسندگان بردارند.
یک راه برای این کار، جستجوی مشخصههای نوشتاری است: لغاتشان، طول جملاتی که استفاده کردهاند، الگوی کلمات و نقطهگذاریهای مورد علاقه آنها، و حتی عادات غلط دستوری.
معمولا این کار به تکه بزرگی از متن نیاز دارد که بتوان روی آن کار کرد، اما محققان موسسه ملی محاسبه و تحقیقات خودکار در گرنوبل، فرانسه، سیستمی طراحی کردهاند که میتواند اسامی مستعار مختلفی را که یک نفر برای خود انتخاب کرده، با استفاده از حروفی که در نامهای کاربری استفاده شده، به هم مرتبط کند.
میتوانید یک نسخه ساده از این برنامه را در وبسایت (http://iwl.me/)I Write Like ببینید، که به شما میگوید نثر شما یادآور کدام نویسنده مشهور است. همچنین این وبسایت مشکلات دستیابی به این هدف را نیز توضیح میدهد، که آشکارا نمیتواند برخی نویسندهها را، که به عنوان مرجع از آنها استفاده میکند، تشخیص دهد.
بدون شک روشهای ماهرانه بیشتر میتوانند بهتر عمل کنند اما تغییراتی که در طول زمان در نوشتههایمان ایجاد میشود، باز هم کار شناسایی نویسنده را سخت میکند. (بعد دوباره، چنین تغییراتی میتواند برای کارآگاهان ادبی موضوع را روشن کند: تحلیل آخرین اثر آگاتا کریستی این سوءظن را قویتر کرده که وی از زوال عقل رنج میبرد.)
کشف مفاهیم
نوشتهها خود را در قالب متن محبوس کردهاند اما ابزار تحلیل معنایی فراتر از این حد رفته و تلاش میکند تا اطلاعات مرتبط با معنی متن را شناسایی کند؛ این کار به محققان آینده کمک خواهد کرد تا بدون مطالعه تمام وضعیتهای بهروز شده شما، متوجه شخصیتتان شوند.
Defuse نام سیستمی در دست احداث است که نظرات افراد در وبسایتهای مختلف را بر اساس نوع زبان و میزان تطابق با قواعد ارتباطی که استفاده کردهاند، به صورت بخشهای رنگی نشان میدهد.
بنا به گفته آرون زینمن که طراحی این سیستم را در در ام.آی.تی انجام میدهد، این کار تلاشی است برای ایجاد یک «بدنه دیجیتال»: پرترهای جزء به جزء که از توانایی ما برای تجسم فردی در دنیای مادی در یک نگاه، تقلید میکند.
اما زینمن در مورد تفسیر داده توسط چنین سیستمی توضیح کاملا دقیقی داده: «درک پیچیدگی انسانها بسیار مهم است. بیوگرافی یک فرد مهم ممکن است به چند صد صفحه بالغ شود، اما باز هم خلاصهای از زندگی اوست که از دیدگاهی خاص و با هدفی خاص نوشته شده است.
میلیونها راه وجود دارد که شما میتوانید دادههای مربوط به یک فرد را برش بزنید که فرد در هر برش، متفاوت با برش دیگر به نظر میرسد.»
این همان عنصری است که در پروژه جدیدتر زینمن، Personas، بهطور صریح به آن پرداخته شده و قصد دارد با جستجوی نظرات «معنادار» نشان دهد که وب، ما را چطور میبیند.
بینظمی واقعی
وقتی سعی کردم از Personas برای خودم استفاده کنم، نتیجهاش «مدیریت، تحصیلات، اخبار» شد، که به نظر من بیشتر به یک تصویر تلفنی تیره از من شباهت داست تا یک پرتره با جزئیات دقیق و کامل! نکته اینجاست که زینمن قصد دارد از این سیستم برای اثبات ضعف دستگاههای امروزی برای درک بینظمی مردم واقعی استفاده کند.
ویکتور میر شونبرگر از موسسه اینترنت آکسفورد در انگلستان نیز یادداشت اخطار آمیزی در این مورد نوشته است: «حافظه دیجیتال فقط مصنوعات دیجیتال را درک میکند. هرقدر ما بیشتر به آن وابسته شویم، بیشتر وسوسه میشویم که ویژگیهای برایش قائل شویم که واقعا ندارد، مثل سندیت و جامعیت.»
بنابراین حتی اگر ابزار موجود در بازار، تا نیمه بعدی قرن نیز پیشرفت بیحدی داشته باشد، باز هم محدود به سند و مدرکهایی است که ما از خود به جای میگذاریم.
مادامیکه این اسناد و مدارک غنیتر از همیشه میشوند، با موقعیتها و حتی ضربان قلبهایمان که امروز ثبت میشود، تاریخدانان 2061 / 1340 ممکن است باز هم نگاهی سریع و اجمالی بر آنچه ما واقعا بودیم، یا حداقل سعی میکردیم باشیم، دستگیرشان شود.
کنجکاو
سامیت پل-چاژوری ,نیوساینتیست: امروز، مورخان مجبورند جزئیات زندگیهای سوژههایشان را از تکههای ریز شواهد و مدارک موجود پیدا کرده و در کنار هم جمع کنند. جانشینان آنه نیز احتمالا دچار مشکلات زیادی خواهند شد: مشکل، پیدا کردن ماجرای تولد میراث وسیع دیجیتالی خواهد بود. شیوه آنها برای کشف این ماجرای عظیم چه خواهد بود؟
بیشتر ما امروز آنقدر اطلاعات تولید میکنیم که از توان مدیریتیمان خارج است؛ کافی است عکسهایی را در نظر بگیرید که در مناسبتها و تعطیلات مختلف گرفتهاید و هنوز فرصت نکردهاید در یک آلبوم جمعآوریشان کنید.
محتویات هارددیسک رایانه همه ما، یک آش شلهقلمکار حسابی است! کمبود ساختاری وب را در کنار گمنامی یا نامهای مستعاری بگذارید که دنیای آنلاین را برای تاریخدانان آینده به چالشی بزرگ و ترسناک تبدیل خواهد کرد.
به نظر میرسد تمام فایلهای HTML، MP3 و JPEG که وب امروز را میسازند، تا مدتهای مدیدی خوانا خواهند بود. اما حفظ نکردن منبع اصلی و سند صحت این مطالب، شاهکار نیست؛ چراکه دادهها معمولا کپی شده، ویرایش شده، تفسیر شده و اصلاح شده هستند.
برای حفاظت از فایلها، باید از آنها فایل پشتیبان (Back Up) تهیه کنیم، مدارک و مستندات را برای خودمان ایمیل کنیم یا عکسها را به صورت آنلاین ارسال کنیم. بهعلاوه، فایلها در بین مردم دست به دست میشوند که معمولا منجر به تغییر در فایل میشوند؛ هرچند این تغییرات معمولا ناچیز بوده و برای انسان نامحسوس است.
به این ترتیب سفرهای از نعمتهای درهم و برهمی در اختیار باستانشناسان اینترنت قرار خواهد گرفت. از سویی دگرگونیها، بینش ارزشمندی از نحوه گسترش اطلاعات در اختیار کارشناسان آینده قرار میدهد و از سویی دیگر، همین دگرگونیها، پیدا کردن نقطه پیدایش این ارتباطات وسیع را سخت میکند.
فیلتر نامعلوم
روش بروتفورس (Brute-Force، یکی از حملات هکرها برای بدست آوردن رمزهای عبور) برای وارسی کردن منشا تمام فایلها، درهمسازی (Hashing) است.
یک شیوه ریاضی که بخش اعظمی از اطلاعات را به عدد کوچکتری خلاصه میکند یا «مقدار درهم» (Hash Value) و مقایسه فایلها را آسان میکند. اما از آنجاکه حتی کوچکترین تغییر در اصل داده «مقدار درهم» را به کل عوض میکند، کشف رابطه بین کپیها سخت خواهد بود.
تجزیه هر فایل به چند قطعه و ایجاد هشهای جداگانه (انجام یک عمل خلاصهسازی روی جریان ورودی که غیرقابل برگشت است و میتوان آن را به عنوان یک اثر انگشت دیجیتالی فرض کرد) برای هر قطعه، باعث میشود ترکیبات دو فایلی که بیشترین قطعات مشابه را داشته و احتمالا با هم مرتبطند، مشخص شود.
چنین هشهای نامعلومی میتوانند برای پیدا کردن شبیهترین کپیها و شناسایی طرحهای ناتمام یا ابتدایی استفاده شوند؛ اطلاعاتی که ممکن است برای یک شرححالنویس مفید باشد.
این شیوه کامل نیست، توانایی آن برای تشخیص شباهتها، خوب و نامعلوم است و برای برخی از انواع فایلها بهتر از دیگر روشها کار میکند. مثلا کمی فشرده کردن یک عکس، تاثیر زیادی بر ظاهر آن نخواهد داشت اما میتواند مقدار درهم آن را تا حد چشمگیری تغییر دهد.
نوشتهها
محتوای متنی چطور؟ اینترنت پر است از نظرات بینام، وضعیتهای بهروزرسانی شده و مطالب بلاگها. تاریخدانان شاید دوست داشته باشند نقاب از چهره نویسندگان بردارند.
یک راه برای این کار، جستجوی مشخصههای نوشتاری است: لغاتشان، طول جملاتی که استفاده کردهاند، الگوی کلمات و نقطهگذاریهای مورد علاقه آنها، و حتی عادات غلط دستوری.
معمولا این کار به تکه بزرگی از متن نیاز دارد که بتوان روی آن کار کرد، اما محققان موسسه ملی محاسبه و تحقیقات خودکار در گرنوبل، فرانسه، سیستمی طراحی کردهاند که میتواند اسامی مستعار مختلفی را که یک نفر برای خود انتخاب کرده، با استفاده از حروفی که در نامهای کاربری استفاده شده، به هم مرتبط کند.
میتوانید یک نسخه ساده از این برنامه را در وبسایت (http://iwl.me/)I Write Like ببینید، که به شما میگوید نثر شما یادآور کدام نویسنده مشهور است. همچنین این وبسایت مشکلات دستیابی به این هدف را نیز توضیح میدهد، که آشکارا نمیتواند برخی نویسندهها را، که به عنوان مرجع از آنها استفاده میکند، تشخیص دهد.
بدون شک روشهای ماهرانه بیشتر میتوانند بهتر عمل کنند اما تغییراتی که در طول زمان در نوشتههایمان ایجاد میشود، باز هم کار شناسایی نویسنده را سخت میکند. (بعد دوباره، چنین تغییراتی میتواند برای کارآگاهان ادبی موضوع را روشن کند: تحلیل آخرین اثر آگاتا کریستی این سوءظن را قویتر کرده که وی از زوال عقل رنج میبرد.)
کشف مفاهیم
نوشتهها خود را در قالب متن محبوس کردهاند اما ابزار تحلیل معنایی فراتر از این حد رفته و تلاش میکند تا اطلاعات مرتبط با معنی متن را شناسایی کند؛ این کار به محققان آینده کمک خواهد کرد تا بدون مطالعه تمام وضعیتهای بهروز شده شما، متوجه شخصیتتان شوند.
Defuse نام سیستمی در دست احداث است که نظرات افراد در وبسایتهای مختلف را بر اساس نوع زبان و میزان تطابق با قواعد ارتباطی که استفاده کردهاند، به صورت بخشهای رنگی نشان میدهد.
بنا به گفته آرون زینمن که طراحی این سیستم را در در ام.آی.تی انجام میدهد، این کار تلاشی است برای ایجاد یک «بدنه دیجیتال»: پرترهای جزء به جزء که از توانایی ما برای تجسم فردی در دنیای مادی در یک نگاه، تقلید میکند.
اما زینمن در مورد تفسیر داده توسط چنین سیستمی توضیح کاملا دقیقی داده: «درک پیچیدگی انسانها بسیار مهم است. بیوگرافی یک فرد مهم ممکن است به چند صد صفحه بالغ شود، اما باز هم خلاصهای از زندگی اوست که از دیدگاهی خاص و با هدفی خاص نوشته شده است.
میلیونها راه وجود دارد که شما میتوانید دادههای مربوط به یک فرد را برش بزنید که فرد در هر برش، متفاوت با برش دیگر به نظر میرسد.»
این همان عنصری است که در پروژه جدیدتر زینمن، Personas، بهطور صریح به آن پرداخته شده و قصد دارد با جستجوی نظرات «معنادار» نشان دهد که وب، ما را چطور میبیند.
بینظمی واقعی
وقتی سعی کردم از Personas برای خودم استفاده کنم، نتیجهاش «مدیریت، تحصیلات، اخبار» شد، که به نظر من بیشتر به یک تصویر تلفنی تیره از من شباهت داست تا یک پرتره با جزئیات دقیق و کامل! نکته اینجاست که زینمن قصد دارد از این سیستم برای اثبات ضعف دستگاههای امروزی برای درک بینظمی مردم واقعی استفاده کند.
ویکتور میر شونبرگر از موسسه اینترنت آکسفورد در انگلستان نیز یادداشت اخطار آمیزی در این مورد نوشته است: «حافظه دیجیتال فقط مصنوعات دیجیتال را درک میکند. هرقدر ما بیشتر به آن وابسته شویم، بیشتر وسوسه میشویم که ویژگیهای برایش قائل شویم که واقعا ندارد، مثل سندیت و جامعیت.»
بنابراین حتی اگر ابزار موجود در بازار، تا نیمه بعدی قرن نیز پیشرفت بیحدی داشته باشد، باز هم محدود به سند و مدرکهایی است که ما از خود به جای میگذاریم.
مادامیکه این اسناد و مدارک غنیتر از همیشه میشوند، با موقعیتها و حتی ضربان قلبهایمان که امروز ثبت میشود، تاریخدانان 2061 / 1340 ممکن است باز هم نگاهی سریع و اجمالی بر آنچه ما واقعا بودیم، یا حداقل سعی میکردیم باشیم، دستگیرشان شود.
کنجکاو