آبجی
14th April 2010, 02:59 AM
چکیده:
خط فارسی دارای مشکلات مختلفی میباشد که در جستجو وبازیابی اطلاعات مسائل و مشکلات فراوانی را فراروی کابران اینترنت قرار میدهد. بهخصوص با رشد سریع انتشارات الکترونیکی بر روی وب در شکلهای مختلف پایگاههایاطلاعاتی، وبلاگ و ... و اینکه هیچ قاعده مشخص و ثابتی برای رسمالخط فارسی وجودندارد باعث شده است که جستجوگران مطالب فارسی با مشکلات فراوانی روبرو بشوند. اینمقاله سعی دارد تا با اشاره به موارد مختلفی که میتواند در جستجو و بازیابیاطلاعات سرعت و دقت و جامعیت و مانعیت جستجو را بالاببرد موجب افزایش مهارت کاربراناینترنت فارسی بشود.
کلید واژه ها:اینترنت، خط فارسی، جستجو وبازیابی اطلاعات.
مقدمه
اینترنت به عنوان یک محمل اطلاعاتی عظیم،منابع اطلاعاتی را در مقیاسی وسیع در دسترس مخاطبان بالقوه قرار داده است. اغلبسهولت دسترسی به منابع اطلاعاتی اعم از متن و سایر رسانه*ها عمده*ترین مزیت اینترنتمحسوب می*شود. اما این توانایی که هرکس ناشر آثار خود باشد عواقب ناخواسته*ای رانیز در پی خواهد داشت و آشکارترین معضل، آن است که انبوهی از منابع بسیار متنوع وغیر قابل مدیریت را فراهم میآورد. افزایش سریع منابع اینترنتی نیازمند یکسازماندهی مفید و موثر است. هرچند در حال حاضر راهنماهایی برای منابع اینترنتیتهیه شده است که براساس فایل*های مقلوب ساخته شدهِ توسط موتورهای جستجو و بااستفاده از قابلیت*های مختلف این موتورها از جمله : استفاده از عملگرهای بولی،جستجوی دقیق عبارت، محدود کردن یک جستجو به بخش خاصی از رکورد (مانند عنوان ، آدرس) ، کوتاه*سازی کلمات، جستجوی نزدیک*یابی واژه*ها، ایجاد محدودیت زمانی و منطقه*ای وزبانی، و .... به جستجوی اطلاعات کمک میکند، اما باید تاکید کرد که در امر بازیابیاطلاعات از اینترنت بدون نمایه*سازی نظام یافته نمی*توان انتظار بازیابی مفید وموثر را داشت. هرچند بیش*تر اطلاعات موجود بر روی اینترنت به زبان انگلیسی است، ولیحجم اطلاعات به زبان فارسی نیز با سرعت در حال افزایش است و کاربران به دلایلمختلفی علاقه زیادی به اطلاعات فارسی نشان میدهند و از آنجائیکه زبان غالب دراینترنت انگلیسی است جستجو به زبان*های غیر انگلیسی از جمله فارسی، مسایل و مشکلاتمختلفی را جدای از مشکلات عمومی اینترنت دارد.
خطفارسی
اشکال و نقصی که در همه خطوط جهان است دو علت دارد که یکی در اصل خطاست و دیگری بر اثر تغییر و تحول زبان ایجاد می*شود. دقت فراوان در ثبت همه دقایقتلفظ اغلب موجب دشواری شیوه خط است و این دقت زمانی ضرورت می*یابد که زبانی توسعهبسیار بیابد و در کشورهای دیگری که به آن زبان سخن نمی*گویند رایج شود. به عنوانمثال در خط عربی نقطه و علامت*های حرکات وقتی به وجود آمد که زبان عربی نزد ملت*هایغیر عرب معمول شد، در خط یونانی نیز نشانه*های آهنگ و تکیه[3] پس از رواج آن زباندر مصر ایجاد شد تا کسانی که زبان مادری*شان یونانی نبود و با تلفظ آن مانوس نبودندبتوانند کلمات و عبارات یونانی را هر چه درست*تر ادا کنند. با این حال هیچ خطی هرقدر دقیق و شماره علامات آن فراوان باشد، ممکن نیست که کاملاً نشانه شیوه تلفظباشد. و با کمک علامات متعدد علم حروف نیز تا کسی چگونگی تلفظ زبانی را نشنودنمی*تواند عبارت و کلمات آنرا مانند اهل آن زبان ادا کند.
اما نقصی که بر اثرتحول زبان و به تدریج در خط حاصل می*شود، مشکلی است که همه ملت*ها با آن رو به روهستند. بعضی از حروف و اصوات زبان در طی زمان تغییر می*پذیرند و این تغییر در گفتارحاصل می*شود، اما خط همیشه صورت کهن تلفظ را حفظ می*کند، و از اینجا میان "گفتار" و "نوشتار" اختلاف روی می*دهد. دیگر آن که هر زبانی ناگزیر لغاتی از زبان*های دیگر بهعاریت می*گیرد و اگر علائم خط در این دو زبان یکی باشد کلمه خارجی به همان املایاصلی در نوشتن به کار می*رودکه اغلب با املای کلمه مشابه در زبان ثانوی تفاوت داردو از اینجا برای اصوات واحد علائم خطی متعدد پدید می*آید. در خط فارسی نمونه همهاین موارد را می*توان یافت. چون خط عربی برای نوشتن فارسی به کار رفت کلماتی که ازآن زبان اخذ شده بود به همان صورت اصلی نوشته شد. حال آنکه به یقین در هیچ دوره*ایحروف خاص عربی را فارسی زبان*ها درست مثل اصل تلفظ نکرده*اند. در زبان*های دیگر نیزاین گونه موارد نمونه*های متعدد دارد. شاید دو زبان انگلیسی و فرانسه بیش از همهزبان*های جهان دچار اختلاف تلفظ و خط باشند. به طور کلی نقائص و معایبی که در خطوطمعمول جهان است را می*توان به طریق زیر طبقه*بندی کرد:
1. شکل واحدی اصوات مختلفرا بیان می کند. چنانکه در فارسی حرف "ی" را گاهی برای حرف لین بکار میبریم (یک) وگاهی برای حرف مد (بی) و گاهی به جای الف (عیسی) و گاهی برای نشان دادن مصوت مرکب (ری). و یا حرف «و» در کلمات (سوار، سود، تو)
2. اصوات واحد به صورت*های مختلفنوشته می شود. در فارسی حرف "س" سه صورت (س – ص – ث) و حرف "ز" چهار صورت (ز – ذ- ض- ظ) دارد؛ در زبان فرانسه حروفی که "سن" خوانده می*شود پنج رسم الخط دارد که اگرصورت*های جمع را نیز به حساب بیاوریم ده شکل می*شود از این قرارsaint,) ceint, sein, seing, sain)
3. بسیاری از حروف نوشته می*شود ولی خوانده نمی*شود. یعنیعلاماتی بی*فایده در نوشتن به کار می*رود در فارسی نوشتن "واو معدوله" و "هاء غیرملفوظ" از این قبیل است. در انگلیسی نمونه این مورد بسیار است مانند high که دو حرفآخر آن به کلی از تلفظ ساقط است. و یا “K” در کلمه “Know” .
4. اصواتی هستند کهتلفظ می*شود اما در خط نشانه*ای برای آن*ها نیست. در فارسی سه مصوت کوتاه ( َ ِ ُ ) از این قبیل است هم چنین الف در کلمات اسحق و الله که در کتابت نمی*آید. [4]
زبان و خط فارسی نیز مشکلات خاصی را دارا میباشد و نظام نوشتاری فارسی برایثبت دقیق گفتار، نارسائی دارد و قواعد نگارش آن مدون نیست، از این رو فاصله میانگفتار و نوشتار در فارسی قابل توجه است. بیش*ترین مشکلات نیز به جهت نبود یک رسمالخط واحد که عموم اساتید و اهل فن روی آن اجماع کرده باشند به وجود آمده است. بهطوری که در حال حاضر جدای از چندین شیوه*نامه رسمی همچون" شیوه*نامه سمت، نشردانشگاهی، فرهنگستان، آموزش و پرورش" به تعداد افراد جامعه، رسم الخط و شیوه نگارشزبان وجود دارد، هر ناشری برای خود به قاعده*ای دلخواه عمل می*کندکه این تعددهاموجب پریشانی و پراکندگی شده و با یکدیگر تفاوت*هایی دارند. از دیگر دلایل می*توانبه عاریتی بودن خط فارسی و چاره*اندیشی برای حرکات و عدم تطابق واج*ها با حروفاشاره کرد. متصل و منفصل*نویسی نیز یکی دیگر از حوزه*های مورد اختلاف است از دیگرمشکلات: گوناگونی معادل*های علمی، انواع مختلف ضبط اسامی خارجی، سرهم*نویسی،جدانویسی، بی*فاصله*نویسی، انواع جمع*ها، صورت*های مختلف نوشتاری، آوانویسی اسامیعناصر و ترکیبات شیمیایی، سرواژه*ها و کوته**نوشت*ها میباشد.
به طور کلینقص*هایی که برای زبان فارسی شمرده*اند به شرح زیر می*توان عنوان کرد:
1.سه مصوتکوتاه یعنی حرکات زیر و زبر و پیش ( َ ِ ُ ) را از نوشتن ساقط میکنیم. و این باعثمی*شود به جای این که از خط و نوشتار پی به معنی ببریم بایستی از معنی کلمه وجایگاه آن در جمله آنرا درست بخوانیم مانند کلمات (کَرَم، کَرَم، کِرِم، کُرُم،کِرْم) و (مَلَک، مَلِک، مُلک، مِلک) و یا سه کلمه (حَکَم، حُکم، حِکَم) و نیزننوشتن مصوت*های کوتاه در داخل متن باعث می*شود که برای تلفظ صحیح اجباراً لاتینکلمات به صورت پانویس متن آورده شود که همین امر باعث اتلاف وقت و انرژی می*شود. کهالبته همین لاتین*نویسی هم قاعده خاصی ندارد و هر ناشر و نویسنده*ای سلیقه خاص خودشرا برای آوانویسی حروف فارسی به لاتین دارد. که به عنوان نمونه برای نشان دادن حرکتفتحه و الف و آ هیچ*گونه هماهنگی در کتاب*ها و خصوصا فرهنگ*های مختلف دیده نمی*شود. ”هر چند برخی معتقدند همین ننوشتن حرکات مزیتی است و موجب تندنویسیمی*شود“[5].
2.برای یک حرف چند علامت مختلف داریم مانند علامت*های (س،ص، ث) کههر سه در فارسی یکسان خوانده می*شوند و هم چنین (ذ، ز، ض، ظ) و نیز (ت، ط). البتهاین امر در زبان انگلیسی هم وجود دارد چنان که «ف» ممکن است به شکل*های «F. GH. PH. V » باشد.
3.یک علامت را برای دلالت بر چند حرف مختلف استعمال می*کنیم مانند "و" که پنج مورد نوشتن دارد یکی برای بیان ضمه در کلمات "خوش" و "تو". دیگر بیان مصوتممدود یا "واو ماقبل مضموم" مانند "شور" و "او". سوم بیان حرف صامت "واو" در کلماتیچون "آواز" و "والی" و "عفو" . چهارم بیان حرف مصوت مرکبی که در کلمات "نو" و "جوشن" و مانند آن*هاست. پنجم حرفی که در زبان کنونی خوانده نمی*شود مانند "واومعدوله" در کلمات "*****" و "خواستن" و "واو" در کلمه "عمرو"[6]
4.حرف*هایی همهست که در کلمات خاصی از نوشتن حذف می*شود مانند "الف" در کلمات "اسحق" و "اسمعیل" و "الله"
5.نقطه*هایی متعدد در بالا و پائین حرف که هم سبب دشواری و هم موجباشتباه در خواندن می*شود. اهمیت بیش از حد نقطه درخط فارسی هنگام تشخیص نوریکاراکترها[7] تولید اشکال اساسی می*کند. به عنوان مثال در نظر بگیرید که تفاوت ‹ر› و ‹ز› و یا تفاوت ‹د› و ‹ذ› و یا تفاوت ‹ب› ‹ت› ‹ پ› ‹ث› فقط در نقطه است و چوننقطه جزء بسیار کوچکی است در این امر مشکلات زیادی را فرا روی متخصصین قرار می*دهد. و یا کلمات زیر را در نظر بگیرید که با یک یا چند نقطه عوض می*شوند (بُر، بَر، پُر،پَر، تَر، پُز، پَز، بُز، تِز).
6. یک عیب دیگر هم که برای خط فارسی ذکرکرده*اند این است که از راست به چپ نوشته می*شود. و برای این مورد دلایل مختلفی ذکرشده است از جمله عدم هماهنگی و ایجاد مشکل در نوشتن متون ریاضی و شیمی و نت*هایموسیقی و دستورات شطرنج و این* که خط تصویری یعنی علائم گرافیکی که در کل جهاناستفاده می*شود مانند علائم راهنمائی و رانندگی تماماً از چپ خواندهمی*شوند.
7.پیوسته*نویسی و جدا*نویسی کلمات مرکب که در اکثر موارد به صورتسلیقه*ای عمل می*شود مانند تنوع استفاده از ‹می› چسبان و غیر چسبان و یا تنوع نحوهبه کار بردن «علامت*های جمع ‹ها، ان، جات› ، هم، هیچ، که، (ضمایر شخصی متصل مان،تان، شان)، شناسی، را، چه، چون، تر، ترین، بی (پیشوند نفی)، به، ای (نشانه ندا)، آنو این» در کلمات به صورت پیوسته و یا جدا گانه: (آنچه ، آن چه)؛ (همچنانکه،همچنان*که) ؛ (جنابعالی، جناب*عالی)؛ (هیچکس، هیچ*کس)؛ (میتواند، می*تواند)؛ (آنها، آنها) در این مورد کلماتی که پیشوند و یا پسوند دارند نیز در شکل*های مختلفنوشته می*شوند. برخی از کلمات در دو شکل متصل*نویسی و منفصل*نویسی به دو شکل مختلفظاهر می*شوند، مانند «علاقمند و علاقه*مند؛ اندیشمند و اندیشه*مند». مصدرها وفعل*های مرکب و اسم*های مشتق از آنها نیز به دو صورت متصل و منفصل نوشته می*شوندمانند «نگه*داشتن و نگهداشتن». در جستجوی مطالب از اینترنت این مورد تولید اشکالمی*کند چنانکه جستجوی «هیچ*کس» نتایج متفاوتی را با جستجوی «هیچکس» می*آورد و یاجستجوی «کتاب*شناسی» و «کتابشناسی» در موتور جستجوی گوگل نتایج متفاوتی را ارائهمی*کند. این گونه کلمات با این که در خواندن متن اشکال کمی به وجود می*آورند و هرآشنای به زبان فارسی به راحتی می*تواند آن را بخواند اما در فن*آوری امروزه و تجزیهو تحلیل کلمات به کمک رایانه اشکال اساسی تولید می*کند و شاید اگر قاعده*ای جامع ومانع برای آن وضع گردد، بتوان گفت بزرگ*ترین مشکل خط فارسی حل شده است. منظور اینکه، برای مثال خواندن سه کلمه «بی*حوصلگی، بیحوصلگی، بی*حوصله*گی» مشکلی ایجادنمی*کند. اما در محیط الکترونیکی و شبکه اینترنت برای بازیابی این کلمه بایستی برایتمام اشکال این کلمه، جستجو را انجام دهیم، البته اگر آگاهی از تمام اشکال نوشتاریآن داشته باشیم.آآ
8.سی و دو حرف الفبای فارسی همراه با چهار علامت مد، همزه،تنوین، تشدید به 130 شکل مختلف ظاهر می*شوند و تفاوت این اشکال در اتوماسیون خطفارسی تولید اشکال می*کند. « تنوع و تعدد نویسگان، یادگیری زبان و خط فارسی را برایآموزگار و آموزنده دشوار و برای نوآموز توان*فرسا می*سازد. تعداد زیاد نویسگان دررابطه با اتوماسیون زبان توسط رایانه مشکلاتی در خصوص تعداد و ترتیب قرار گرفتننویسگان در جداول کد ایجاد می*نماید و طراحان کد در جای دادن این تعداد نویسه درجداول با مساله کمبود جا رو به رو هستند. هر چند که مشکل جا با کد 16 بیتی حل شدهاست اما مسایل دیگری همچنان باقی می*مانند که احتیاج به برطرف شدن دارند»[8]
9. نوشتن ک و گ (کـ گـ ک گ گ ک) در اشکال مختلف نیز باعث سردرگمی و عدم جستجوی صحیحمی*شود.
10. در اغلب اوقات یک فاصله اضافی معنی متفاوتی و یا متضادی را می*دهد (مثل مادر ، ما در.
11. سه کرسی مختلف برای حرف*های مختلف الفبا باعث می شود کهدر مقایسه با اکثر زبان*ها تعداد سطرهای هر صفحه به مراتب بیش*تر گردد چون برخیحروف روی خط کرسی قرار می*گیرند و برخی پائین خط کرسی و برخی بالای خط کرسی مثل (اب م )
12.از آنجائیکه حروف در نوشتن غالباً به صورت چسبیده و پیوسته نوشتهمی*شوند و این امر تشخیص حرف به حرف نوشته به وسیله رایانه را، دچار مشکلمی*کند.
13. در او. سی. آر. فارسی هم چنین اعداد نیز مشکل ساز هستند چنانچه صفردر فارسی یک نقطه کوچک است که می*تواند رایانه را به اشتباه بیاندازد و نیز اعداد 1و 2 و 3 بسیار شبیه هم هستند و تفاوت*شان در یک دندانه کوچک است.
14. تنوعاملائی یا تنوع در رسم الخط بعضی از کلمات که همه شکل*های آن نیز درست است مانند( اتاق و اطاق) و یا (امپراتور و امپراطور). و کلماتی که فقط یک شکل آنها صحیحمی*باشد ولی شکل ناصحیح آن نیز زیاد استفاده می*شود مانند «ذغال و زغال؛ خوشنود وخشنود». البته این جدای از تنوع در مفهوم کلمات است که در دیگر زبان*ها نیز وجوددارد، یعنی برای بعضی از مفاهیم ممکن است کلمات متنوعی استفاده بشود. مانندکامپیوتر و رایانه.
15. بکار بردن همزه درصورت*های مختلف مانند (مساله، مسئله) *؛ (مسئول، مسوول)
16. استفاده از ‹ا› و ‹آ› به جای یکدیگر مانند (فرایند وفرآیند)
17. شکل*های مختلف ضبط نامهای بیگانه در فارسی: ورود واژه*های بیگانهمعمولا از راه ورود پدیده*های فرهنگی نو در عرصه*های مختلف فنی ، علمی، اجتماعی،سیاسی و هنری و .... و یا از طریق افراد دو زبانه انجام می*گیرد که به قرض*گیریزبان معروف است و کم و بیش در تمام زبان*ها وجود دارد. واژه*های بیگانه اغلب برایپر کردن خلاء واژه*های علمی و یا ارتباطی سودمند هستند، اما وجود آن*ها مسائلی ازقبیل چگونگی ضبط آن*ها در زبان قرض*گیرنده را به* وجود می*آورد. برای ضبط واژه*هایقرضی به سبب اختلاف فاحش نشانه*های الفبای فارسی با نشانه*های الفبای خارجی مشکلاتجدی وجود دارد. از جمله این که الفبای فارسی آوانگار نیست و به همین جهت در ضبطدقیق تلفظ واژه*های زبان فارسی نیز ناتوان است و این ناتوانی در ضبط واژه*هایبیگانه به مراتب بیش*تر است و این که در مورد برگردان اسامی خارجی به خط فارسیقاعده خاصی وجود ندارد و هر کس بنا بر سلیقه و ذوق خود این کار را انجام می*دهد کهدر نتیجه یک کلمه واحد به صورت*های مختلف نوشته می*شود. برای مثال (اتومبیل واتوموبیل)؛ (کلسیم، کلسیوم، کالسیوم) و یا اسم Franklin به صورت (فرانکلین،فرانکلن، فرنکلین، فرنکلن) ضبط شده است. خانم صدیق بهزادی این مشکلات را به سه دستهتقسیم کرده است: ” 1- نام*هایی که در برگردان آن*ها هم*خوان*ها ایجاد مشکل می*کنند. 2 – نام*هایی که در برگردان آن*ها واکه*های ساده مشکلاتی را به* وجود می*آورند . 3 – و سوم نام*هایی که در برگردان آن*ها مشکل اصلی مربوط به واژه*های مرکب است[9].
18.استفاده یا عدم استفاده از ‹ی› در کلمات مختوم به ‹الف › مانند (موسی وموسا)
19.استفاده یا عدم استفاده از ‹ء› برای کلمات مختوم به های بیان حرکت درحالت مضاف مانند (خانه مسکونی و خانهء مسکونی و یا خانه*ی مسکونی)
20.استفادهیا عدم استفاده از اعراب برای کلمات.
21.انواع مختلف جمع برای یک واژه مفرد: بهعنوان مثال جمع بستن یک واژه با علایم جمع فارسی وعلایم جمع عربی و نیز جمع بستن بیقاعده (جمع مکسر)، استفاده ازجمع جمع، مانند (معلم، معلمین، معلمان،معلم*ها).
22.تنوین*های زبان عربی نیز از جمله دشواری*های رعایت اصل هم*خوانینوشتاری و گفتاری هستند.
23.در نگارش یاء وحدت یا نکره در آخر کلماتی که به هاءمختفی یا غیر ملفوظ ختم می*شوند سه نوع املاء* دیده می*شود. (خانه*ای، خانه*یی،خانة)
24.کلمه*های عربی در شکل*های گوناگون در زبان فارسی نوشته می*شوند. (مبدا، مبداء)؛ (ابتدا، ابتداء)؛ (نسبتاً، نسبته، نسبتا) و ....
25.ناتوانی خطفارسی در نشان دادن تلفظ واژه*های ایران باستان و میانه و گویش*ها و لهجه*هایایرانی و واژه*های بیگانه حتی با نشانه*ها.
26.وجود دندانه*های متعدد درکلماتخواندن کلمات و به خصوص در او.سی.آر. فارسی ایجاد اشکال می*کند مانند کلمات: نشستنو استشهاد.
27. حروف فارسی غالباً مشابه*اند و با اندگی غفلت به جای هم نوشتهمی*شوند و مطلب را به کلی دگرگون می*کنند مانند (در، رد، ور)
خط فارسی دارای مشکلات مختلفی میباشد که در جستجو وبازیابی اطلاعات مسائل و مشکلات فراوانی را فراروی کابران اینترنت قرار میدهد. بهخصوص با رشد سریع انتشارات الکترونیکی بر روی وب در شکلهای مختلف پایگاههایاطلاعاتی، وبلاگ و ... و اینکه هیچ قاعده مشخص و ثابتی برای رسمالخط فارسی وجودندارد باعث شده است که جستجوگران مطالب فارسی با مشکلات فراوانی روبرو بشوند. اینمقاله سعی دارد تا با اشاره به موارد مختلفی که میتواند در جستجو و بازیابیاطلاعات سرعت و دقت و جامعیت و مانعیت جستجو را بالاببرد موجب افزایش مهارت کاربراناینترنت فارسی بشود.
کلید واژه ها:اینترنت، خط فارسی، جستجو وبازیابی اطلاعات.
مقدمه
اینترنت به عنوان یک محمل اطلاعاتی عظیم،منابع اطلاعاتی را در مقیاسی وسیع در دسترس مخاطبان بالقوه قرار داده است. اغلبسهولت دسترسی به منابع اطلاعاتی اعم از متن و سایر رسانه*ها عمده*ترین مزیت اینترنتمحسوب می*شود. اما این توانایی که هرکس ناشر آثار خود باشد عواقب ناخواسته*ای رانیز در پی خواهد داشت و آشکارترین معضل، آن است که انبوهی از منابع بسیار متنوع وغیر قابل مدیریت را فراهم میآورد. افزایش سریع منابع اینترنتی نیازمند یکسازماندهی مفید و موثر است. هرچند در حال حاضر راهنماهایی برای منابع اینترنتیتهیه شده است که براساس فایل*های مقلوب ساخته شدهِ توسط موتورهای جستجو و بااستفاده از قابلیت*های مختلف این موتورها از جمله : استفاده از عملگرهای بولی،جستجوی دقیق عبارت، محدود کردن یک جستجو به بخش خاصی از رکورد (مانند عنوان ، آدرس) ، کوتاه*سازی کلمات، جستجوی نزدیک*یابی واژه*ها، ایجاد محدودیت زمانی و منطقه*ای وزبانی، و .... به جستجوی اطلاعات کمک میکند، اما باید تاکید کرد که در امر بازیابیاطلاعات از اینترنت بدون نمایه*سازی نظام یافته نمی*توان انتظار بازیابی مفید وموثر را داشت. هرچند بیش*تر اطلاعات موجود بر روی اینترنت به زبان انگلیسی است، ولیحجم اطلاعات به زبان فارسی نیز با سرعت در حال افزایش است و کاربران به دلایلمختلفی علاقه زیادی به اطلاعات فارسی نشان میدهند و از آنجائیکه زبان غالب دراینترنت انگلیسی است جستجو به زبان*های غیر انگلیسی از جمله فارسی، مسایل و مشکلاتمختلفی را جدای از مشکلات عمومی اینترنت دارد.
خطفارسی
اشکال و نقصی که در همه خطوط جهان است دو علت دارد که یکی در اصل خطاست و دیگری بر اثر تغییر و تحول زبان ایجاد می*شود. دقت فراوان در ثبت همه دقایقتلفظ اغلب موجب دشواری شیوه خط است و این دقت زمانی ضرورت می*یابد که زبانی توسعهبسیار بیابد و در کشورهای دیگری که به آن زبان سخن نمی*گویند رایج شود. به عنوانمثال در خط عربی نقطه و علامت*های حرکات وقتی به وجود آمد که زبان عربی نزد ملت*هایغیر عرب معمول شد، در خط یونانی نیز نشانه*های آهنگ و تکیه[3] پس از رواج آن زباندر مصر ایجاد شد تا کسانی که زبان مادری*شان یونانی نبود و با تلفظ آن مانوس نبودندبتوانند کلمات و عبارات یونانی را هر چه درست*تر ادا کنند. با این حال هیچ خطی هرقدر دقیق و شماره علامات آن فراوان باشد، ممکن نیست که کاملاً نشانه شیوه تلفظباشد. و با کمک علامات متعدد علم حروف نیز تا کسی چگونگی تلفظ زبانی را نشنودنمی*تواند عبارت و کلمات آنرا مانند اهل آن زبان ادا کند.
اما نقصی که بر اثرتحول زبان و به تدریج در خط حاصل می*شود، مشکلی است که همه ملت*ها با آن رو به روهستند. بعضی از حروف و اصوات زبان در طی زمان تغییر می*پذیرند و این تغییر در گفتارحاصل می*شود، اما خط همیشه صورت کهن تلفظ را حفظ می*کند، و از اینجا میان "گفتار" و "نوشتار" اختلاف روی می*دهد. دیگر آن که هر زبانی ناگزیر لغاتی از زبان*های دیگر بهعاریت می*گیرد و اگر علائم خط در این دو زبان یکی باشد کلمه خارجی به همان املایاصلی در نوشتن به کار می*رودکه اغلب با املای کلمه مشابه در زبان ثانوی تفاوت داردو از اینجا برای اصوات واحد علائم خطی متعدد پدید می*آید. در خط فارسی نمونه همهاین موارد را می*توان یافت. چون خط عربی برای نوشتن فارسی به کار رفت کلماتی که ازآن زبان اخذ شده بود به همان صورت اصلی نوشته شد. حال آنکه به یقین در هیچ دوره*ایحروف خاص عربی را فارسی زبان*ها درست مثل اصل تلفظ نکرده*اند. در زبان*های دیگر نیزاین گونه موارد نمونه*های متعدد دارد. شاید دو زبان انگلیسی و فرانسه بیش از همهزبان*های جهان دچار اختلاف تلفظ و خط باشند. به طور کلی نقائص و معایبی که در خطوطمعمول جهان است را می*توان به طریق زیر طبقه*بندی کرد:
1. شکل واحدی اصوات مختلفرا بیان می کند. چنانکه در فارسی حرف "ی" را گاهی برای حرف لین بکار میبریم (یک) وگاهی برای حرف مد (بی) و گاهی به جای الف (عیسی) و گاهی برای نشان دادن مصوت مرکب (ری). و یا حرف «و» در کلمات (سوار، سود، تو)
2. اصوات واحد به صورت*های مختلفنوشته می شود. در فارسی حرف "س" سه صورت (س – ص – ث) و حرف "ز" چهار صورت (ز – ذ- ض- ظ) دارد؛ در زبان فرانسه حروفی که "سن" خوانده می*شود پنج رسم الخط دارد که اگرصورت*های جمع را نیز به حساب بیاوریم ده شکل می*شود از این قرارsaint,) ceint, sein, seing, sain)
3. بسیاری از حروف نوشته می*شود ولی خوانده نمی*شود. یعنیعلاماتی بی*فایده در نوشتن به کار می*رود در فارسی نوشتن "واو معدوله" و "هاء غیرملفوظ" از این قبیل است. در انگلیسی نمونه این مورد بسیار است مانند high که دو حرفآخر آن به کلی از تلفظ ساقط است. و یا “K” در کلمه “Know” .
4. اصواتی هستند کهتلفظ می*شود اما در خط نشانه*ای برای آن*ها نیست. در فارسی سه مصوت کوتاه ( َ ِ ُ ) از این قبیل است هم چنین الف در کلمات اسحق و الله که در کتابت نمی*آید. [4]
زبان و خط فارسی نیز مشکلات خاصی را دارا میباشد و نظام نوشتاری فارسی برایثبت دقیق گفتار، نارسائی دارد و قواعد نگارش آن مدون نیست، از این رو فاصله میانگفتار و نوشتار در فارسی قابل توجه است. بیش*ترین مشکلات نیز به جهت نبود یک رسمالخط واحد که عموم اساتید و اهل فن روی آن اجماع کرده باشند به وجود آمده است. بهطوری که در حال حاضر جدای از چندین شیوه*نامه رسمی همچون" شیوه*نامه سمت، نشردانشگاهی، فرهنگستان، آموزش و پرورش" به تعداد افراد جامعه، رسم الخط و شیوه نگارشزبان وجود دارد، هر ناشری برای خود به قاعده*ای دلخواه عمل می*کندکه این تعددهاموجب پریشانی و پراکندگی شده و با یکدیگر تفاوت*هایی دارند. از دیگر دلایل می*توانبه عاریتی بودن خط فارسی و چاره*اندیشی برای حرکات و عدم تطابق واج*ها با حروفاشاره کرد. متصل و منفصل*نویسی نیز یکی دیگر از حوزه*های مورد اختلاف است از دیگرمشکلات: گوناگونی معادل*های علمی، انواع مختلف ضبط اسامی خارجی، سرهم*نویسی،جدانویسی، بی*فاصله*نویسی، انواع جمع*ها، صورت*های مختلف نوشتاری، آوانویسی اسامیعناصر و ترکیبات شیمیایی، سرواژه*ها و کوته**نوشت*ها میباشد.
به طور کلینقص*هایی که برای زبان فارسی شمرده*اند به شرح زیر می*توان عنوان کرد:
1.سه مصوتکوتاه یعنی حرکات زیر و زبر و پیش ( َ ِ ُ ) را از نوشتن ساقط میکنیم. و این باعثمی*شود به جای این که از خط و نوشتار پی به معنی ببریم بایستی از معنی کلمه وجایگاه آن در جمله آنرا درست بخوانیم مانند کلمات (کَرَم، کَرَم، کِرِم، کُرُم،کِرْم) و (مَلَک، مَلِک، مُلک، مِلک) و یا سه کلمه (حَکَم، حُکم، حِکَم) و نیزننوشتن مصوت*های کوتاه در داخل متن باعث می*شود که برای تلفظ صحیح اجباراً لاتینکلمات به صورت پانویس متن آورده شود که همین امر باعث اتلاف وقت و انرژی می*شود. کهالبته همین لاتین*نویسی هم قاعده خاصی ندارد و هر ناشر و نویسنده*ای سلیقه خاص خودشرا برای آوانویسی حروف فارسی به لاتین دارد. که به عنوان نمونه برای نشان دادن حرکتفتحه و الف و آ هیچ*گونه هماهنگی در کتاب*ها و خصوصا فرهنگ*های مختلف دیده نمی*شود. ”هر چند برخی معتقدند همین ننوشتن حرکات مزیتی است و موجب تندنویسیمی*شود“[5].
2.برای یک حرف چند علامت مختلف داریم مانند علامت*های (س،ص، ث) کههر سه در فارسی یکسان خوانده می*شوند و هم چنین (ذ، ز، ض، ظ) و نیز (ت، ط). البتهاین امر در زبان انگلیسی هم وجود دارد چنان که «ف» ممکن است به شکل*های «F. GH. PH. V » باشد.
3.یک علامت را برای دلالت بر چند حرف مختلف استعمال می*کنیم مانند "و" که پنج مورد نوشتن دارد یکی برای بیان ضمه در کلمات "خوش" و "تو". دیگر بیان مصوتممدود یا "واو ماقبل مضموم" مانند "شور" و "او". سوم بیان حرف صامت "واو" در کلماتیچون "آواز" و "والی" و "عفو" . چهارم بیان حرف مصوت مرکبی که در کلمات "نو" و "جوشن" و مانند آن*هاست. پنجم حرفی که در زبان کنونی خوانده نمی*شود مانند "واومعدوله" در کلمات "*****" و "خواستن" و "واو" در کلمه "عمرو"[6]
4.حرف*هایی همهست که در کلمات خاصی از نوشتن حذف می*شود مانند "الف" در کلمات "اسحق" و "اسمعیل" و "الله"
5.نقطه*هایی متعدد در بالا و پائین حرف که هم سبب دشواری و هم موجباشتباه در خواندن می*شود. اهمیت بیش از حد نقطه درخط فارسی هنگام تشخیص نوریکاراکترها[7] تولید اشکال اساسی می*کند. به عنوان مثال در نظر بگیرید که تفاوت ‹ر› و ‹ز› و یا تفاوت ‹د› و ‹ذ› و یا تفاوت ‹ب› ‹ت› ‹ پ› ‹ث› فقط در نقطه است و چوننقطه جزء بسیار کوچکی است در این امر مشکلات زیادی را فرا روی متخصصین قرار می*دهد. و یا کلمات زیر را در نظر بگیرید که با یک یا چند نقطه عوض می*شوند (بُر، بَر، پُر،پَر، تَر، پُز، پَز، بُز، تِز).
6. یک عیب دیگر هم که برای خط فارسی ذکرکرده*اند این است که از راست به چپ نوشته می*شود. و برای این مورد دلایل مختلفی ذکرشده است از جمله عدم هماهنگی و ایجاد مشکل در نوشتن متون ریاضی و شیمی و نت*هایموسیقی و دستورات شطرنج و این* که خط تصویری یعنی علائم گرافیکی که در کل جهاناستفاده می*شود مانند علائم راهنمائی و رانندگی تماماً از چپ خواندهمی*شوند.
7.پیوسته*نویسی و جدا*نویسی کلمات مرکب که در اکثر موارد به صورتسلیقه*ای عمل می*شود مانند تنوع استفاده از ‹می› چسبان و غیر چسبان و یا تنوع نحوهبه کار بردن «علامت*های جمع ‹ها، ان، جات› ، هم، هیچ، که، (ضمایر شخصی متصل مان،تان، شان)، شناسی، را، چه، چون، تر، ترین، بی (پیشوند نفی)، به، ای (نشانه ندا)، آنو این» در کلمات به صورت پیوسته و یا جدا گانه: (آنچه ، آن چه)؛ (همچنانکه،همچنان*که) ؛ (جنابعالی، جناب*عالی)؛ (هیچکس، هیچ*کس)؛ (میتواند، می*تواند)؛ (آنها، آنها) در این مورد کلماتی که پیشوند و یا پسوند دارند نیز در شکل*های مختلفنوشته می*شوند. برخی از کلمات در دو شکل متصل*نویسی و منفصل*نویسی به دو شکل مختلفظاهر می*شوند، مانند «علاقمند و علاقه*مند؛ اندیشمند و اندیشه*مند». مصدرها وفعل*های مرکب و اسم*های مشتق از آنها نیز به دو صورت متصل و منفصل نوشته می*شوندمانند «نگه*داشتن و نگهداشتن». در جستجوی مطالب از اینترنت این مورد تولید اشکالمی*کند چنانکه جستجوی «هیچ*کس» نتایج متفاوتی را با جستجوی «هیچکس» می*آورد و یاجستجوی «کتاب*شناسی» و «کتابشناسی» در موتور جستجوی گوگل نتایج متفاوتی را ارائهمی*کند. این گونه کلمات با این که در خواندن متن اشکال کمی به وجود می*آورند و هرآشنای به زبان فارسی به راحتی می*تواند آن را بخواند اما در فن*آوری امروزه و تجزیهو تحلیل کلمات به کمک رایانه اشکال اساسی تولید می*کند و شاید اگر قاعده*ای جامع ومانع برای آن وضع گردد، بتوان گفت بزرگ*ترین مشکل خط فارسی حل شده است. منظور اینکه، برای مثال خواندن سه کلمه «بی*حوصلگی، بیحوصلگی، بی*حوصله*گی» مشکلی ایجادنمی*کند. اما در محیط الکترونیکی و شبکه اینترنت برای بازیابی این کلمه بایستی برایتمام اشکال این کلمه، جستجو را انجام دهیم، البته اگر آگاهی از تمام اشکال نوشتاریآن داشته باشیم.آآ
8.سی و دو حرف الفبای فارسی همراه با چهار علامت مد، همزه،تنوین، تشدید به 130 شکل مختلف ظاهر می*شوند و تفاوت این اشکال در اتوماسیون خطفارسی تولید اشکال می*کند. « تنوع و تعدد نویسگان، یادگیری زبان و خط فارسی را برایآموزگار و آموزنده دشوار و برای نوآموز توان*فرسا می*سازد. تعداد زیاد نویسگان دررابطه با اتوماسیون زبان توسط رایانه مشکلاتی در خصوص تعداد و ترتیب قرار گرفتننویسگان در جداول کد ایجاد می*نماید و طراحان کد در جای دادن این تعداد نویسه درجداول با مساله کمبود جا رو به رو هستند. هر چند که مشکل جا با کد 16 بیتی حل شدهاست اما مسایل دیگری همچنان باقی می*مانند که احتیاج به برطرف شدن دارند»[8]
9. نوشتن ک و گ (کـ گـ ک گ گ ک) در اشکال مختلف نیز باعث سردرگمی و عدم جستجوی صحیحمی*شود.
10. در اغلب اوقات یک فاصله اضافی معنی متفاوتی و یا متضادی را می*دهد (مثل مادر ، ما در.
11. سه کرسی مختلف برای حرف*های مختلف الفبا باعث می شود کهدر مقایسه با اکثر زبان*ها تعداد سطرهای هر صفحه به مراتب بیش*تر گردد چون برخیحروف روی خط کرسی قرار می*گیرند و برخی پائین خط کرسی و برخی بالای خط کرسی مثل (اب م )
12.از آنجائیکه حروف در نوشتن غالباً به صورت چسبیده و پیوسته نوشتهمی*شوند و این امر تشخیص حرف به حرف نوشته به وسیله رایانه را، دچار مشکلمی*کند.
13. در او. سی. آر. فارسی هم چنین اعداد نیز مشکل ساز هستند چنانچه صفردر فارسی یک نقطه کوچک است که می*تواند رایانه را به اشتباه بیاندازد و نیز اعداد 1و 2 و 3 بسیار شبیه هم هستند و تفاوت*شان در یک دندانه کوچک است.
14. تنوعاملائی یا تنوع در رسم الخط بعضی از کلمات که همه شکل*های آن نیز درست است مانند( اتاق و اطاق) و یا (امپراتور و امپراطور). و کلماتی که فقط یک شکل آنها صحیحمی*باشد ولی شکل ناصحیح آن نیز زیاد استفاده می*شود مانند «ذغال و زغال؛ خوشنود وخشنود». البته این جدای از تنوع در مفهوم کلمات است که در دیگر زبان*ها نیز وجوددارد، یعنی برای بعضی از مفاهیم ممکن است کلمات متنوعی استفاده بشود. مانندکامپیوتر و رایانه.
15. بکار بردن همزه درصورت*های مختلف مانند (مساله، مسئله) *؛ (مسئول، مسوول)
16. استفاده از ‹ا› و ‹آ› به جای یکدیگر مانند (فرایند وفرآیند)
17. شکل*های مختلف ضبط نامهای بیگانه در فارسی: ورود واژه*های بیگانهمعمولا از راه ورود پدیده*های فرهنگی نو در عرصه*های مختلف فنی ، علمی، اجتماعی،سیاسی و هنری و .... و یا از طریق افراد دو زبانه انجام می*گیرد که به قرض*گیریزبان معروف است و کم و بیش در تمام زبان*ها وجود دارد. واژه*های بیگانه اغلب برایپر کردن خلاء واژه*های علمی و یا ارتباطی سودمند هستند، اما وجود آن*ها مسائلی ازقبیل چگونگی ضبط آن*ها در زبان قرض*گیرنده را به* وجود می*آورد. برای ضبط واژه*هایقرضی به سبب اختلاف فاحش نشانه*های الفبای فارسی با نشانه*های الفبای خارجی مشکلاتجدی وجود دارد. از جمله این که الفبای فارسی آوانگار نیست و به همین جهت در ضبطدقیق تلفظ واژه*های زبان فارسی نیز ناتوان است و این ناتوانی در ضبط واژه*هایبیگانه به مراتب بیش*تر است و این که در مورد برگردان اسامی خارجی به خط فارسیقاعده خاصی وجود ندارد و هر کس بنا بر سلیقه و ذوق خود این کار را انجام می*دهد کهدر نتیجه یک کلمه واحد به صورت*های مختلف نوشته می*شود. برای مثال (اتومبیل واتوموبیل)؛ (کلسیم، کلسیوم، کالسیوم) و یا اسم Franklin به صورت (فرانکلین،فرانکلن، فرنکلین، فرنکلن) ضبط شده است. خانم صدیق بهزادی این مشکلات را به سه دستهتقسیم کرده است: ” 1- نام*هایی که در برگردان آن*ها هم*خوان*ها ایجاد مشکل می*کنند. 2 – نام*هایی که در برگردان آن*ها واکه*های ساده مشکلاتی را به* وجود می*آورند . 3 – و سوم نام*هایی که در برگردان آن*ها مشکل اصلی مربوط به واژه*های مرکب است[9].
18.استفاده یا عدم استفاده از ‹ی› در کلمات مختوم به ‹الف › مانند (موسی وموسا)
19.استفاده یا عدم استفاده از ‹ء› برای کلمات مختوم به های بیان حرکت درحالت مضاف مانند (خانه مسکونی و خانهء مسکونی و یا خانه*ی مسکونی)
20.استفادهیا عدم استفاده از اعراب برای کلمات.
21.انواع مختلف جمع برای یک واژه مفرد: بهعنوان مثال جمع بستن یک واژه با علایم جمع فارسی وعلایم جمع عربی و نیز جمع بستن بیقاعده (جمع مکسر)، استفاده ازجمع جمع، مانند (معلم، معلمین، معلمان،معلم*ها).
22.تنوین*های زبان عربی نیز از جمله دشواری*های رعایت اصل هم*خوانینوشتاری و گفتاری هستند.
23.در نگارش یاء وحدت یا نکره در آخر کلماتی که به هاءمختفی یا غیر ملفوظ ختم می*شوند سه نوع املاء* دیده می*شود. (خانه*ای، خانه*یی،خانة)
24.کلمه*های عربی در شکل*های گوناگون در زبان فارسی نوشته می*شوند. (مبدا، مبداء)؛ (ابتدا، ابتداء)؛ (نسبتاً، نسبته، نسبتا) و ....
25.ناتوانی خطفارسی در نشان دادن تلفظ واژه*های ایران باستان و میانه و گویش*ها و لهجه*هایایرانی و واژه*های بیگانه حتی با نشانه*ها.
26.وجود دندانه*های متعدد درکلماتخواندن کلمات و به خصوص در او.سی.آر. فارسی ایجاد اشکال می*کند مانند کلمات: نشستنو استشهاد.
27. حروف فارسی غالباً مشابه*اند و با اندگی غفلت به جای هم نوشتهمی*شوند و مطلب را به کلی دگرگون می*کنند مانند (در، رد، ور)