لزوم حمایت از تولید نرم‌افزارهای تبدیل متن محاوره‌ای به رسمی

 
رییس مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری از اساتید و محققان حوزه زبان‌شناسی رایانشی خواست تا در راه بومی‌سازی تمام نرم‌افزارها در راستای تسهیل به‌کارگیری زبان و خط فارسی تلاش کنند.
 
دکتر محمدجواد دهقانی در آیین افتتاح همایش ملی "پژوهش‌های کاربردی در زبان‌شناسی رایانشی" ضمن بررسی جایگاه زبان فارسی به عنوان زبان علم در سطح ملی و بین‌المللی، رشد تولیدات علمی به زبان فارسی در ۴۰ سال اخیر در دنیا را تشریح و بر وجود پتانسیل بالا برای حضور فارسی زبانان در تمام حوزه‌های موضوعی تاکید کرد.
 
دهقانی با اشاره به اهمیت توجه و حمایت از فعالیتهای علمی در حوزه زبانشناسی رایانشی، انجام پژوهش‌های کاربردی و زیربنایی در حوزه‌های پردازش زبان و خط فارسی از جمله پردازش زبان طبیعی، پردازش متن، سرقت ادبی، پیکره‌های زبانی، ویرایشگرها و تولید منابع را ضروری دانست.
 
وی از اساتید و محققان این حوزه خواست تا در راه بومی‌سازی تمام نرم‌افزارها در راستای تسهیل به‌کارگیری زبان و خط فارسی تلاش کنند.
 
دهقانی، تشویق نشریات و همایش‌های کلیه حوزه‌های علمی به استفاده از زبان فارسی به عنوان زبان علم، برنامه‌ریزی برای استانداردسازی و ارتقای جایگاه نشریات فارسی در پایگاه‌های استنادی بین‌المللی و اهتمام بیشتر حوزه‌های هنر، علوم انسانی و اجتماعی به نقش‌آفرینی در سطح بین‌المللی در ترویج زبان فارسی را از جمله راهکارهای مهم برای غنی‌سازی و ارتقای کیفی و کمی مدارک به زبان فارسی برشمرد.
 
دکتر آیت‌الله رزمجو، نماینده استانداری فارس در شورای عالی علوم، تحقیقات و فناوری نیز در این همایش به ارائه گزارش و بررسی تاثیر زبان فارسی بر رشد و توسعه ملی و بین المللی کشور پرداخت.
 
در ادامه، دکتر محمدرضا فلاحتی قدیمی فومنی، دبیر علمی این همایش نیز با تشریح سیاستهای علمی و اهدافِ برپایی همایش  گفت: برای برگزاری همایش از بهمن ۹۷ فعالیت‌ها آغاز شد و مصوبه گروه اخذ شد و در اسفند ۹۷، هیات رئیسه مرکز آن را مصوب کرد و سپس در اسفند ۹۷ برگزاری این همایش در سطح ملی مورد تصویب شورای علمی مرکز منطقه‌ای به عنوان بالاترین نهاد اجرایی و سیاستگذاری در سازمان قرار گرفت.
 
وی افزود: سپس، احکام رئیس (دکتر محمدجواد دهقانی)،  قائم مقام (دکتر محمدرضا صالحی) ، دبیر علمی (دکتر محمدرضا فلاحتی قدیمی فومنی ) و دبیر اجرایی همایش (دکتر محمد هادی فلاحی) تعیین شد و این تیم کار خود را با همکاری اعضای هیات علمی همایش آغاز کرد. تعداد ۵۷ چکیده و پیرو آن ۴۳ مقاله تمام متن دریافت شد که در نهایت ۱۹ مقاله مورد پذیرش قرار گرفت که ۱۵ مورد از آنها برای ارائه حضوری انتخاب شدند. همچنین در این همایش دو کارگاه آموزشی و همچنین جلسه مدیران گروه‌های پژوهشی برگزار خواهد شد.
 
دکتر بلقیس روشن، رییس انجمن زبان‌شناسی ایران در بخش دیگری از این همایش با تشریح نظام‌های نوشتاری رایج در جهان بر نقش هر یک از زبان‌شناسان برجسته کشور در رفع نیازهای علمی حوزه زبان‌شناسی رایانشی تاکید کرد.
 
روشن، ضمن تشکر از پژوهش‌های دکتر عاصی در حوزه صرف رایانشی، تحقیقات و تلاش‌های دکتر بیجن خان را در حوزه داده‌شناسی گونه‌های محاوره‌ای بی‌بدیل دانست.
 
در ادامه، دکتر محمود بی‌جن‌خان، استاد زبان شناسی دانشگاه تهران به عنوان سخنران کلیدی دوم به موضوع «داده‌شناسی متون محاوره‌ای در خط و زبان فارسی» پرداخت.
 
وی موضوعاتی همچون پردازش رایانه‌ای متون محاوره‌ای، داده‌های گونه محاوره‌ای، سیاق‌های گونه محاوره‌ای، فرایندهای واجی، مقوله‌های صرفی-نحوی،  بن واژه‌سازی و واژگان محاوره‌ای بر اساس قانون زیف (یکی از قوانین مرتبط با مطالعه مشخصه‌ها و فرآیندهای مرتبط با مدارک) را تشریح کرد.
 
استاد زبان شناسی دانشگاه تهران افزود: همانطور که در فضای واقعی در هر موقعیت ارتباطی از گونه رسمی یا محاوره‌ای که مناسب با آن موقعیت باشد، استفاده می‌کنیم، در فضای مجازی نیز متناسب با موقعیت ارتباطی بر حسب سرعت و دقت مورد نیاز از متن رسمی و محاوره‌ای استفاده می‌شود. برای کاستن از حجم متون محاوره‌ای در فضای مجازی اولا نیاز داریم کاربران از سطح ابتدایی با شیوه نگارش درست آشنا شوند و ثانیا باید از تولید نرم‌افزارهای تبدیل متن محاوره‌ای به رسمی حمایت شود.
 
بی‌جن‌خان در ادامه برای اجرای راهکار دوم به بعضی از پیچیدگی‌های پردازش متون محاوره ای اشاره کرد.
 
پس از آئین افتتاح این همایش، دو پنل  به صورت موازی و هریک با ارائه چهار سخنرانی برگزار شد. این همایش، با چهار پنل شامل هفت سخنرانی و دو کارگاه آموزشی ادامه خواهد یافت. کارگاه اول با عنوان «آشنایی با ترجمه ماشینی عصبی با معرفی روشtensor to tensor » توسط دکتر مجتبی صباغ جعفری، استادیار هوش مصنوعی دانشگاه ولیعصر رفسنجان و دکتر پریا رزمدیده استادیار زبانشناسی دانشگاه ولیعصر رفسنجان برگزار می‌شود.
 
کارگاه دوم با موضوع «آشنایی با نرم‌افزار واژه‌نمای انت‌کانک (AntConc)  توسط دکتر امیر سعید مولودی، استادیار بخش زبان‌های خارجی و زبانشناسی دانشگاه شیراز تدریس می‌شود. پس از اختتامیه این همایش، بررسی مسائل زبانشناسی با حضور اساتید مدعو مورد بررسی قرار خواهد گرفت. همچنین در حاشیه این همایش نمایشگاه نشریات فارسی حوزه زبان فارسی نیز برگزار می‌شود.
 
بر اساس اعلام روابط عمومی مرکز منطقه ای اطلاع رسانی علوم و فناوری (رایسست)، محورهای این همایش حوزه‌های مختلف زبانشناسی رایانشی است و موضوعاتی در حیطه‌های گوناگون از جمله نظریه‌ها و قالب‌های زبان‌شناسی رایانشی، بازنمود دانش زبانی، روش‌های آماری در زبان‌شناسی رایانشی، پردازش زبان طبیعی، پردازش متن، وب معنایی، واژه‌سازی رایانشی، برچسب‌دهی مقوله‌های گفتار، نحو رایانشی و زبان‌شناسی پیکره‌ای در این همایش مطرح می شوند.
 
گروه پژوهشی زبانشناسی رایانشی مرکز منطقه‌ای، نخستین همایش ملی پژوهش‌های کاربردی در زبانشناسی رایانشی با تاکید بر خط و زبان فارسی را در تاریخ ۹ و ۱۰ اسفند ۹۶ در محل مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری(رایسست) برگزار کرد. گروه پژوهشی زبانشناسی رایانشی رایسست از سال ۱۳۸۰ مشغول فعالیت بوده و از سال ۱۳۹۳ نیز به جذب دانشجوی کارشناسی ارشد در حوزه های زبانشناسی رایانشی پرداخته که تا سال ۹۷ چهار ورودی داشته است که در هر دوره ۶ دانشجو پذیرش می‌شود.

رشد سهم محتوای فارسی در اینترنت؛ تا هدف چقدر فاصله داریم؟

 
سهم محتوای زبان فارسی در اینترنت با ۰.۲ درصد رشد نسبت به سال گذشته، به ۲.۱ درصد رسید، اما هنوز تا هدف چهار برابر شدنی که سازمان فناوری اطلاعات در یک بازه چهار ساله در نظر گرفته بود، فاصله دارد.
 
درحالی که سهم محتوای فارسی در اینترنت تا سال گذشته ۱.۹ درصد بود، اخیرا رضا باقری اصل - دبیر شورای اجرایی فناوری اطلاعات - در توییتر اعلام کرده که بر اساس گزارش W۳Tech تا ۳۰ ماه سپتامبر ۲۰۱۹ (۸ مهر ۱۳۹۸)، سهم محتوای فارسی اینترنت به ٢.١ درصد رسید و در در جایگاه هشتم جهان قرار گرفت.
 
این درحالی است که طبق این گزارش، زبان انگلیسی توسط ۵۴.۵ درصد از وب‌سایت‌ها مورد استفاده قرار می‌گیرد و پس از آن، زبان روسی با ۶.۷ درصد قرار دارد. همچنین در رتبه‌های بالاتر از زبان فارسی، آلمانی با ۵.۳ درصد، اسپانیایی با ۴.۸ درصد، فرانسوی با ۳.۷ درصد، ژاپنی با ۳.۴ درصد و پرتغالی با ۲.۷ درصد قرار دارد.
 
 
اما یکی از شاخص‌های مورد نیاز برای توسعه شبکه ملی اطلاعات، همواره تولید محتوای بومی بوده است؛ همان‌طور که در بسیاری از موارد ادعا می‌شود، زیرساخت‌های فنی شبکه ملی اطلاعات آماده است و اکنون نوبت بخش محتواست که با تکمیل و توسعه، این فرآیند را تکمیل کند. در این راستا سال گذشته، تفاهمنامه‌ای توسط وزارت ارتباطات و فناوری اطلاعات و سازمان اسناد و کتابخانه ملی ایران با هدف گسترش زبان و محتوای فارسی در وب منعقد شد.
 
محمدجواد آذری جهرمی- وزیر ارتباطات و فناوری اطلاعات - درباره این تفاهم‌نامه گفته بود: قرار است تمام اسناد کتابخانه ملی که قابل نشر است، در یک بازه زمانی به صورت نسخه دیجیتالی با استانداردهای مناسب دربیاید و همه این اطلاعات به صورت اوپن دیتا در اختیار کسب‌وکارها برای توسعه اشتغال قرار می‌گیرد. در حوزه نشر آثار ما نیاز داشتیم گامی به سمت دیجیتال کردن اطلاعات را برداریم و محتوای غنی موجود در کتابخانه ملی که به عنوان حافظه تاریخی ایرانیان است را منتشر کنیم و امیدواریم با این کار به سمت چهار درصدی خط و زبان فارسی در وب برسیم.
 
همچنین رسول سراییان -رئیس سابق سازمان فناوری اطلاعات- درباره افزایش محتوای بومی گفته بود: شاخصی در فضای وب در بین‌الملل داریم که صفحات وب را در زبان‌های مختلف و در محیط بیرون اندازه‌گیری می‌کند. یک سایت هم دارد که همه به آن دسترسی دارند. این شاخص صفحات وب را در بازه‌های زمانی مختلف به زبان‌های مختلف می‌شمارد و سپس زبان‌های مختلف را رتبه‌بندی می‌کند.
 
وی اما به راه‌های افزایش تولید محتوا اشاره و اظهار کرده بود: کل فارسی‌زبانان دنیا، علاوه بر ایران، تمامی فارسی‌زبانان اطراف ما که بالغ بر ۲۰۰ میلیون جمعیت هستند به اضافه فارسی زبانان کشورهای دیگر را شامل می‌شوند. تفاهم‌نامه‌ای با مرکز ملی اسناد مطرح شد، کاری که در حوزه تولید محتوا توسط استارت‌آپ‌ها شکل می‌گیرد، توسعه‌ی زیرساخت‌های خط زبان فارسی، همه این موارد به تولید محتوا کمک می‌کند.
 
بر این اساس، سهم محتوای فارسی در سال ۹۶، حدود ۰.۷ درصد بود که سال گذشته به حدود ۱.۹ درصد افزایش پیدا کرده و بالاتر از سهم زبان چینی، عربی و ترکی قرار گرفت و سازمان فناوری اطلاعات برای دو برابر کردن این سهم و رسیدن به چهار درصد در طی چهار سال تلاش می‌کند.