ماشینها تقریبا هیچچیزی نمیفهمند و طنز نیز از این قاعده مستثنی نیست؛ اما یادگیری ماشین شاید بتواند ما را در تغییر این وضعیت یاری دهد.
بسیاری از ظرافتهای نوشتار، ازجمله طنز، در اینترنت از بین میرود؛ بههمیندلیل، مطالب طنز مانند مطالب اندی بورویتز در مجلهی نیویورکر باید برچسب «طنز» بخورند تا مطمئن شوند طنزبودن آن را درک خواهیم کرد. در سالهای اخیر، دانشمندان نگران این موضوع شدهاند که چه چیزی در نوشتار بهدرستی درک نمیشود که طنز بهجای حقیقت و اطلاعات نادرست بهجای طنز سوءبرداشت میشود؟ ازاینرو، تلاشی جهانی برای توسعهی نوعی از فناوری یادگیری ماشین شکل گرفت که بتواند طنز را از دروغهای ظریف تمییز دهد.
درحقیقت، ماشین چیز زیادی درک نمیکند و بهطور قطع طنز نیز جزو استثناءها نیست؛ اما همین ماشینها ممکن است بتوانند جنبههای متمایز نوشتار طنز را اندازهگیری و به شناسایی اخبار دروغین در اینترنت کمک کنند.
اخیرا محققان استارتاپ AdVerifai و دانشگاه جورج واشنگتن آمریکا و بخش کلاد Amazon AWS مقالهای در کنفرانس روشهای تجربی در پردازش زبان طبیعی سال ۲۰۱۹ هنگکنگ ارائه کردهاند. این مقاله که شناسایی تفاوتهای ظریف میان اخبار جعلی و طنز: استفاده از سرنخهای معنایی و زبانی نام دارد، براساس سالها مدلسازی از تفاوتهای میان اخبار جعلی و گمراهکننده و مقالههای خبری غیردقیق از یک سو و طنز از سوی دیگر حاصل شده است. مقالهی مذکور در کارگاه سانسور و اطلاعات اشتباه و تبلیغات سیاسی ارائه شد.
طبق نظر نویسندهی ارشد این مقاله، آر. لوی از AdVerifai، نگرانی اساسی این است که تفاوت قائلشدن میان طنز و اخبار جعلی در عمل میتواند بسیار سخت باشد. این یعنی طنز قانونی ممکن است با اطلاعات گمراهکننده اشتباه گرفته شود؛ زیرا این نوع اطلاعات از فرمی شبیه به طنز برای پوشش خود استفاده میکنند. ایدهی کلی این تحقیق آن است که با وجود طنزبودن یک نوشته، رگههایی از منطق و دانش در آن دیده شده و جامعه نیاز دارد به نوشتار طنز با دیدی دقیقتر و ماشینیتر بنگرد.
تمامی تلاشهای پیشین برای تمایز میان طنز و اخبار ساختگی، از روشهای سادهی یادگیری ماشین بهره بردهاند که با استفاده از مجموعهای از کلمات، جنبهی بسیار سادهای از نوشتار را بررسی میکنند. برای مثال، در مطالعهای که محققان دانشگاه انتاریو غربی در سال ۲۰۱۶ انجام دادند، سعی شد سیستم خودکار تشخیص طنز ایجاد شود. در این روش، به ویژگیهای خاصی توجه میشد. برای نمونه، آیا در جملهی نهایی مقاله ارجاعی به اشخاص و اماکن وجود دارد و درصورت وجود، آیا با سایر ارجاعات مقاله مغایرت دارد یا خیر. ایدهی استفاده از این روش آن است که ارجاعات ناگهانی و دور از انتظار میتواند نشانهی ابزورد و سرنخی از طنز باشد. به زبان ساده، این روش گشتن میان تعارضها و براساس تئوریهای کارشناسان زبانشناسی، دربارهی چگونگی خلق طنز است.
در روشهای پیشین تشخیص طنز، از ارجاعات ناگهانی و دور از انتظار استفاده میشد که میتواند سرنخی از طنز باشد
در روشی که لوی و همکارانش در پیش گرفتهاند، یادگیری ماشین اندکی پیشتر رفته و از ابزار بسیار محبوب پردازش زبان طبیعی BERT گوگل استفاده شده است. این ابزار شبکهی یادگیری عمیقی است که در آزمایشهای متعدد درک زبان در سالهای اخیر دستاوردهای درخورتوجهی داشته است.
این محققان نسخهای از قبل تمریندادهشده از BERT را با ستونی از مقالات منتشرشده طنز و جعلی بهبود بخشیدهاند. این دیتاست سال گذشته در دانشگاه مریلند ساخته شد و مشتمل بر ۲۸۳ مقالهی خبری جعلی و ۲۰۳ مقالهی طنز دربارهی سیاست ایالات متحده در بازه زمانی ژانویه ۲۰۱۶ تا اکتبر ۲۰۱۷ است. تمامی این مقالهها را انسانها بهعنوان طنز یا جعلی دستهبندی کردند.
لوی و همکارانش دریافتند BERT در تشخیص طنز یا جعلیبودن مقالات عملکرد بسیار خوبی دارد و در آزمایشها نیز از روش مرسوم پیشین کارایی بسیار بیشتری دارد؛ بااینحال، چگونگی این امر هنوز جای سؤال است. درست است BERT بهترین نتایج را میدهد؛ اما این نتایج بهراحتی درکپذیر نیست. طبق فرضیات، نوعی از تشخیص الگوی معنایی در BERT جریان دارد؛ ولی همچنان با قاطعیت نمیتوان آن را شرح داد.
استفاده از BERT بهترین نتایج را در بردارد؛ اما شفافیت ندارد و اتفاقات پسزمینه آن چندان درکپذیر نیست
برای حل این مشکل، محققان تحلیلهای دیگری را نیز اجرا کردند. در این تحلیلها از دو نوع نوشتار استفاده شد که یک دهه پیش دنیل مکنامارای، روانشناس دانشگاه ممفیس، خلق کرده است. این ابزار که Coh-Metrix نام دارد، برای سنجش سختی متنی برای انسان کاربرد دارد و درک انسان از متن را مشخص میکند. این ابزار مبتنیبر نتایج مطالعات حوزهی زبانشناسی محاسباتی است.
ابزار Coh-Metrix به لوی و همکارانش امکان میدهد دفعات تکرار متن خاص را بشمارند. برای مثال در متون طنز، استفاده از ضمیر اول شخص مفرد عنصری بسیار رایج است. درمقابل، اخبار جعلی معمولا از زبان سوم شخص و بهطور مجهول نقل میشوند. لوی و همکارانش از تکنیکی بهنام principle component analysis بهره برده تا این تکرارها را شناسایی کند و طنز را از اخبار جعلی تشخیص دهد. این روش از BERT دقتی کمتر، اما شفافیتی بیشتر دارد. دقیق و توضیحپذیر بودن این روش مانند اکثر روشهای یادگیری ماشین امروزی است. لوی و همکارانش برای ادامهی تحقیقاتشان با دیتاستی بسیار بزرگتر از مقالات جعلی و طنز برنامه دارند.
تمام این تلاشها به چه معنا است؟ این فناوری میتواند به بسیاری از مؤسسهها و شرکتها مانند فیسبوک برای تشخیص اخبار طنز و جعلی از یکدیگر کمک کند. محققان میگویند تلاش آنها با هدف مبارزه با اخبار دروغین و حراست از آزادی بیان است. کمترین دستاورد این محققان آن است که روش آنها درمقایسهبا روشهای سابق کارایی و دقت بیشتری دارد. درپایان، برای شفافسازی باید بگوییم ماشینها هیچگاه طنز را بهگونهای که ما درک میکنیم، درک نخواهند کرد؛ اما میتوانیم امیدوار باشیم در آیندهای نهچندان دور، از آنها در شناسایی این متون بهره خواهیم جست.
دیدگاه شما دربارهی این موضوع چیست؟ آیا خواهیم توانست طنز را بهطور کامل برای ماشینها تعریف کنیم؟ ماشینها در درک طنز و زبان طبیعی انسان تا چه حدی پیشرفت خواهند کرد؟