آیا هوش مصنوعی می‌تواند طنز را درک کند؟

ماشین‌ها تقریبا هیچ‌چیزی نمی‌فهمند و طنز نیز از این قاعده مستثنی نیست؛ اما یادگیری ماشین شاید بتواند ما را در تغییر این وضعیت یاری دهد.

بسیاری از ظرافت‌های نوشتار، ازجمله طنز، در اینترنت از بین می‌رود؛ به‌همین‌دلیل، مطالب طنز مانند مطالب اندی بورویتز در مجله‌ی نیویورکر باید برچسب «طنز» بخورند تا مطمئن شوند طنزبودن آن را درک خواهیم کرد. در سال‌های اخیر، دانشمندان نگران این موضوع شده‌اند که چه چیزی در نوشتار به‌درستی درک نمی‌شود که طنز به‌جای حقیقت و اطلاعات نادرست به‌جای طنز سوءبرداشت می‌شود؟ از‌این‌رو، تلاشی جهانی برای توسعه‌ی نوعی از فناوری یادگیری ماشین شکل گرفت که بتواند طنز را از دروغ‌های ظریف تمییز دهد.

درحقیقت، ماشین چیز زیادی درک نمی‌کند و به‌طور قطع طنز نیز جزو استثناءها نیست؛ اما همین ماشین‌ها ممکن است بتوانند جنبه‌های متمایز نوشتار طنز را اندازه‌گیری و به شناسایی اخبار دروغین در اینترنت کمک کنند.

اخیرا محققان استارتاپ AdVerifai و دانشگاه جورج واشنگتن آمریکا و بخش کلاد Amazon AWS مقاله‌ای در کنفرانس روش‌های تجربی در پردازش زبان طبیعی سال ۲۰۱۹ هنگ‌کنگ ارائه کرده‌اند. این مقاله که شناسایی تفاوت‌های ظریف میان اخبار جعلی و طنز: استفاده از سرنخ‌های معنایی و زبانی نام دارد، براساس سال‌ها مدل‌سازی از تفاوت‌های میان اخبار جعلی و گمراه‌کننده و مقاله‌های خبری غیردقیق از یک سو و طنز از سوی دیگر حاصل شده‌ است. مقاله‌ی مذکور در کارگاه سانسور و اطلاعات اشتباه و تبلیغات سیاسی ارائه شد.

طبق نظر نویسنده‌ی ارشد این مقاله، آر. لوی از AdVerifai، نگرانی اساسی این است که تفاوت قائل‌شدن میان طنز و اخبار جعلی در عمل می‌تواند بسیار سخت باشد. این یعنی طنز قانونی ممکن است با اطلاعات گمراه‌کننده اشتباه گرفته شود؛ زیرا این نوع اطلاعات از فرمی شبیه به طنز برای پوشش خود استفاده می‌کنند. ایده‌ی کلی این تحقیق آن است که با وجود طنزبودن یک نوشته، رگه‌هایی از منطق و دانش در آن دیده شده و جامعه نیاز دارد به نوشتار طنز با دیدی دقیق‌تر و ماشینی‌تر بنگرد.

تمامی تلاش‌های پیشین برای تمایز میان طنز و اخبار ساختگی، از روش‌های ساده‌ی یادگیری ماشین بهره برده‌اند که با استفاده از مجموعه‌ای از کلمات، جنبه‌ی بسیار ساده‌ای از نوشتار را بررسی می‌کنند. برای مثال، در مطالعه‌ای که محققان دانشگاه انتاریو غربی در سال ۲۰۱۶ انجام دادند، سعی شد سیستم خودکار تشخیص طنز ایجاد شود. در این روش، به ویژگی‌های خاصی توجه می‌شد. برای نمونه، آیا در جمله‌ی نهایی مقاله ارجاعی به اشخاص و اماکن وجود دارد و درصورت وجود، آیا با سایر ارجاعات مقاله‌ مغایرت دارد یا خیر. ایده‌ی استفاده از این روش آن است که ارجاعات ناگهانی و دور از انتظار می‌تواند نشانه‌ی ابزورد و سرنخی از طنز باشد. به زبان ساده، این روش گشتن میان تعارض‌ها و براساس تئوری‌های کارشناسان زبان‌شناسی، درباره‌ی چگونگی خلق طنز است.

در روش‌های پیشین تشخیص طنز، از ارجاعات ناگهانی و دور از انتظار استفاده می‌شد که می‌تواند سرنخی از طنز باشد

در روشی که لوی و همکارانش در پیش گرفته‌اند، یادگیری ماشین اندکی پیش‌تر رفته و از ابزار بسیار محبوب پردازش زبان طبیعی BERT گوگل استفاده شده‌ است. این ابزار شبکه‌ی یادگیری عمیقی است که در آزمایش‌های متعدد درک زبان در سال‌های اخیر دستاوردهای درخورتوجهی داشته‌ است.

این محققان نسخه‌ای از قبل تمرین‌داده‌شده از BERT را با ستونی از مقالات منتشرشده طنز و جعلی بهبود بخشیده‌اند. این دیتاست سال گذشته در دانشگاه مریلند ساخته شد و مشتمل بر ۲۸۳ مقاله‌ی خبری جعلی و ۲۰۳ مقاله‌ی طنز درباره‌ی سیاست ایالات متحده در بازه زمانی ژانویه ۲۰۱۶ تا اکتبر ۲۰۱۷ است. تمامی این مقاله‌ها را انسان‌ها به‌عنوان طنز یا جعلی دسته‌بندی کردند.

لوی و همکارانش دریافتند BERT در تشخیص طنز یا جعلی‌بودن مقالات عملکرد بسیار خوبی دارد و در آزمایش‌ها نیز از روش مرسوم پیشین کارایی بسیار بیشتری دارد؛ بااین‌حال، چگونگی این امر هنوز جای سؤال است. درست است BERT بهترین نتایج را می‌دهد؛ اما این نتایج به‌راحتی درک‌پذیر نیست. طبق فرضیات، نوعی از تشخیص الگوی معنایی در BERT جریان دارد؛ ولی همچنان با قاطعیت نمی‌توان آن را شرح داد.

استفاده از BERT بهترین نتایج را در بردارد؛ اما شفافیت ندارد و اتفاقات پس‌زمینه آن چندان درک‌پذیر نیست

برای حل این مشکل، محققان تحلیل‌های دیگری را نیز اجرا کردند. در این تحلیل‌ها از دو نوع نوشتار استفاده شد که یک دهه پیش دنیل مک‌نامارای، روان‌شناس دانشگاه ممفیس، خلق کرده‌ است. این ابزار که Coh-Metrix نام دارد، برای سنجش سختی متنی برای انسان کاربرد دارد و درک انسان از متن را مشخص می‌کند. این ابزار مبتنی‌بر نتایج مطالعات حوزه‌ی زبان‌شناسی محاسباتی است.

ابزار Coh-Metrix به لوی و همکارانش امکان می‌دهد دفعات تکرار متن خاص را بشمارند. برای مثال در متون طنز، استفاده از ضمیر اول شخص مفرد عنصری بسیار رایج است. درمقابل، اخبار جعلی معمولا از زبان سوم شخص و به‌طور مجهول نقل می‌شوند. لوی و همکارانش از تکنیکی به‌نام principle component analysis بهره برده تا این تکرارها را شناسایی کند و طنز را از اخبار جعلی تشخیص دهد. این روش از BERT دقتی کمتر، اما شفافیتی بیشتر دارد. دقیق و توضیح‌پذیر بودن این روش مانند اکثر روش‌های یادگیری ماشین‌ امروزی است. لوی و همکارانش برای ادامه‌ی تحقیقاتشان با دیتاستی بسیار بزرگ‌تر از مقالات جعلی و طنز برنامه دارند.

تمام این تلاش‌ها به چه معنا است؟ این فناوری می‌تواند به بسیاری از مؤسسه‌ها و شرکت‌ها مانند فیسبوک برای تشخیص اخبار طنز و جعلی از یکدیگر کمک کند. محققان می‌گویند تلاش آن‌ها با هدف مبارزه با اخبار دروغین و حراست از آزادی بیان است. کمترین دستاورد این محققان آن است که روش آن‌ها درمقایسه‌با روش‌های سابق کارایی و دقت بیشتری دارد. درپایان، برای شفاف‌سازی باید بگوییم ماشین‌ها هیچ‌گاه طنز را به‌گونه‌ای که ما درک می‌کنیم، درک نخواهند کرد؛ اما می‌توانیم امیدوار باشیم در آینده‌ای نه‌چندان دور، از آن‌ها در شناسایی این متون بهره خواهیم جست.

دیدگاه شما درباره‌ی این موضوع چیست؟ آیا خواهیم توانست طنز را به‌طور کامل برای ماشین‌ها تعریف کنیم؟ ماشین‌ها در درک طنز و زبان طبیعی انسان تا چه حدی پیشرفت خواهند کرد؟

شاید دوست داشته باشید