یکی از مواردی که می‌توان پیشرفت هوش مصنوعی را در آن دید، خلاقیت‌هایی‌ست که معمولا از کامپیوتر و ماشین انتظار نداریم. پیش از این در پست «گیت‌های منطقی که هنرمند هستند» به موضوع خلاقیت‌های هنری که توسط یادگیری ماشین امکان‌پذیر می‌شود پرداخته بودیم، این مقاله مربوط به استفاده از یادگیری ماشین در فرآیند داستان نویسی است. فعالیتی که پیچیده بوده و با خلاقانه و غیرقابل پیشبینی بودن، مسئله سختی برای یک سیستم کامپیوتری محسوب می‌شود. این مقاله ترجمه و بازنویسی از مقاله «Precursors to a Digital Muse» گوگل می‌باشد.


نویسنده خلید ورسان، در فستیوال نویسندگان نوظهور

پروژه آزمایشگاه خلاقیت برای نویسندگان

از گذشته نویسندگان برای داستان نویسی و ایده پردازی از ابزارهایی کمک می‌گرفتند. آزمایشگاه خلاقیت (Creative Lab) گوگل در سیدنی استرالیا با همکاری فستیوال نویسندگان نوظهور (Emerging Writers) پروژه‌ای به منظور کشف پتانسیل یادگیری ماشین برای ایده پردازی در داستان نویسی به سرانجام رسانده است. از آن جا که استفاده از یادگیری ماشین برای بهبود کارهای گوناگون رواج یافته است، آزمایشگاه خلاقیت گوگل هم تصمیم گرفته که از این روش برای کمک به ایده پردازی در داستان نویسی استفاده کند. به این منظور گروهی از نویسندگان، توسعه دهندگان، مهندسان و متخصصان صنعت، در یک همکاری سه ابزار نوشتن دیجیتال مبتنی بر یادگیری ماشین را توسعه داده و در اختیار سه نویسنده نوظهور قرار دادند.

 

چرا از یادگیری ماشین در نوشتن استفاده کنیم؟

در میان چیزهایی که ما تاکنون توانسته ایم با کد بسازیم، مدل‌های یادگیری ماشین نزدیکترین تجسم را به "خلاقیت" دارند. یادگیری ماشین با مرور چند باره داده‌ها قادر است الگوهای معنی دار در مجموعه داده‌های بزرگ را شناسایی کند. ماشین از این راه می‌تواند به مفاهیم پیچیده‌ای دست یابد و نسبت به یک برنامه نوشته شده به دست انسان، موارد نامشخص و مبهم را بهتر مدیریت کند. به عنوان مثال زبان‌های انسانی دارای قواعد پیچیده و استثناهای مختلفی‌ست، که در نوشته‌های خلاقانه نقض می‌شوند. در چنین مواردی که قانون مشخصی بر موضوع حاکم نیست، قدرت یادگیری ماشین بیشتر دیده می‌شود.
ابزارهای ساده برای تولید زبان، تنها قادر به پردازش واژگان ثابت و اختصاص احتمال‌های ساده (مانند زنجیره مارکوف) هستند. مدل‌های یادگیری ماشین می‌توانند الگوهای دستور زبان و معناشناسی را به خوبی تقریب بزنند، به طوری که آن‌ها را در زمینه‌هایی به کار گیرند که کاملا متفاوت از چیزیست که بر روی آن آموزش دیده‌اند. قابلیت تطابق پذیری به این مدل‌ها اجازه می‌دهد تا متن‌های جدیدی تولید کنند که معنی دارند و در اغلب موارد دارای شیوه بیان متفاوتی هستند.

 

در میان چیزهایی که ما تاکنون توانسته ایم با کد بسازیم، مدل‌های یادگیری ماشین نزدیکترین تجسم را به "خلاقیت" دارند.

 

دست اندرکاران این پروژه پیش از شروع کار، با مشورت متخصص زبان راس گودوین (Ross Goodwin) به این نتیجه رسیدند که برای چنین کاری باید از یک مدل ترانسفورمر (Transformer Model) استفاده شود. معماری ترانسفورمرها در مقایسه با معماری شبکه‌های پیشین، ساختارهای طولانی و حفظ انسجام در خروجی‌های بلند (به عنوان مثال یک مقاله) را به خوبی یاد می‌گیرند.

 

آشنایی با محصول

تلاش‌های این آزمایشگاه منجر به توسعه سه ابزار مختلف شد:

  1. در میان خطوط: دو نقطه از داستان را به عنوان ورودی می‌گیرد (به عنوان مثال نقاط شروع و پایان داستان) و میان این دو نقطه را با داستانی پر می‌کند. نویسنده می‌تواند جمله اول و آخر، کل یا بخشی از داستان را به برنامه بدهد و برنامه با استفاده از یادگیری ماشین، می‌گوید در این میان چه اتفاقی افتاده است. بدین ترتیب نویسنده طرح کلی برای داستان سرایی به دست خواهد آورد.
  2. روزگاری از یک عمر: چند کلمه به برنامه داده می‌شود و برنامه یک داستان زندگی تولید می‌کند که آن کلمه‌ها در این داستان به کار رفته‌اند. بدین شکل نویسنده می‌تواند برای سرگذشت شخصیت داستان ایده بگیرد.
  3.  ربات بنتر (Banter): یک چت بات است که ابتدا اطلاعاتی درباره شخصیت داستان می‌گیرد و سپس نویسنده با این ربات وارد گفت و گو می‌شود. بنتر از این مکالمه یاد می‌گیرد و شخصیتش را غنی‌تر می‌کند. هر چه مکالمه ادامه یابد، شخصیت غنی‌تر می‌شود


دادگان مورد استفاده

یکی از بخش‌های مهم یادگیری ماشین انتخاب دادگان یا دیتایی است که با آن سیستم آموزش می‌بیند در این زمینه، از آنجایی که در میان خطوط ابزاری مبتنی بر موضوع اصلی داستان است از WikiPlots استفاده شد. WikiPlots یک مجموعه با داده آزاد از ویکیپدیا است و دارای بیش از ۱۱۲ هزار خلاصه موضوع اصلی کتاب‌ها و فیلم‌هاست. بنتر رباتی است که باید با انسان مکالمه کند، به همین دلیل در اینجا از دادگان نمایشنامه و فیلمنامه آزاد از دانشگاه کرنل استفاده شد. این مجموعه داده متشکل از 800 هزار کلمه بود و حجمی بین 5-10 مگابایت داشت. برای روزگاری از یک عمر نیز با توجه به کارکرد آن، از دادگان 34 هزار زندگی‌نامه ویکی پدیا استفاده گردید.
بر اساس نیازمندی هر مسئله و با توجه به این که مدل‌های ترنسفورمر، ساختار متن را به خوبی درک می‌کنند، مجموعه داده‌ها پیش پردازش شدند. به عنوان نمونه در مورد روزگاری از یک عمر، با استفاده از ابزاری به نام Pattern، روی هر یک از زندگی‌نامه‌ها یک keyword analysis انجام شد. با این کار کلمه‌های کلیدی هر یک از زندگی‌نامه‌ها استخراج شده که نشان‌دهنده جنبه‌های اصلی زندگی یک فرد است. سپس این کلمه‌ها در ابتدای هر زندگی‌نامه به شکل زیر قرار داده شدند:

racecar ^ driver ^ dog ^ veterinarian ^ accident ` Jane Herman was a racecar driver and dog vet, known for having a huge driving accident during the…\n

بدین شکل توجه مدل به این کلمه‌ها و این که با یک سمبل از یکدیگر جدا شده‌اند جلب می‌شود. زمانی که در ورودی، چند کلمه که با همین سمبل‌ها از یکدیگر جدا شده‌اند را دریافت می‌کند، داستانی مرتبط با آن‌ها را به کاربر ارائه می‌دهد.

 

خلید ورسام، یکی از نویسندگان، می‌گوید: «تصادفی بودن خروجی این ابزارها، به من این امکان را می‌دهد که عناصر جذاب برای داستان سرایی را بسیار راحت‌تر پیدا کنم.»

 

در این مقاله دیدیم که چگونه کارکنان گوگل توانستند سه ابزار با سه رویکرد مختلف تولید کنند که هر یک از آن‌ها توانست به نویسندگان برای ایده پردازی کمک کند. یک از آن‌ها قادر است با گرفتن جمله اول و آخر، داستانی که میان آن‌ها رخ داده است را تولید کند. دیگری با دریافت چند کلمه ورودی قادر به تولید یک زندگی‌نامه بر آن اساس است. و یک چت بات که پس از گرفتن یک سری اطلاعات ابتدایی از کاربر، با او وارد گفتگو می‌شود و در خلال آن، شخصیت داستان را غنی‌تر می‌کند.

 

خوراک بیشتر

ویدیو مصاحبه با نویسندگانی که از این ابزارها استفاده کردند