یکی از مواردی که میتوان پیشرفت هوش مصنوعی را در آن دید، خلاقیتهاییست که معمولا از کامپیوتر و ماشین انتظار نداریم. پیش از این در پست «گیتهای منطقی که هنرمند هستند» به موضوع خلاقیتهای هنری که توسط یادگیری ماشین امکانپذیر میشود پرداخته بودیم، این مقاله مربوط به استفاده از یادگیری ماشین در فرآیند داستان نویسی است. فعالیتی که پیچیده بوده و با خلاقانه و غیرقابل پیشبینی بودن، مسئله سختی برای یک سیستم کامپیوتری محسوب میشود. این مقاله ترجمه و بازنویسی از مقاله «Precursors to a Digital Muse» گوگل میباشد.
نویسنده خلید ورسان، در فستیوال نویسندگان نوظهور
پروژه آزمایشگاه خلاقیت برای نویسندگان
از گذشته نویسندگان برای داستان نویسی و ایده پردازی از ابزارهایی کمک میگرفتند. آزمایشگاه خلاقیت (Creative Lab) گوگل در سیدنی استرالیا با همکاری فستیوال نویسندگان نوظهور (Emerging Writers) پروژهای به منظور کشف پتانسیل یادگیری ماشین برای ایده پردازی در داستان نویسی به سرانجام رسانده است. از آن جا که استفاده از یادگیری ماشین برای بهبود کارهای گوناگون رواج یافته است، آزمایشگاه خلاقیت گوگل هم تصمیم گرفته که از این روش برای کمک به ایده پردازی در داستان نویسی استفاده کند. به این منظور گروهی از نویسندگان، توسعه دهندگان، مهندسان و متخصصان صنعت، در یک همکاری سه ابزار نوشتن دیجیتال مبتنی بر یادگیری ماشین را توسعه داده و در اختیار سه نویسنده نوظهور قرار دادند.
چرا از یادگیری ماشین در نوشتن استفاده کنیم؟
در میان چیزهایی که ما تاکنون توانسته ایم با کد بسازیم، مدلهای یادگیری ماشین نزدیکترین تجسم را به "خلاقیت" دارند. یادگیری ماشین با مرور چند باره دادهها قادر است الگوهای معنی دار در مجموعه دادههای بزرگ را شناسایی کند. ماشین از این راه میتواند به مفاهیم پیچیدهای دست یابد و نسبت به یک برنامه نوشته شده به دست انسان، موارد نامشخص و مبهم را بهتر مدیریت کند. به عنوان مثال زبانهای انسانی دارای قواعد پیچیده و استثناهای مختلفیست، که در نوشتههای خلاقانه نقض میشوند. در چنین مواردی که قانون مشخصی بر موضوع حاکم نیست، قدرت یادگیری ماشین بیشتر دیده میشود.
ابزارهای ساده برای تولید زبان، تنها قادر به پردازش واژگان ثابت و اختصاص احتمالهای ساده (مانند زنجیره مارکوف) هستند. مدلهای یادگیری ماشین میتوانند الگوهای دستور زبان و معناشناسی را به خوبی تقریب بزنند، به طوری که آنها را در زمینههایی به کار گیرند که کاملا متفاوت از چیزیست که بر روی آن آموزش دیدهاند. قابلیت تطابق پذیری به این مدلها اجازه میدهد تا متنهای جدیدی تولید کنند که معنی دارند و در اغلب موارد دارای شیوه بیان متفاوتی هستند.
در میان چیزهایی که ما تاکنون توانسته ایم با کد بسازیم، مدلهای یادگیری ماشین نزدیکترین تجسم را به "خلاقیت" دارند.
دست اندرکاران این پروژه پیش از شروع کار، با مشورت متخصص زبان راس گودوین (Ross Goodwin) به این نتیجه رسیدند که برای چنین کاری باید از یک مدل ترانسفورمر (Transformer Model) استفاده شود. معماری ترانسفورمرها در مقایسه با معماری شبکههای پیشین، ساختارهای طولانی و حفظ انسجام در خروجیهای بلند (به عنوان مثال یک مقاله) را به خوبی یاد میگیرند.
آشنایی با محصول
تلاشهای این آزمایشگاه منجر به توسعه سه ابزار مختلف شد:
- در میان خطوط: دو نقطه از داستان را به عنوان ورودی میگیرد (به عنوان مثال نقاط شروع و پایان داستان) و میان این دو نقطه را با داستانی پر میکند. نویسنده میتواند جمله اول و آخر، کل یا بخشی از داستان را به برنامه بدهد و برنامه با استفاده از یادگیری ماشین، میگوید در این میان چه اتفاقی افتاده است. بدین ترتیب نویسنده طرح کلی برای داستان سرایی به دست خواهد آورد.
- روزگاری از یک عمر: چند کلمه به برنامه داده میشود و برنامه یک داستان زندگی تولید میکند که آن کلمهها در این داستان به کار رفتهاند. بدین شکل نویسنده میتواند برای سرگذشت شخصیت داستان ایده بگیرد.
- ربات بنتر (Banter): یک چت بات است که ابتدا اطلاعاتی درباره شخصیت داستان میگیرد و سپس نویسنده با این ربات وارد گفت و گو میشود. بنتر از این مکالمه یاد میگیرد و شخصیتش را غنیتر میکند. هر چه مکالمه ادامه یابد، شخصیت غنیتر میشود
دادگان مورد استفاده
یکی از بخشهای مهم یادگیری ماشین انتخاب دادگان یا دیتایی است که با آن سیستم آموزش میبیند در این زمینه، از آنجایی که در میان خطوط ابزاری مبتنی بر موضوع اصلی داستان است از WikiPlots استفاده شد. WikiPlots یک مجموعه با داده آزاد از ویکیپدیا است و دارای بیش از ۱۱۲ هزار خلاصه موضوع اصلی کتابها و فیلمهاست. بنتر رباتی است که باید با انسان مکالمه کند، به همین دلیل در اینجا از دادگان نمایشنامه و فیلمنامه آزاد از دانشگاه کرنل استفاده شد. این مجموعه داده متشکل از 800 هزار کلمه بود و حجمی بین 5-10 مگابایت داشت. برای روزگاری از یک عمر نیز با توجه به کارکرد آن، از دادگان 34 هزار زندگینامه ویکی پدیا استفاده گردید.
بر اساس نیازمندی هر مسئله و با توجه به این که مدلهای ترنسفورمر، ساختار متن را به خوبی درک میکنند، مجموعه دادهها پیش پردازش شدند. به عنوان نمونه در مورد روزگاری از یک عمر، با استفاده از ابزاری به نام Pattern، روی هر یک از زندگینامهها یک keyword analysis انجام شد. با این کار کلمههای کلیدی هر یک از زندگینامهها استخراج شده که نشاندهنده جنبههای اصلی زندگی یک فرد است. سپس این کلمهها در ابتدای هر زندگینامه به شکل زیر قرار داده شدند:
racecar ^ driver ^ dog ^ veterinarian ^ accident ` Jane Herman was a racecar driver and dog vet, known for having a huge driving accident during the…\n |
بدین شکل توجه مدل به این کلمهها و این که با یک سمبل از یکدیگر جدا شدهاند جلب میشود. زمانی که در ورودی، چند کلمه که با همین سمبلها از یکدیگر جدا شدهاند را دریافت میکند، داستانی مرتبط با آنها را به کاربر ارائه میدهد.
خلید ورسام، یکی از نویسندگان، میگوید: «تصادفی بودن خروجی این ابزارها، به من این امکان را میدهد که عناصر جذاب برای داستان سرایی را بسیار راحتتر پیدا کنم.»
در این مقاله دیدیم که چگونه کارکنان گوگل توانستند سه ابزار با سه رویکرد مختلف تولید کنند که هر یک از آنها توانست به نویسندگان برای ایده پردازی کمک کند. یک از آنها قادر است با گرفتن جمله اول و آخر، داستانی که میان آنها رخ داده است را تولید کند. دیگری با دریافت چند کلمه ورودی قادر به تولید یک زندگینامه بر آن اساس است. و یک چت بات که پس از گرفتن یک سری اطلاعات ابتدایی از کاربر، با او وارد گفتگو میشود و در خلال آن، شخصیت داستان را غنیتر میکند.
خوراک بیشتر
ویدیو مصاحبه با نویسندگانی که از این ابزارها استفاده کردند