অ্যালগরিদম যে Mastered 'পং' এখন 'Flappy বার্ড' এ চমৎকার, এখনও একা

$config[ads_kvadrat] not found

15 दिन में सà¥?तनों का आकार बढाने के आसाà

15 दिन में सà¥?तनों का आकार बढाने के आसाà
Anonim

একটি গভীর শেখার পদ্ধতি অগ্রগতি জন্য অগ্রণী পং, স্থান আক্রমণকারী, এবং অন্যান্য আটারি গেমস, স্ট্যানফোর্ড ইউনিভার্সিটির কম্পিউটার বিজ্ঞান বিভাগের কেভিন চেন একটি অ্যালগরিদম তৈরি করেছেন যা ক্লাসিক 2014 সাইড-স্ক্রোলারে বেশ ভাল। Flappy বার্ড । চেনটি "q-learning" নামে পরিচিত একটি ধারণাটিকে লিভারেজ করেছে, যার মধ্যে একটি এজেন্ট লক্ষ্য করে প্রতিফলিত হওয়ার সাথে সাথে তার পুরষ্কারের স্কোর উন্নত করতে, প্রায় অসম্ভব এবং অসম্ভাব্য আসক্ত গেমটি নিখুঁত করতে।

চেন এমন একটি সিস্টেম তৈরি করেছেন যেখানে তার অ্যালগরিদমটি তিনটি পুরস্কার খোঁজার জন্য অপ্টিমাইজ করা হয়েছে: প্রতিটি ফ্রেমের জন্য এটি একটি ছোট ইতিবাচক পুরস্কার, পাইপের মাধ্যমে পাস করার জন্য একটি বড় পুরস্কার এবং মৃত্যুর জন্য সমানভাবে বড় (কিন্তু নেতিবাচক) পুরষ্কার। এইভাবে অনুপ্রাণিত, তথাকথিত গভীর-কিউ নেটওয়ার্কটি মানুষকে চ্যালেঞ্জ করতে পারে, চেনের প্রতিবেদন অনুযায়ী, "আমরা সফলভাবে খেলাটি খেলতে সক্ষম হয়েছিলাম Flappy বার্ড পিক্সেল এবং স্কোর থেকে সরাসরি শেখার মাধ্যমে, সুপার-মানব ফলাফল অর্জন করে।"

২015 সালে প্রকাশিত মূল আতারী কাগজ প্রকৃতি, গুগল মালিকানাধীন DeepMind কোম্পানী থেকে এসেছিলেন (এখন প্রাচীন চীনা বোর্ড খেলা Go এর তার দক্ষতা জন্য বিখ্যাত)। ডিপমিন্ড সাফল্যটি একটি সাফল্যজনক ঘটনা যা এটি চাক্ষুষ - বা পিক্সেল গ্রহণ করেছিল - অন্তত - তথ্য, এবং, সর্বনিম্ন ইনপুট সহ, পুরষ্কার পুরস্কৃত করতে সক্ষম হয়েছিল। যেমন একটি পুরস্কার সিস্টেম মস্তিষ্কের dopaminergic প্রতিক্রিয়া সঙ্গে তুলনা করা হয়েছে, শুধু সরলীকৃত।

অ্যালগরিদম প্রথমবার ফ্ল্যাপিং পাখিকে জয় করে নি: স্ট্যানফোর্ড ইউনিভার্সিটির কম্পিউটার বিজ্ঞান বিজ্ঞানের প্রথম শ্রেণীর একটি প্রোগ্রাম তৈরি করেছিল, যখন রাতে প্রশিক্ষিত হয়, তখন তার স্কোর 0 টি পাইপ থেকে 1,600 হয়ে যায়।

$config[ads_kvadrat] not found