Pendekatan baru OpenAI untuk pembelajaran tiruan sekali gus, melihat masa depan AI

Pembelajaran Peniruan Satu Tembakan Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

Pada 16 Mei, para penyelidik OpenAI berkongsi video salah satu projek mereka bersama dengan dua makalah penting yang meneroka penyelesaian kepada tiga halangan utama pembangunan AI semasa: pembelajaran meta, pembelajaran satu arah, dan penjanaan data automatik. Dalam catatan saya yang lalu, saya berjanji pada sebuah artikel yang khusus untuk masalah pembelajaran one-shot yang menarik, jadi begitulah. Anda boleh bermula dengan melihat video yang mereka keluarkan yang menerangkan karya mereka yang luar biasa:

Dalam video ini, anda melihat robot fizikal satu tangan saling menumpuk kiub di atas satu sama lain. Mengetahui tugas-tugas rumit yang dapat dilakukan oleh robot perindustrian, sekiranya penyelidik tidak berusaha menjelaskan apa yang sedang berlaku, dalam banyak akaun ini akan menjadi sangat kurang memberangsangkan. Dalam lingkungan terkawal tugasnya sederhana, pendekatan prosedural (hard-coded) telah menyelesaikan masalah ini, apa yang menjanjikan dan revolusioner adalah seberapa besar kerangka umum di bawahnya dapat meningkatkan hingga banyak, lebih kompleks dan perilaku adaptif dalam lingkungan yang ribut.

Perbezaan fikiran antara manusia dan haiwan yang lebih tinggi, hebat seperti ini, tentu saja adalah tahap dan bukan jenis.
- Charles Darwin

Secara analogi, artikel ini adalah bukti kuat bahawa perbezaan sistem kognitif antara AI yang wujud sekarang (kecerdasan buatan sistem fizikal) dan robot abad ke-22 akan menjadi skala dan bukan jenis. Sejak persaingan ImageNet 2012 *, penyelidikan pembelajaran mendalam berkembang pesat, tidak banyak untuk mengubah sifat pengiraan yang diedarkan yang dilakukan oleh rangkaian saraf, tetapi dengan mencari cara baru untuk menyusun rangkaian agar mereka dapat mempelajari tugas tertentu. Untuk fungsi rangkaian saraf adalah struktur, struktur ini tidak dikodekan keras (tidak dirancang dengan tangan) tetapi ia adalah hasil unit pengiraan atom yang pada mulanya dihubungkan antara input dan output, yang dapat mengubah struktur dan sambungannya. Dengan mengubah struktur keseluruhan rangkaian, ia mempelajari fungsi tertentu.

Dalam artikel ini mereka membina kerangka umum yang dapat melatih agen untuk mewakili tugas secara abstrak, dan belajar untuk memindahkan pengetahuan ini ke tugas baru yang tidak dapat dilihat (transfer learning) setelah hanya satu demonstrasi tugas novel (satu pembelajaran meniru).

Tugas-tugas

Walaupun pelaksanaan seni bina yang tepat berbeza, mereka mengambil dua tugas sebagai contoh untuk menunjukkan prestasi pendekatan umum.

Mencapai zarah

Dalam contoh pertama, sistem menerima input dari posisi sasaran berwarna pada pesawat dan satu demonstrasi video ejen simulasi menuju ke sasaran yang ditentukan.

Rajah 2. Robot adalah jisim titik yang dikawal dengan daya 2 dimensi. Keluarga tugas adalah untuk mencapai mercu tanda sasaran. Identiti mercu tanda berbeza dari tugas ke tugas, dan model harus mencari sasaran yang harus dicapai berdasarkan demonstrasi. (kiri) ilustrasi robot; (tengah) tugasnya adalah untuk mencapai kotak oren, (kanan) tugasnya adalah untuk mencapai segitiga hijau.

Semasa latihan sistem harus menghasilkan semula tugas yang sama (mencapai warna jingga) tetapi dari konfigurasi lain, dengan kedudukan permulaan yang berbeza untuk robot dan sasaran. Tidak jelas sama ada semasa ujian ejen diuji pada tugas yang dilatihnya (mencapai jingga) atau pada tugas yang tidak pernah dilihatnya sebelumnya (misalnya hijau) atau kedua-duanya.

Dasar terlatih dinilai berdasarkan senario baru dan dikondisikan pada lintasan demonstrasi baru yang tidak dapat dilihat semasa latihan.

Sudah pasti bahawa ejen harus menyimpulkan sasaran sasaran dari demonstrasi yang unik dan sekali lagi bermula dari konfigurasi lain. Ini menunjukkan bahawa urutan motor yang tepat tidak dapat dipelajari sebelum diuji dan harus disimpulkan melalui pengabstrakan (perwakilan berstruktur peringkat tinggi) dari tugas dan perancangan motor.

Blok susun

Dalam contoh kedua, ejen harus belajar menumpuk kubus (dikenal dengan warna yang berbeza) dalam urutan yang sama seperti yang ditunjukkan dalam satu demonstrasi simulasi. Demonstrasi simulasi ini adalah rangkaian gambar 2D yang dihasilkan oleh mesin fizik 3D di mana sifat motor dan alat deria robot dimodelkan.

Dasar satu pukulan. Dasar tunggal dilatih untuk menyelesaikan banyak tugas. Tugas teratas: {abc, def}, Tugas bawah: {ab, cd, ef}

Dalam kedua-dua contoh, kedudukan awal kubus dalam demonstrasi dan ujian sebenar adalah berbeza, setiap tugas bermula dari posisi awal yang lain. Robot tidak cuba mengganti kubus agar sesuai dengan kedudukan awal demonstrasi, ia memindahkan tugas peringkat lebih tinggi untuk menumpuk kubus apa pun keadaannya.

Latihan menggunakan pengacakan domain

Dalam kedua kes tersebut, semua gambar yang digunakan semasa latihan diperoleh melalui simulasi menggunakan pengacakan domain di mana mereka akan mengacak aspek sampel berikut:

Bilangan dan bentuk objek distraktor di atas meja Kedudukan dan tekstur semua objek di atas meja Tekstur meja, lantai, kotak langit, dan robot Kedudukan, orientasi, dan bidang pandangan kamera Bilangan lampu di tempat kejadian Posisi, orientasi, dan ciri khas lampu Jenis dan jumlah bunyi rawak yang ditambahkan pada gambar

Set latihan untuk mencapai zarah

Kami menganggap sekumpulan tugas yang semakin sukar, di mana jumlah mercu tanda meningkat dari 2 hingga 10. Untuk setiap keluarga tugas, kami mengumpulkan 10000 lintasan untuk latihan, di mana kedudukan mercu tanda dan kedudukan permulaan robot titik secara rawak. Kami menggunakan dasar pakar yang keras untuk menghasilkan demonstrasi dengan cekap. Kami menambahkan kebisingan pada lintasan dengan mengganggu tindakan yang dihitung sebelum menerapkannya ke persekitaran, dan kami menggunakan pengklonan tingkah laku yang sederhana untuk melatih kebijakan jaringan saraf

Set latihan untuk susunan blok

Secara konkrit, kami mengumpulkan 140 tugas latihan, dan 43 tugas ujian, masing-masing dengan susun atur blok yang diinginkan yang berbeza. Jumlah blok dalam setiap tugas dapat bervariasi antara 2 dan 10. Kami mengumpulkan 1000 lintasan setiap tugas untuk latihan, dan memelihara satu set lintasan dan konfigurasi awal yang terpisah untuk digunakan untuk penilaian. Sama dengan tugas mencapai zarah, kami menyuntikkan bunyi ke dalam proses pengumpulan lintasan. Lintasan dikumpulkan menggunakan dasar yang dikodkan.

Demonstrasi yang berjaya dikumpulkan dengan menggunakan dasar yang keras

Perhatikan bahawa semasa belajar lintasan yang betul dihasilkan oleh kebijakan "hard-coded" prosedur, yang saya percaya bergantung pada teknik klasik pengenalan dan kawalan sistem. Oleh itu semasa latihan dan ujian ejen mempunyai dua input: a) demonstrasi dalam konfigurasi A, dan b) konfigurasi permulaan B. Semasa latihan sahaja, algoritma pembelajaran juga mempunyai akses kepada tindak balas yang ideal: lintasan bermula dari konfigurasi B yang menjawab masalah dan yang mana tindak balas ejen akan dibandingkan semasa belajar - menjadikannya masalah pembelajaran yang diselia.

Untuk setiap tugas latihan, kami menganggap adanya satu set demonstrasi yang berjaya.

Sekiranya tidak jelas, saya akan membahas perbezaan antara pelbagai jenis paradigma pembelajaran di bahagian seterusnya.

Algoritma pengoptimuman dan fungsi kerugian

Pembelajaran yang diawasi merujuk pada paradigma latihan di mana pada setiap keputusan jaringan memiliki akses ke pilihan yang tepat yang seharusnya dia buat, dan oleh itu kepada gagasan kesalahan. Sebagai contoh dalam tugas pengelasan antara anjing dan kucing, label gambar anjing dan kucing semasa latihan diketahui terlebih dahulu dan kesalahannya segera dikesan. Dalam pengertian itu, ia berbeza dengan pembelajaran tanpa pengawasan di mana secara amnya ejen diminta untuk mencari struktur yang sebelumnya tidak diketahui dalam input yang diterimanya, dan tanpa label kucing dan anjing harus mengetahui bahawa terdapat dua kelompok objek yang berbeza hanya berdasarkan maklumat yang terdapat dalam data. Ia juga berbeza dengan Pembelajaran Pengukuhan bahawa seringkali berlaku untuk sistem masa nyata di mana urutan keputusan yang tepat yang menuju ke tujuan tidak diketahui tetapi hanya "ganjaran" terakhir yang akan memutuskan sama ada urutan itu betul atau tidak. Dengan menggunakan pembelajaran tiruan, mereka mengubah masalah pembelajaran pengukuhan klasik menjadi masalah pembelajaran yang diawasi, di mana kesalahan dikira dari jarak ke lintasan yang diperhatikan.

Seperti yang berlaku untuk setiap persediaan latihan yang diawasi, tugas yang ada ditentukan sepenuhnya oleh fungsi kerugian, yang bertujuan untuk mengukur sejauh mana agen dari tingkah laku yang dimaksudkan. Mendefinisikan fungsi ini sering merupakan langkah penting, kerana ia menentukan bagaimana algoritma pengoptimuman mengemas kini parameter model. Algoritma tersebut sangat penting dalam jangka masa pengiraan, dan sering memerlukan beberapa penyesuaian untuk dapat berkumpul, jika tidak sama sekali. Sesungguhnya penyelesaian yang akan meminimumkan fungsi dalam dimensi yang sangat tinggi terletak pada cangkang ruang parameter yang sangat kecil, dengan jarak paluan kecil di antara mereka, sebaik sahaja anda menjauhkan diri dari domain kecil itu, jarak antara penyelesaian semakin cepat. Terdapat banyak karya yang sangat menarik mengenai perkara itu yang dilakukan antara lain oleh Jennifer Chayes yang sangat mengagumkan, dia membahas topik itu dalam temu bual yang sangat menarik pada episod terakhir Mesin Bicara.

Semasa latihan rangkaian polisi (keseluruhan rangkaian, dapat memutuskan dari input mana tindakan yang harus diambil) mereka terlebih dahulu memproses lintasan demonstrasi yang berjaya. Untuk bahagian ini mereka akan membandingkan dua pendekatan, pengklonan Behavioral klasik (tidak begitu pasti pelaksanaannya yang mereka gunakan) dan algoritma DAGGER. Ini kemudian akan memungkinkan untuk meminimumkan fungsi kerugian sama ada melalui kehilangan l2 atau cross-entropy berdasarkan sama ada tindakan berterusan atau diskrit (berdasarkan pengedaran peristiwa dalam urutan). Di semua eksperimen, mereka menggunakan algoritma Adamax untuk melakukan pengoptimuman dengan kadar pembelajaran 0.001.

Ukuran langkah bermula kecil dan mereput secara eksponensial.

Algoritma itu sendiri tidak membenarkan pemindahan, ini adalah bagaimana anda membina set latihan anda dan fungsi kehilangan anda yang memungkinkan untuk memindahkan.

Dua jenis pemindahan ada dalam tugas. Jenis pertama disebut sebagai "menjembatani jurang realiti", itu adalah generalisasi dalam pembelajaran yang memungkinkan untuk memindahkan antara latihan pada input simulasi ke pengujian rangsangan semula jadi. Data simulasi seringkali merupakan perkiraan dunia nyata yang miskin, terlalu sempurna, kekurangan kerumitan objek sebenar. Dalam dunia nyata, kamera mungkin rosak dan ribut, kawalan motor kurang tepat, warnanya akan berubah, teksturnya akan lebih kaya dll. Untuk membolehkan pemindahan pertama ini mereka menggunakan kaedah yang mereka sebut sebagai "pengacakan domain" : dengan menambahkan kebisingan pada input, jaringan dapat mempelajari struktur umum yang relevan yang memungkinkannya untuk membuat generalisasi dengan tepat ke dunia nyata. Mereka misalnya akan mengubah sudut kamera antara contoh latihan, mengubah tekstur, atau membuat lintasan menjadi kurang sempurna. Dengan menambahkan kebisingan semasa latihan, kita menambah kekuatan.

Pemindahan kedua yang diuji di sini adalah kemampuan untuk menghasilkan urutan motor yang relevan dalam set konfigurasi dan tujuan yang sebelumnya tidak dapat dilihat, berdasarkan satu demonstrasi bermula pada konfigurasi awal yang lain tetapi dengan tujuan akhir yang serupa. Sekali lagi di sini pemindahan akan dapat dilakukan dengan cara kita membuat set latihan, dan memodelkan fungsi kehilangan. Dengan menyajikan demonstrasi semasa latihan yang tidak bermula dari keadaan awal yang sama untuk mencapai tujuan yang serupa, anda membenarkan rangkaian belajar menanamkan perwakilan tujuan yang lebih tinggi tanpa menggunakan kedudukan mutlak, serta perwakilan urutan yang lebih tinggi dari urutan motor yang bukan tiruan sederhana. Senibina awal yang naif membolehkan latihan mengubah struktur dengan cara yang relevan, dan struktur terlatih ini menyiratkan fungsi terakhir.

Objektif

Untuk paradigma penumpukan blok, mereka mempunyai beberapa kekangan yang mereka mahukan oleh ejen pembelajaran mereka.

Mudah untuk diterapkan pada contoh tugas yang memiliki jumlah blok yang bervariasi.
Semestinya secara umum akan berlainan kepada permutasi tugas yang sama. Contohnya, kebijakan harus berjalan dengan baik pada tugas {dcba}, walaupun hanya terlatih pada tugas {abcd}.
Ia harus menampung demonstrasi panjang berubah.

Mereka mempunyai beberapa soalan yang ingin dijawab untuk tugas ini.

Bagaimana latihan dengan pengklonan tingkah laku dibandingkan dengan DAGGER, memandangkan data yang mencukupi dapat dikumpulkan di luar talian?
Bagaimana pengkondisian pada keseluruhan demonstrasi dibandingkan dengan pengkondisian pada konfigurasi akhir yang diinginkan, walaupun konfigurasi akhir mempunyai maklumat yang cukup untuk menentukan tugas sepenuhnya?
Bagaimana pengkondisian pada keseluruhan demonstrasi dibandingkan dengan pengkondisian pada "snapshot" lintasan, yang merupakan subset kecil bingkai yang paling informatif
Bolehkah kerangka kerja kita berjaya digeneralisasikan kepada jenis tugas yang belum pernah dilihatnya semasa latihan? (++)
Apakah had kaedah semasa?

Senibina

Mencapai Zarah

Untuk contoh pertama ini, mereka membandingkan tiga seni bina semuanya berdasarkan rangkaian neural Long Short Term Memory (LSTM). Penjelasan mengenai rangkaian tersebut akan dimuat di masa depan mengenai ingatan dan perhatian, yang merupakan subjek yang sangat menarik baik dalam sains kognitif dan komputasi. Pada hakikatnya LSTM memberi makan output rangkaian sebelumnya (dalam masa) sebagai sebahagian daripada input rangkaian pada setiap titik waktu baru, yang memungkinkan maklumat keadaan masa lalu untuk memberitahu masa kini (oleh itu nama mereka adalah rangkaian memori jangka pendek). Mereka adalah akar dari banyak teknologi canggih yang berurusan dengan siri masa (Alexa, Siri dll.).

Di sini mereka menggunakan tiga syarat khusus:

  1. LSTM Plain: belajar menanamkan lintasan dan keadaan semasa untuk memasangkannya ke perceptron pelbagai lapisan yang akan menghasilkan aksi motor
  2. LSTM dengan perhatian: menghasilkan perwakilan berwajaran terhadap mercu tanda lintasan
  3. Keadaan akhir dengan perhatian: gunakan dalam latihan hanya keadaan akhir untuk menghasilkan penekanan terhadap mercu tanda, serupa dengan seni bina sebelumnya

Blok susun

Walaupun pada prinsipnya, jaringan saraf generik dapat mempelajari pemetaan dari demonstrasi dan pemerhatian semasa hingga tindakan yang sesuai, kami merasa penting untuk menggunakan seni bina yang sesuai. Senibina kami untuk belajar menyusun blok adalah salah satu sumbangan utama makalah ini, dan kami percaya ia mewakili arkitek untuk pembelajaran tiruan satu-satu tugas yang lebih kompleks seperti di masa depan.

Modul perhatian

Artikel ini masih berada pada tahap yang cukup tinggi dalam menggambarkan struktur rangkaian yang digunakan untuk mempelajari tugas tersebut. Bahan penting dalam seni bina adalah modul perhatian mereka, tetapi saya percaya subjek ini memerlukan catatan khusus untuk mengetahui peranan pentingnya. Dengan analogi konsep sains kognitif perhatian berterusan, modul perhatian digunakan untuk menyimpan dan memusatkan perhatian pada maklumat yang relevan yang terdapat di berbagai ruang dan waktu. Ia menghasilkan output berukuran tetap yang berisi penyisipan kandungan maklumat yang terbentang dalam masa dan ruang. Dengan analogi topologi, cabang matematik yang saya percaya akan memberi maklumat bagaimana kita memahami perwakilan yang diedarkan pada masa akan datang, rangkaian perhatian melakukan isomorfisme maklumat topologi, kelengkungan yang sama, bentuk yang berbeza. Perhatikan bahawa rangkaian ini tidak berperanan sebagai pengesan kepedulian yang dapat memusatkan perhatian pada peristiwa yang tidak dijangka atau jarang, yang merupakan fungsi yang terkait dengan gagasan perhatian dalam ilmu saraf.

Di sini mereka menggunakan dua jenis rangkaian perhatian: a) rangkaian perhatian sementara yang menghasilkan jumlah tertimbang atas kandungan (pertanyaan, vektor konteks dan memori) yang tersimpan dalam memori, dan b) rangkaian perhatian kejiranan yang dapat memulihkan maklumat yang berkaitan dengan blok kedudukan bergantung kepada pertanyaan ejen semasa.

Rangkaian perhatian sementara, dengan c: vektor konteks, m: vektor memori, q: vektor pertanyaan, v: berat vektor yang dipelajari. Keluarannya sama dengan vektor memori. Ini adalah kombinasi linear vektor yang memungkinkan beberapa vektor memori memberi lebih banyak kesan pada output berdasarkan konteks dan vektor pertanyaan.Idea yang sama di sini, persaingan antara maklumat spatial dikekalkan secara dinamik oleh sistem perhatian.

Rangkaian polisi

Rangkaian lengkap terdiri daripada tiga sub-rangkaian yang berbeza: rangkaian demonstrasi, rangkaian konteks, dan rangkaian manipulasi.

Jaringan demonstrasi menerima lintasan demonstrasi sebagai input, dan menghasilkan penyisipan demonstrasi untuk digunakan oleh kebijakan. Ukuran penyisipan ini tumbuh secara linear sebagai fungsi dari panjang demonstrasi dan juga jumlah blok di persekitaran.

Seperti yang ditunjukkan di sini, rangkaian demonstrasi dapat menanamkan demonstrasi dengan kerumitan dan ukuran yang bervariasi ke dalam format umum yang akan digunakan oleh jaringan konteks untuk mewakili tugas. Mungkin pada tahap ini bahawa generalisasi berlaku, penyisipan demonstrasi harus meninggalkan maklumat mengenai lintasan tepat dan kedudukan mutlak kubus yang dilihat semasa demonstrasi.

Melihat struktur jaringan konteks, walaupun dari tingkat yang sangat tinggi, kita melihat antarmuka dengan rangkaian demonstrasi memberi penyisipan demonstrasi ke modul perhatian temporal pusat. Kami juga melihat bahawa tindakan sebelumnya (LSTM) dan keadaan semasa dimasukkan sebagai input yang disatukan dengan penyisipan demonstrasi untuk menghasilkan penyisipan konteks global yang dikirim ke rangkaian motor.

Huraian mereka mengenai fungsi rangkaian adalah pada pendapat saya bahagian terpenting dalam makalah:

Rangkaian konteks dimulakan dengan mengira vektor pertanyaan sebagai fungsi dari keadaan semasa, yang kemudian digunakan untuk menghadiri langkah-langkah waktu yang berbeza dalam penyisipan demonstrasi. Berat perhatian terhadap blok yang berbeza dalam langkah waktu yang sama dijumlahkan bersama, untuk menghasilkan satu langkah berat setiap masa. Hasil perhatian sementara ini adalah vektor yang ukurannya sebanding dengan jumlah blok di persekitaran. Kami kemudian memberi perhatian kejiranan untuk menyebarkan maklumat di seluruh blok setiap blok. Proses ini diulang berkali-kali, di mana keadaan maju menggunakan sel LSTM dengan bobot terikat.
Urutan operasi sebelumnya menghasilkan penyisipan yang ukurannya tidak bergantung pada panjang demonstrasi, tetapi masih bergantung pada jumlah blok. Kami kemudian menggunakan perhatian lembut standard untuk menghasilkan vektor dimensi tetap, di mana kandungan memori hanya terdiri dari posisi setiap blok, yang, bersama dengan keadaan robot, membentuk input yang diteruskan ke rangkaian manipulasi.
Secara intuitif, walaupun jumlah objek di lingkungan mungkin berbeda, pada setiap tahap operasi manipulasi, jumlah objek yang relevan adalah kecil dan biasanya tetap. Untuk persekitaran penumpukan blok secara khusus, robot hanya perlu memperhatikan kedudukan blok yang ingin diambilnya (blok sumber), dan juga kedudukan blok yang cuba diletakkan di atas ( blok sasaran). Oleh itu, rangkaian yang terlatih dengan betul dapat belajar memadankan keadaan saat ini dengan tahap yang sesuai dalam demonstrasi, dan menyimpulkan identiti blok sumber dan sasaran yang dinyatakan sebagai bobot perhatian lembut terhadap blok yang berlainan, yang kemudian digunakan untuk mengekstrak posisi yang sesuai untuk dihantar ke rangkaian manipulasi.

Cara mereka menyelesaikan deskripsi mereka adalah contoh yang sempurna dari arus penyelidikan AI dari pendekatan sistem pakar ke pendekatan sistem pembelajaran, dan ini juga mengisyaratkan perbincangan mengenai bagaimana otak berkembang di bawah.

Walaupun kami tidak menerapkan penafsiran ini dalam latihan, analisis eksperimen kami menyokong tafsiran ini mengenai bagaimana dasar yang dipelajari berfungsi secara dalaman.

Mereka tidak tahu bagaimana ia berfungsi! Mereka membina struktur yang dapat melakukan pengiraan tertentu dan menyimpan maklumat tertentu yang menurut kami berguna a priori, dan memberinya set latihan dengan harapan seluruh struktur akan belajar! Terdapat semacam voodoo penyelidikan Kecerdasan Buatan yang sedang meningkat, sebuah seni, cara untuk mengarahkan pencarian heuristik ke arah yang benar. Dan nampaknya banyak penyihir itu kini bekerja untuk openAI.

Dengan kata-kata mereka sendiri, rangkaian manipulasi adalah struktur termudah, dari penyisipan konteks yang dimasukkan ke perceptron Multi-lapisan, aksi motor dihasilkan.

Keputusan

Hasil selalunya merupakan bahagian yang saya minati, terutama untuk kertas teknikal yang sangat hebat. Saya akan pergi dengan cepat, intinya adalah bahawa pendekatan ini berfungsi, ia berjalan dengan ketepatan yang serupa dengan dasar pakar yang dikodkan dengan ketat dan, bertentangan dengan pendekatan prosedur khusus itu, dapat digeneralisasikan untuk pelbagai tugas.

Mencapai Zarah

Sekatan Susun

Dalam eksperimen ini, mereka juga menguji keadaan yang berbeza. Dengan menggunakan DAGGER, mereka membandingkan tiga keadaan input yang berbeza dengan menurunkan sampel lintasan yang ditunjukkan: lintasan penuh, tangkapan lintasan, atau hanya menggunakan keadaan akhir. Mereka juga membandingkan algoritma Pengklonan Tingkah Laku dengan lintasan penuh demonstrasi.

Bukti kuat mengenai kemampuan sistem untuk menggeneralisasikan identiti kiub

Perbincangan

Membaca kemajuan pesat yang dibuat oleh OpenAI beberapa bulan kebelakangan ini, saya merasakan desakan yang semakin meningkat untuk membicarakan karya mereka dan berkongsi pemikiran saya mengenai apa yang saya percayai karya mereka, dan kemajuan bidang AI secara keseluruhan, memberitahu pemahaman kita tentang bagaimana otak biologi berfungsi. Secara khusus idea ini berkembang bahawa fungsi kognitif yang kelihatan bersama antara manusia tidak banyak disebabkan oleh struktur bersama yang secara semula jadi tahu bagaimana melaksanakan tugas, tetapi sebaliknya adalah hasil dari struktur naif yang agak serupa yang, dihadapkan pada lingkungan yang sama, belajar melaksanakan tugas yang serupa. Fungsi tersebut adalah hasil dari struktur tanpa fungsi yang hanya dapat mempelajari tugas tertentu kerana lingkungan tertentu dan bukannya struktur yang dapat melakukan tugas secara asli, hanya dengan mengubah beberapa parameter untuk menyesuaikan diri dengan lingkungan.

Tugas berbanding konfigurasi: definisi yang kelihatan sewenang-wenangnya

Saya harus mengakui bahawa saya tidak faham mengapa mereka memilih untuk membincangkan tugas yang berbeza seperti yang mereka lakukan. Tugas ditakrifkan dalam eksperimen penumpukan blok sebagai satu set rentetan yang mewakili kedudukan blok yang saling berkaitan, bilangan elemen dalam set menentukan jumlah tumpukan dan jumlah watak bilangan blok yang perlu disusun . Tugas kemudian adalah susunan blok dalam timbunan tanpa mengira kedudukan timbunan mutlak.

Beberapa blok mungkin ada di atas meja tetapi bukan sebahagian daripada tugas

Pilihan mereka untuk menentukan kedudukan relatif dan jumlah tumpukan sebagai kriteria untuk tugas yang terpisah nampaknya sewenang-wenangnya. Memang, masuk akal untuk membincangkan tugas yang berbeza berdasarkan kedudukan permulaan mutlak blok (apa yang mereka sebut sebagai konfigurasi). Saya percaya sifat umum masalah itu jelas bagi mereka, tetapi untuk tujuan kejelasan mereka lebih suka tidak membahas perinciannya. Lebih masuk akal untuk membingkai pembelajaran dasar sebagai dua jenis generalisasi, seperti yang mereka lakukan kemudian:

Perhatikan bahawa generalisasi dinilai pada pelbagai tahap: kebijakan yang dipelajari tidak hanya perlu digeneralisasikan kepada konfigurasi baru dan demonstrasi tugas baru yang telah dilihat, tetapi juga perlu membuat generalisasi terhadap tugas baru.

Cukup ganti "tugas" dengan "susunan susunan". Untuk mempelajari tugas dengan betul bermaksud bahawa ejen mempelajari penyisipan yang dapat mengaburkan kedudukan kubus (konfigurasi), tetapi juga identiti mereka (tugas), jumlah tumpukan (tugas), dan lintasan demonstrasi (diperkenalkan secara ringkas di petikan) untuk menghasilkan tindak balas motor yang relevan.

Pengumuman tersebut nampaknya bertentangan, bagaimana jaringan yang sama dapat melengkapkan konfigurasi awal kubus atau identiti mereka dan masih dapat memperoleh kembali kedudukan mutlak mereka untuk tindak balas motor?

Ini menjelaskan perlunya subnetwork koperasi yang berbeza semasa belajar, menerima input yang berbeza, dan ini menjelaskan bahawa dalam rangkaian konteks representasi abstrak tugas diberi maklumat pesanan rendah, seperti kedudukan mutlak kubus, sebelum perintah menurun.

Anda mungkin menganggap mengomentari perbezaan tugas dan konfigurasi ini adalah konyol, tetapi penting untuk memahami bahawa pada dasarnya proses abstraksi yang sama dimainkan pada objek yang berbeza (dan ini terbuka untuk bahagian berikut).

Tidak ada pembelajaran tanpa invariance

Mentransfer pembelajaran mungkin merupakan konsep kognisi yang paling menarik sama ada in-silico atau in-vivo, ini adalah topik yang sangat panas bagi penyelidik AI dan ahli sains saraf, dan kebetulan menjadi subjek tesis PhD saya. Perhatikan bahawa konsep yang berkait rapat telah diterokai dalam banyak bidang sebelum pembelajaran mesin, dan konsep yang abstrak dan selalu ditentukan sebahagiannya mempunyai banyak nama. Ahli falsafah, ahli antropologi dan ahli sosiologi mungkin menyebutnya sebagai (Post-) Structuralism (Claude Levi-Strauss, Michel Foucault), Ahli bahasa akan membincangkan mengenai struktur Syntagma dan Nested Tree (Noam Chomsky), Ahli Matematik mungkin akan memikirkan Homeomorphism atau Invarian, dan Education penyelidik atau ahli sains saraf mungkin menyebutnya sebagai Pembelajaran Struktural. Anda mungkin juga melihat konsep yang berkaitan dalam bidang pembelajaran mesin seperti pembelajaran representasi dan meta-pembelajaran, yang bergantung kepada penulis mungkin merujuk kepada pembelajaran pemindahan atau paradigma pembelajaran yang digunakan untuk melakukan pembelajaran pemindahan. Ketika membincangkan Jaringan Neural Dalam, perbezaan ini kabur, kerana pada hakikatnya Jaringan Neural belajar menanamkan masalah tertentu (pembelajaran representasi) dengan mengubah strukturnya (meta-pembelajaran) biasanya dalam lingkungan yang bising yang menyiratkan bentuk pembelajaran pemindahan.

Penyelidik AI dan Saintis Kognitif sering mempunyai definisi pembelajaran pemindahan yang sangat konkrit, proses yang membolehkan sistem menggunakan pengetahuan yang diperoleh dalam tugas tertentu untuk melakukan tugas lain yang berkongsi struktur komposisi yang sama (seperti yang dijelaskan dalam artikel). Ilmu kognitif mempunyai konsep perpindahan dekat dan jauh ini, bergantung kepada bagaimana kedua-dua tugas itu kelihatan berbeza. Tetapi dari perspektif yang lebih abstrak, dalam persekitaran yang bising dan kompleks, semua pembelajaran adalah satu bentuk pembelajaran pemindahan dan perbezaan antara pemindahan yang sangat dekat dan sangat jauh hanyalah masalah maklumat yang dikongsi - sekali lagi soal skala yang bukan bersifat semula jadi.

Dalam persekitaran yang terkawal, usaha dilakukan terlebih dahulu untuk membina diskritisasi realiti yang dikodekan dengan ketat, tetapi sebenarnya diskritisasi ini menghasilkan secara prosedural apa yang dilakukan pembelajaran pemindahan, ia menyatukan sekumpulan keadaan yang tidak terbatas yang terdapat dalam kenyataan di bawah struktur lampiran yang sama. Pada dasarnya Transfer Learning merujuk secara langsung atau secara meluas ke proses di mana agen pembelajaran menggunakan invarian untuk membina model dunia. Ini adalah proses yang menggunakan persamaan, pengulangan, dan variasi yang sama, untuk membentuk representasi yang semakin abstrak dan tersusun yang akan menyusun ensembel sepanjang rentang varians oleh input. Secara umum ia memungkinkan untuk membuat operasi asas di mana kita memanipulasi kumpulan maklumat, seperti dalam matematik yang memungkinkan untuk penyatuan dan persimpangan. Ia membenarkan identiti, ini menjelaskan kemampuan kita untuk mengkategorikan objek. Josh Tenembaum memberikan contoh yang benar-benar berbicara kepada saya: bayangkan anda mengajar anak berusia dua tahun untuk mengenali kuda untuk pertama kalinya, anda menunjukkan kepadanya beberapa gambar kuda yang berbeza dan kemudian anda menunjukkan kepadanya gambar kuda lain dan gambar sebuah rumah dan minta dia memberitahu anda kuda yang mana satu. Seorang kanak-kanak akan melakukan tugas ini dengan mudah tetapi masih merupakan sesuatu yang tidak dapat dilakukan oleh komputer dengan sedikit input (pembelajaran sekali sahaja).

Bagaimana kanak-kanak itu melakukannya?

Pengecaman haiwan telah dikaji pada kanak-kanak dan berkaitan dengan kemampuan kita menguraikan objek menjadi bahagian yang relevan, rentang warna bulu, ukuran leher, bentuk keseluruhan dan lain-lain. Keupayaan ini juga yang membolehkan anda membuka pintu anda belum pernah anda lihat sebelumnya, anda telah mempelajari urutan motor yang menggeneralisasi keadaan apa pun (generalisasi domain). Ini juga yang anda gunakan untuk membina model penjelasan yang mempermudah dunia, anda mungkin akan terkejut pada mulanya dengan munculnya Cuckoo secara tiba-tiba di jam Switzerland yang terkenal, tetapi selepas penampilan kedua anda pasti akan menjangkakannya. Mencari invarians adalah bagaimana rangkaian saraf belajar dan model-model tersebut dibina secara tidak sedar. Contohnya ialah bagaimana kita belajar secara intuitif mengenai fizik bahkan sebelum mendengar matematik dan nombor.

Seseorang boleh bertanya seberapa cepat anak yang dilahirkan dalam mikrograviti dapat menyesuaikan diri dengan graviti bumi dan belajar secara intuitif bahawa objek akan jatuh ke tanah ketika dijatuhkan?

Kami mungkin membuat hipotesis bahawa bayi dan kebanyakan haiwan akan merevisi modelnya secara tidak sedar, seperti ketika anda meletakkan kaus kaki di kaki anjing dan memerlukan sedikit masa untuk menyesuaikan diri dengan maklumat baru.

Tetapi bagi seorang anak kecil, siasatan dan penyemakan semula model intuitifnya akan dilakukan, dari rasa ingin tahu, melalui bahasa, simbol dan kepercayaan. Kemampuan kita untuk menyoal dan mengubah model kita secara sedar menarik, dan sebagai sidenote, manusia mungkin satu-satunya spesies yang dapat melakukan proses verbal tetapi spesies lain mungkin melakukan kajian semula yang serupa.

Invariance adalah hak milik masa yang wajib, jika semuanya selalu baru dan tidak dapat diramalkan, tetap ada invarian unik ini bahawa semuanya selalu baru dan tidak dapat diramalkan. Adalah mustahil untuk membayangkan dunia tanpa invariance, kerana tidak mungkin ada dunia untuk disebut, tanpa invariance hidup tidak mungkin dan otak kita tidak berguna. Hidup adalah mesin yang berfungsi hanya dengan pengulangan peristiwa yang dapat diramalkan, pengulangan sebab dan akibat, pengenalan semula tenaga siklik ke dalam organisma. Dan dalam usaha Life untuk meningkatkan penggunaan kitaran yang diperlukan, otak kita adalah alat utama. Ini adalah mesin ramalan, organ adaptif yang dapat mencari pengulangan secara dinamik dan menggunakannya untuk berinteraksi dengan dunia dengan lebih baik.

Kaedah yang dipilih oleh kehidupan ini sangat kuat hingga sedikit perubahan strukturnya. Yang tetap sama adalah dunia, sifat statistik persekitaran, tetapi struktur saraf yang menghadapinya dapat berubah selagi dapat menanamkan informasi relevan yang dikembangkannya untuk dirawat. Ini menjelaskan mengapa otak kita boleh berbeza dari satu individu ke individu, bahkan korteks primer, tetapi mempunyai fungsi yang sama.

Sistem saraf bersifat adaptif, mereka tidak memerlukan evolusi dan mutasi genetik yang perlahan untuk mengubah tingkah laku dengan cara yang relevan. Sistem saraf yang sederhana, seperti yang terdapat di C. Elegans, berfungsi sebagai koordinator dalaman bawaan dan sensor luaran: rasa makanan dan bergerak ke arahnya, lari dari kesakitan, berkembang biak. Sistem sederhana itu pada mulanya kaku dan melakukan pendekatan yang luar biasa terhadap dunia kita yang sangat bising untuk membezakannya dalam set kecil keadaan yang mungkin (makanan di sebelah kiri, panas di bawah dll.). Kebolehan motor dan deria kita berkembang seiring dengan kemampuan ramalan sistem saraf kita. Apabila sensor kami menjadi lebih tepat, sistem saraf perlahan-lahan dapat mengubah strukturnya untuk menyimpan maklumat dan belajar dari pengalaman. Pada mulanya ia dapat belajar mengenali kategori input tertentu, seperti jenis bau atau corak cahaya, dan juga dapat belajar melalui percubaan dan kesalahan untuk mengendalikan sistem motornya yang semakin kompleks. Perhatikan bahawa dunia begitu kompleks sehingga otak kita secara semula jadi berkembang menuju paradigma pembelajaran dan bukannya pendekatan prosedur semula jadi. Secara komputasi ini masuk akal, permainan Go yang sederhana memiliki ruang negara yang jauh lebih besar (2.10¹⁷⁰) daripada jumlah atom di alam semesta (10⁸⁰), dan apabila organisma menjadi lebih kompleks ketika berusaha keras untuk menghitung semua kemungkinan menyatakan ia boleh menjadi cepat sukar disebabkan oleh letupan kombinatorial.

Sebilangan orang mungkin percaya otak kita dibangun sedemikian rupa sehingga secara semula jadi mewakili ruang yang akan berkembang, di dalam DNA di suatu tempat ada gen untuk apa yang membentuk wajah, atau organisasi temporal gelombang suara yang membuat kata-kata ke atas. Mereka mungkin percaya bahawa pengetahuan semula jadi ini dikodkan semasa lahir di suatu tempat. Yang lain mungkin percaya, seperti guru falsafah saya ketika saya di sekolah menengah, kewujudan itu mendahului intipati, dan bahawa otak kita sepenuhnya dan semata-mata ditentukan oleh perjumpaan organisma dan dunia. Kenyataannya tentu saja lebih kompleks, dan untuk kebanyakan sistem telencephalic yang telah dipelajari sejauh ini, otak tidak mengekod secara semula jadi fungsi yang akan dilakukannya tetapi akan mempelajarinya bergantung pada maklumat yang terdapat dalam inputnya. Sekiranya inputnya terlalu lemah dalam maklumat yang relevan, keupayaan untuk belajar dalam struktur tersebut mungkin mempunyai tarikh luput (misalnya Amblyopia). Tetapi jika struktur bawaan tidak mengekod fungsi akhir, otak memang mempunyai struktur tertentu. Struktur ini dipelihara di seluruh individu, dan individu dari spesies yang sama mempunyai fungsi dan pemacu yang sama. DNA memang menetapkan struktur tertentu di tempatnya, struktur yang tidak dapat menjalankan fungsi terakhir mereka secara semula jadi, tetapi struktur yang dapat mempelajari kerumitan tugas-tugas tertentu berdasarkan pengalaman individu. Tidak menghairankan bahawa evolusi menyebabkan munculnya penghalang otak-darah yang sangat berkesan yang mengasingkan otak dari seluruh badan serta meninges dan cangkang tulang keras yang melindunginya dari dunia luar, kerana tidak seperti organ lain di mana struktur dikodekan dalam genom, struktur otak terlatih tidak dapat dihasilkan kembali dari model yang disimpan secara semula jadi. Apa yang menarik ialah kita melihat mekanisme pembelajaran yang sama timbul dengan analogi melalui pengembangan rangkaian dalam yang semakin kompleks yang melaksanakan tugas yang semakin kompleks.

Struktur komposisi sukar dilihat tetapi di mana sahaja

Sebagai sidenote, pelik walaupun penulis tidak menyedari bahawa tugas pertama mereka mencapai sasaran mempunyai struktur komposisi.

Tugas mencapai zarah dengan baik menunjukkan cabaran dalam generalisasi dalam senario sederhana. Walau bagaimanapun, tugas-tugas tersebut tidak mempunyai struktur komposisi, menjadikan penilaian generalisasi terhadap tugas baru menjadi sukar.

Walaupun strukturnya memang lebih rendah daripada susunan blok, dan tidak mudah diakses oleh manipulasi eksperimen, tugas itu memang terdiri daripada struktur bersama. Mendekati dunia ke satah, satu struktur komposisi ialah identiti kubus (warna) dipelihara dengan terjemahan, dan pergi dari blok A-atau kedudukan permulaan rawak- pada kedudukan (Xa1, Ya1) ke blok B pada kedudukan (Xb1, Yb2 ) adalah bahagian struktur komposisi urutan tinggi yang sama daripada beralih dari blok A pada kedudukan (Xa2, Ya2) ke blok B pada kedudukan (Xb2, Yb2).

Antara muka antara rangkaian

Penyatuan rangkaian saraf yang dapat menangani input pada tahap pengabstrakan yang berbeza akan memerlukan antara muka, domain yang saya percaya masih banyak lagi yang dapat dijumpai. Antaramuka tersebut boleh mempunyai banyak sifat. Mereka dapat dilihat sebagai bahasa umum antara dua jaringan, seperti yang ditunjukkan dalam artikel, jaringan tingkat bawah yang dipersenjatai dengan sistem perhatian (rangkaian demonstrasi) dapat menerjemahkan demonstrasi dalam representasi yang dapat digunakan oleh jaringan lain (jaringan konteks) untuk mengarahkan tindakan apa sahaja panjang atau konfigurasi awal demonstrasi.

Permukaan bahasa ini ada di sini pesawat, ukurannya tetap, tetapi kita dapat membayangkan kemungkinan perubahan yang dapat meningkatkan komunikasi antara rangkaian. Sebagai contoh, ukuran permukaan dapat diatur untuk tumbuh atau menyusut secara dinamis ketika jaringan berinteraksi semasa belajar, sehingga memampatkan atau memperluas kerumitan bahasa. Kita juga dapat membayangkan interaksi yang lebih dinamik, melalui maklum balas misalnya. Kita dapat membayangkan adanya jaringan fasilitator yang akan belajar melicinkan komunikasi antara rangkaian, yang ada sebagai jaringan selari yang belajar memodulasi input jaringan pertama berdasarkan input dan output dari jaringan kedua. Kita dapat membayangkan rangkaian konteks yang kompleks yang bertindak sebagai tonik (lambat berubah) ke beberapa rangkaian yang lebih khusus ... Kawasan penyelidikan masa depan yang menarik!

Kes-kes kegagalan mengisyaratkan kemungkinan peranan yang dapat dimiliki oleh modul baru

Perlu diingat bahawa kesalahan sering disebabkan oleh kesalahan motor, dan bahawa jumlah kesalahan meningkat dengan kerumitan tugas.

Fungsi motor tidak boleh merosot hanya dengan meningkatkan jumlah sasaran, ini adalah bukti kuat bahawa cara jaringan pembiakan belajar berbicara dengan rangkaian motor terlalu abstrak. Sungguh aneh kerana mereka mengatakan ujian mereka menunjukkan bahawa antara muka antara rangkaian konteks dan rangkaian motor relatif konkrit (kedudukan robot, kedudukan sasaran).

Penyelesaian yang mungkin adalah, kerana ini adalah seni bina modular, untuk menggunakan fungsi kerugian yang berbeda, atau fungsi kehilangan modular yang mewakili masing-masing aspek tugas tertentu. Ia juga akan dibantu oleh kawasan otak pra-motor yang setara untuk memastikan demonstrasi dan rangkaian konteks dapat tetap abstrak tanpa merosakkan perintah motor. Kawasan premotor diperlukan untuk melokalisasikan objek dengan lebih baik berdasarkan tujuan (dari rangkaian abstrak) dan input deria, untuk memilih perintah motor terbaik. Nampaknya rangkaian konteks sedang berusaha untuk memindahkan demonstrasi ke penyematan tahap yang lebih tinggi dan menyiapkan aksi motor pada masa yang sama dalam konteks semasa. Peranan rangkaian pra-motor adalah belajar berkomunikasi dengan sistem motor dengan cara yang berorientasi dan adaptif, menggabungkan kedua fungsi premotor dan otak kecil untuk pembelajaran motor dan penyesuaian cepat.

Terdapat teori yang menarik, paradoks Moravec, yang meramalkan bahawa tidak akan menjadi tahap kognisi yang lebih tinggi yang akan dikenakan pajak tetapi perlakuan input deria dan output sistem motor. Ini sememangnya menyumbang kepada sejumlah besar neuron yang terdapat di otak kecil kita (lebih banyak daripada otak kita yang lain) untuk mengawal tindakan motor secara adaptif. Paradoks ini dirumuskan pada masa (80-an) ketika kita masih percaya kita dapat memasukkan pengetahuan kita sendiri ke dalam mesin untuk melakukan tugas yang kompleks dalam lingkungan bising yang tidak terkawal. Sudah tentu paradoks ini masuk akal jika entah bagaimana mesin dapat mewakili dunia dalam set keadaan yang tersendiri, membangun fungsi tingkat yang lebih tinggi akan lebih mudah. Tetapi saya percaya kedua-duanya akan terbukti sangat membebankan, dan perwakilan dalaman yang digunakan di antara muka antara rangkaian akan jauh dari apa pun yang menyerupai representasi sedar kita sendiri.

Kesimpulannya

Dengan menggabungkan rangkaian saraf yang berbeda yang masing-masing bertanggung jawab atas rawatan khusus terhadap masalah ini, artikel ini menunjukkan bahawa dengan membuat tugas yang semestinya memerlukan generalisasi, dan membangun lingkungan pembelajaran yang sesuai melalui pengacakan domain, jaringan saraf dengan akses ke memori dan sistem perhatian dapat belajar membuat generalisasi di luar pembiakan sederhana. Ia dapat belajar untuk menemui tujuan pesanan yang lebih tinggi yang hanya ditunjukkan sekali dalam aliran visual maklumat, dan melakukan pengiraan di ruang umum untuk memulihkan tindakan yang sesuai yang dapat menghasilkan semula tujuan tersebut dalam konteks yang berbeza.

Di masa depan kita akan melihat peningkatan kerumitan struktur yang dibina di atas blok bangunan atom yang dapat belajar untuk menggeneralisasi tugas-tugas yang kompleks tetapi yang lebih penting melakukan beberapa tugas seperti itu, dalam lingkungan baru, dengan kurang bergantung pada kaedah berkode keras seperti praprosesan input atau simpanan memori. Penyimpanan memori akan digantikan oleh representasi yang diedarkan di rangkaian memori, sistem perhatian akan digantikan oleh aktiviti siklik dalam rangkaian perhatian masa nyata. Persoalannya tetap bagaimana kita akan dapat menyesuaikan teknologi bersiri yang kuat (mesin Turing) dengan peningkatan pergantungan kita pada pengkomputeran terdistribusi dalam sistem terwujud.