Bagaimana cara kerja mekanisme diri dalam transformator?

Hai! Saya seorang pemasok transformer, dan hari ini saya akan berbicara tentang bagaimana mekanisme perhatian dalam transformator bekerja. Mungkin terdengar agak teknis, tapi saya akan memecahnya dengan cara yang mudah dimengerti.

Mari kita mulai dengan dasar -dasarnya. Transformer adalah jenis arsitektur jaringan saraf yang telah merevolusi bidang pemrosesan bahasa alami (NLP) dan bidang lainnya. Mekanisme perhatian diri adalah salah satu komponen kunci yang membuat transformer begitu kuat.

Apa itu perhatian - diri?

Perhatian diri adalah cara bagi model untuk menimbang pentingnya berbagai bagian dari urutan input saat memprosesnya. Secara sederhana, ini membantu model fokus pada bagian input yang relevan. Bayangkan Anda sedang membaca artikel panjang. Anda tidak membaca setiap kata dengan tingkat perhatian yang sama. Anda mungkin lebih memperhatikan kalimat utama, judul, dan detail yang relevan. Itulah tepatnya apa yang dilakukan oleh diri sendiri untuk model transformator.

Bagaimana cara kerjanya selangkah demi selangkah?

1. Kueri, kunci, dan vektor nilai

Langkah pertama dalam mekanisme perhatian diri adalah membuat tiga jenis vektor untuk setiap elemen dalam urutan input: vektor kueri (q), kunci (k), dan nilai (v). Vektor -vektor ini dibuat dengan mengalikan embeddings input dengan tiga matriks berat yang berbeda.

Katakanlah kita memiliki urutan kata -kata input, dan setiap kata direpresentasikan sebagai vektor. Kami melipatgandakan vektor input ini dengan matriks berat (w_q), (w_k), dan (w_v) untuk mendapatkan vektor kueri, kunci, dan nilai masing -masing.

[Q = xw_q]
[K = xw_k]
[V = xw_v]

Di sini, (x) adalah matriks embeddings input.

2. Menghitung skor perhatian

Selanjutnya, kami menghitung skor perhatian. Kami melakukan ini dengan mengambil produk titik dari vektor kueri dengan vektor kunci. Produk DOT mengukur kesamaan antara kueri dan kunci.

Untuk setiap vektor kueri (q_i) dalam urutan, kami menghitung skor perhatian (a_ {i, j}) dengan semua vektor kunci (k_j) dalam urutan.

[a_ {i, j} = q_i \ cdot k_j]

Skor -skor ini memberi tahu kami berapa banyak elemen (i) - th dalam urutan harus memperhatikan elemen (j) - th.

3. Penskalaan dan softmax

Skor perhatian kemudian diskalakan dengan membaginya dengan akar kuadrat dari dimensi vektor kunci ((\ sqrt {d_k})). Penskalaan ini membantu mencegah produk titik menjadi terlalu besar, yang dapat menyebabkan gradien tidak stabil selama pelatihan.

[a_ {i, j}^{scaled} = \ frac {a_ {i, j}} {\ sqrt {d_k}}]]

Setelah penskalaan, kami menerapkan fungsi softmax ke skor skala. Fungsi Softmax mengubah skor menjadi probabilitas, sehingga mereka merangkum hingga 1.

[\ alpha_ {i, j} = \ frac {\ exp (a_ {i, j}^{scaled})} {\ sum_ {k = 1}^{n} \ exp (a_ {i, k}^{scaled})}]]

Di sini, (\ alpha_ {i, j}) adalah bobot perhatian, yang mewakili pentingnya elemen (j) - th ke elemen (i) - th.

pole-mounted-transformer (2) 400kva dry transformer

4. Jumlah nilai tertimbang

Akhirnya, kami menghitung output dari mekanisme perhatian diri dengan mengambil jumlah tertimbang dari vektor nilai. Kami melipatgandakan setiap vektor nilai (v_j) dengan berat perhatian yang sesuai (\ alpha_ {i, j}) dan jumlahnya untuk semua (j).

[o_i = \ sum_ {j = 1}^{n} \ alpha_ {i, j} v_j]

Vektor output (O_I) adalah output dari mekanisme perhatian diri untuk setiap elemen dalam urutan input.

Mengapa diri - perhatian penting?

Mekanisme perhatian diri memiliki beberapa keunggulan. Pertama, ini memungkinkan model untuk menangkap dependensi jangka panjang dalam urutan input. Dalam arsitektur jaringan saraf tradisional seperti Recurrent Neural Networks (RNNs), sulit untuk menangkap ketergantungan antara elemen yang berjauhan dalam urutan. Perhatian diri dapat dengan mudah menangani dependensi jangka panjang seperti itu karena dapat secara langsung menghitung hubungan antara dua elemen dalam urutan.

Kedua, diri - perhatian dapat diparalelikan. Tidak seperti RNNs, yang memproses urutan input secara berurutan, perhatian diri dapat memproses semua elemen dalam urutan secara bersamaan. Ini membuat pelatihan dan kesimpulan jauh lebih cepat, terutama untuk urutan yang panjang.

Aplikasi Transformers dan Perhatian Diri

Transformer dengan mekanisme perhatian diri telah digunakan dalam berbagai aplikasi. Di NLP, mereka digunakan untuk tugas -tugas seperti terjemahan mesin, pembuatan teks, sistem pertanyaan - sistem penjawab, dan analisis sentimen. Misalnya, model seperti Bert dan GPT didasarkan pada arsitektur transformator.

Dalam visi komputer, perhatian - perhatian juga telah diterapkan. Ini dapat digunakan untuk menganalisis gambar, mendeteksi objek, dan menghasilkan teks untuk gambar.

Produk transformator kami

Sebagai pemasok transformator, kami menawarkan berbagai transformator berkualitas tinggi. Misalnya, kami memiliki167 KVA Telephone Pole Transformer, yang cocok untuk aplikasi luar ruangan dan dapat menyediakan catu daya yang andal. KitaMinyak merendam transformator kehilangan rendahdirancang untuk mengurangi kehilangan energi dan memiliki masa pakai yang panjang. Dan jika Anda membutuhkan transformator kering, kamiTransformator kering 400 kVAadalah pilihan yang bagus, dengan fitur kinerja dan keamanan yang sangat baik.

Jika Anda tertarik dengan produk kami atau memiliki pertanyaan tentang Transformers, jangan ragu untuk menghubungi kami untuk negosiasi pembelian. Kami di sini untuk memberi Anda solusi terbaik untuk kebutuhan kekuatan Anda.

Referensi

Vaswani, A., Shazer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, An, ... & Polosukhin, I. (2017). Perhatian adalah semua yang Anda butuhkan. Kemajuan dalam sistem pemrosesan informasi saraf.
Devlin, J., Chang, MW, Lee, K., & Toutanova, K. (2018). Bert: Pra - Pelatihan transformator dua arah yang dalam untuk pemahaman bahasa. ARXIV Preprint ARXIV: 1810.04805.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Model bahasa adalah pelajar multitask yang tidak diawasi. Blog Openai, 1 (8), 9.