Kesalahan Umum Robots.txt Yang Harus diatasi

Robots.txt adalah salah satu elemen terpenting dari SEO. Ini adalah hal pertama yang diperiksa perayap ketika mengunjungi situs web Anda. Ini digunakan untuk mengarahkan perayap tentang bagian mana dari situs web yang diizinkan dan tidak boleh dirayapi. Kesalahan kecil dalam arahan apa pun dalam file ini dapat menyebabkan kemampuan perayapan yang buruk, yang secara langsung memengaruhi peringkat situs web.

Dalam posting blog ini, kami akan membahas beberapa kesalahan paling umum yang dilakukan orang saat membuat file robots.txt yang harus Anda hindari.

Kesalahan Umum Robots.txt

Kesalahan Umum Robots.txt Yang Harus diatasi

Tidak menempatkan file di direktori root

Salah satu kesalahan umum yang dilakukan orang adalah lupa menempatkan file di lokasi yang benar. File robots.txt harus selalu ditempatkan di direktori root situs web Anda. Menempatkannya di dalam sub-direktori lain membuat file tidak dapat ditemukan oleh perayap saat mengunjungi situs web Anda.

Cara yang salah – https://www.example.com/assets/robots.txt

Cara yang benar – https://www.example.com/robots.txt

Penggunaan wildcard yang tidak tepat

Karakter pengganti adalah karakter khusus yang digunakan dalam arahan yang ditentukan untuk perayap dalam file robots.txt. Ada dua wildcard yang dapat digunakan dalam file robots: * dan $. Karakter * digunakan untuk mewakili “semua” atau “0 atau lebih instance dari setiap karakter yang valid”. Dan karakter $ digunakan untuk mewakili akhir URL. Pahami cara kerja wildcard dalam contoh di bawah ini dan gunakan dengan bijak.

Contoh implementasi yang benar

User-Agent: * (Di sini * digunakan untuk mewakili semua jenis agen pengguna)

Larang: /assets* (Di sini * menyatakan bahwa setiap URL dengan “/assets” yang ada di dalamnya akan diblokir)

Larang: *.pdf$ (Petunjuk ini menunjukkan bahwa semua URL yang diakhiri dengan ekstensi .pdf harus diblokir)

Jangan gunakan wildcard secara tidak perlu atau Anda mungkin akan memblokir seluruh folder alih-alih satu URL.

Penggunaan garis miring yang tidak perlu

Kesalahan umum lainnya adalah menggunakan garis miring saat memblokir/mengizinkan URL di robots.txt. Misalnya, jika Anda ingin memblokir URL: https://www.example.com/category.

Apa yang terjadi jika Anda menambahkan garis miring yang tidak perlu?

Agen pengguna: *

Larang: /kategori/

Ini akan menunjukkan kepada Googlebot untuk tidak merayapi URL apa pun di dalam folder “/ kategori/”. Juga, itu tidak akan memblokir URL “/ kategori” karena tidak ada garis miring di dalamnya.

Cara ideal untuk memblokir URL

Agen pengguna: *

Larang: /kategori

Menggunakan arahan NoIndex di robots.txt

Ini adalah praktik lama yang sekarang telah dihentikan orang. Google secara resmi mengumumkan bahwa arahan NoIndex tidak akan berfungsi di file robots.txt mulai 1 September 2019. Jika Anda menggunakannya, Anda harus menyingkirkannya. Sebagai gantinya, Anda harus menentukan atribut NoIndex di tag meta robots untuk URL yang tidak ingin Anda indeks oleh Google.

Baca Juga:  Apa itu PWA-AMP dan Mengapa Penting

Contoh NoIndex di robots.txt

 

Gunakan tag robot meta sebagai gantinya

<meta name=”robots” content=”noindex”/>

Gunakan cuplikan kode ini di kode halaman URL yang ingin Anda blokir dari pengindeksan Google daripada menggunakan arahan NoIndex di file robots.txt.

Tidak menyebutkan URL peta situs

Orang sering lupa menyebutkan lokasi peta situs di file robots.txt, yang tidak diinginkan. Menentukan lokasi peta situs akan membantu perayap menemukan peta situs dari file robots itu sendiri. Googlebot tidak perlu menghabiskan waktu untuk menemukan peta situs seperti yang telah disebutkan sebelumnya. Mempermudah perayap akan selalu membantu situs web Anda.

Bagaimana cara menentukan lokasi peta situs di file robots?

Cukup gunakan perintah yang disebutkan di bawah ini di file robots.txt Anda untuk mendeklarasikan peta situs Anda.

Peta Situs: https://www.example.com/sitemap.xml

Memblokir CSS dan JS

Orang sering berpikir bahwa file CSS dan JS dapat diindeks oleh Googlebot dan akhirnya memblokirnya di robots.txt. John Mueller dari Google sendiri menyarankan untuk tidak memblokir file JS dan CSS karena Googlebot perlu merayapinya untuk merender halaman secara efisien. Jika Googlebot tidak dapat merender halaman, kemungkinan besar Googlebot tidak akan mengindeks atau memberi peringkat halaman tersebut. Anda dapat membaca lebih lanjut tentang saran Mueller di sini .

Tidak membuat file robots.txt khusus untuk setiap sub-domain

Disarankan bahwa setiap sub-domain situs web, termasuk sub-domain pementasan, harus memiliki file robots.txt khusus. Tidak melakukannya dapat menyebabkan perayapan dan pengindeksan subdomain yang tidak diinginkan (misalnya staging, API, dan sebagainya) dan perayapan subdomain penting yang tidak efisien. Oleh karena itu, sangat disarankan untuk memastikan bahwa file robots.txt ditentukan dan disesuaikan untuk setiap sub-domain.

Tidak memblokir perayap mengakses situs pementasan

Semua upaya pengembangan untuk situs web terlebih dahulu diuji pada situs web pementasan atau pengujian dan kemudian disebarkan di situs web utama. Tetapi satu hal penting yang dilupakan orang adalah bahwa untuk Googlebot, situs web pementasan sama seperti situs web lainnya. Itu dapat menemukan, merayapi , dan mengindeks situs web pementasan Anda seperti situs web normal lainnya. Dan jika Anda tidak memblokir perayap untuk merayapi situs pementasan Anda, ada kemungkinan besar bahwa URL pementasan Anda akan diindeks dan bahkan mungkin diberi peringkat untuk beberapa kueri. Ini adalah hal terakhir yang Anda inginkan.

Orang sering menggunakan file robots.txt yang sama dari situs web utama mereka di situs web pementasan, yang sepenuhnya salah. Selalu blokir perayap agar tidak merayapi situs pementasan Anda. Anda dapat melakukannya hanya dengan mengikuti perintah ini:

Agen pengguna: *

Larang: /

Mengabaikan sensitivitas huruf besar-kecil

Penting untuk diingat bahwa URL peka huruf besar/kecil untuk perayap. Misalnya, https://www.example.com/category dan https://www.example.com/Category adalah dua URL yang berbeda untuk crawler. Oleh karena itu, saat menentukan arahan dalam file robots.txt, pastikan Anda mempertahankan sensitivitas huruf besar-kecil untuk URL.

Katakanlah Anda ingin memblokir URL https://www.example.com/news

Pendekatan yang salah

Agen pengguna: *

Larang: /Berita

Pendekatan yang benar

Agen pengguna: *

Larang: /berita

Kesimpulan

Ini adalah beberapa kesalahan paling umum yang terkait dengan file robots.txt yang secara drastis dapat membahayakan SEO. Robots.txt adalah file kecil, namun sangat penting yang mudah diatur. Oleh karena itu, Anda harus sangat berhati-hati saat menyiapkan file robots.txt dan jangan membuat kesalahan apa pun.

Apakah Anda melakukan salah satu dari kesalahan ini? Apa dampaknya? Beri tahu kami di bagian komentar di bawah.