Regex Pada PHP Untuk Mengambil Title Dari Sebuah Situs

Regex atau Regular Expression adalah serangkaian karakter atau text yang mendefinisikan sebuah pola pengkodean. Pola ini biasanya digunakan oleh algoritma pencarian string untuk melakukan operasi “search” atau “search and replace” pada string, atau untuk memeriksa nilai string masukan.

Lalu bagaimana jika kita ingin mengambil title atau judul dari sebuah situs dengan PHP? tentu kita perlu mengekstrak HTML script nya terlebih dahulu,  Anda dapat menggunakan fungsi file_get_contents untuk mengambil source HTML dari sebuah website.

<?php file_get_contents('https://www.helixs.id/'); ?>

Fungsi di atas akan mengekstrak source HTML dari website yang ditentukan. Dengan regex kita hanya akan mengambil title dari source yang telah diekstrak.  Berikut contoh regex yang akan kita gunakan.

#(\<title.*?\>)(\n*\r*.+\n*\r*)(\<\/title.*?\>)#

Dengan karakter regex diatas, kita dapat melakukan otomatisasi untuk mengambil title dari source yang telah kita di ekstrak. Bagaimana caranya? kita menggunakan fungsi preg_match_all untuk mencari dan memilah data yang ingin diambil.

preg_match_all("Regex", $string, $matches);

Sehingga jika digabungkan akan menjadi seperti berikut

<?php
$get = file_get_contents("https://www.helixs.id/");
$match = preg_match_all("#(\<title.*?\>)(\n*\r*.+\n*\r*)(\<\/title.*?\>)#", $get, $matches);
echo $matches[2];
?>