Scrapping Text menggunakan DiDOM di PHP

Sebagai programmer tentu saja saya sering melakukan scrapping text pada dokumen, khususnya dokumen HTML. Iseng-iseng tadi saya melihat script scrapping yang dibuat menggunakan nodejs yang terlihat sangat efektif, yaitu dengan menelusuri DOM. Padahal, kalau di PHP biasanya saya menggunakan REGEX.

Menelusuri DOM tentu saja lebih mudah dan efektif serta lebih terhindar dari kesalahan-kesalahan yang diakibatkan oleh perubahan kecil pada text. Dengan menggunakan DOM asal path DOM nya tidak berubah maka segalanya akan aman.

Tanya sama OpenAI, saya ditunjukkan pada library PHP yang sederhana namun mempunyai kemampuan yang mantab. DiDOM dengan dokumentasi yang cukup lengkap.

DiDOM bisa mengambil langsung dari sumber dokumen menggunakan fungsi php file_get_contents() . Namun jika kamu ingin menambahkan beberapa parameter sehingga harus menggunakan CURL, maka bisa aja. Kamu ambil dokumen via CURL lalu hasilnya diumpankan ke DiDOM.

Contohnya seperti ini:

<?php
require 'vendor/autoload.php';

use DiDom\Document;

function fetchWithCurl($url) {
    $ch = curl_init($url);
    curl_setopt_array($ch, [
        CURLOPT_RETURNTRANSFER => true,
        CURLOPT_FOLLOWLOCATION => true,
        CURLOPT_TIMEOUT => 10,
        CURLOPT_USERAGENT => 'Mozilla/5.0 (compatible; DiDom/1.0)',
    ]);
    $html = curl_exec($ch);
    curl_close($ch);
    return $html;
}

$html = fetchWithCurl('https://www.news.com/');
$document = new Document($html);

Okey, mungkin setelah ini saya akan menggunakan cara ini untuk scrapping data 🙂

Hardisk Penuh :(

Hardisk Drive C saya yang berisi   OS Windows dan aplikasi lainnya penuh. Kalau secara itung-itungannya aplikasi kayaknya gak sebesar itu.

Akhirnya ada perangkat lunak yang bisa membantu menghitung  file-file dalam drive saya. Folder sizes . Memang tidak sepenuhnya gratis, namun versi gratisnya sudah mencukupi, karena saya hanya ingin melihat folder dan files yang terlalu besar, dan mungkin sebenarnya bisa di hapus. Dan bener saja, ada data di AppData\Local yang terindikasi sebagai bagian dari Android Studio yang ukurannya ada 8GB, padahal android studio sudah saya hapus.

Kalau kita menggunakan Windows lama-lama drive C kita akan penuh dan dan kita kesulitan untuk mencari tahu sebenarnya penuhnya dimana dan apakah folder tertentu aman dihapus?

Dengan aplikasi ini setidaknya kita mengetahui folder-folder dan file yang membuat penih Disk kita. Namun untuk menghapusnya, memang sedikit ada pengalaman agar tidak menghapus bagian yang membuat Windows kita malah mogok hehehe…

Memperbaiki Mouse Bejat 2

Hari ini mouse saya bejat lagi. Dimana gerakannya seret, tidak lancar. Akhirnya saya pelajari bagaimana mouse optik ini bekerja.

Sebagaimana informasi yang saya dapatkan dari Ouora,

Untuk optical mouse cukup sederhana cara kerjanya dimana ada komponen photodioda (LED) yang menembakkan sinar ke bawah dan pantulan sinarnya ditangkap oleh photocell detector di sebelahnya

Lensa di Photocell detector ini memperbesar sinar pantulan sehingga dapat menangkap pattern atau motif dari pantulan permukaan meja atau alas mousenya dengan lebih jelas dan langsung diterima oleh IC yang akan menentukan dan membaca gerakan berdasar perubahan motif pantulan sinar LED tadi.

Mngetahui informasi tadi saya mencoba menyogok dudukan photocell dari bawah pakai sedotan gelas minuman mineral.

Hasilnya, Alhamdulillah normal kembali 🙂

Instalasi VSCode Server Sendiri

Sudah beberapa tahun ini saya menggunakan PC untuk melakukan coding. Ya, karena beberapa tahun sebelumnya saya menggunakan laptop, dan secara kenyataan laptop tidak setangguh PC.  Saya sudah menghabiskan banyak laptop cuyyy….

Tapi ada yang tidak enak menggunakan PC, karena PC tidak bisa dibawa kemana-mana, padahal kadang kita butuh suasana lain ketika coding atau bekerja.

Ternyata sekarang sudah ada solusinya. Code Server!

Dengan Code Server kita benar-benar bisa coding diserver. Kita tinggal klik alamat web, kemudian VS-Code online hadir di depan kita, dan kita bisa mengeksplore file-file yang ada di server mengedit, menyimpan dan menjalankannya. Benar-benar praktis.

Aplikasi ini saya instalasi jalankan di miniatur server saya “STB1”. Ternyata tidak ada kendala sama sekali. Saat ini aplikasi berjalan di intranet, walaupun bisa saja kita jalankan via internet kalau kita mau. Entah bagaimana nanti saja. Dengan berjalannya aplikasi di intranet sudah membuat saya tidak harus berada di depan meja kerja untuk berkerja.

Selanjutnya »

Dukungan Windows 10 Akan dihentikan Tahun 2025

Dukungan Windows 10 akan dihentikan oleh Microsoft pada tanggal 14 Oktober 2025. Artinya, setelah tanggal tersebut tidak akan ada lagi pembaruan keamanan atau patch dari Microsoft.

Sebelum ini saya menggunakan komputer hemat daya dengan OS Windows 7. Dan sayangnya saya harus melepaskannya karena tidak didukung Microsoft. Saya kemudian menggunakan Windows 10 dalam setahun terakhir dan sayangnya juga segera dihentikan MS.

Nanti, mungkin akan saya pertimbangkan untuk menggunakan Linux saja karena kita menjadi lebih mudah melakukan upgrade dengan support yang lebih panjang.

Beberapa perangkat lunak yang saya gunakan hanya:

  1. Laragon yang bisa digantikan XAMPP, atau install Nginx, PHPFM, dan MySQL secara manual
  2. VSCode yang tersedia di Linux
  3.  OBS yang tersedia di Linux

Untuk beberapa app, bisa menggunakan Docker karena lebih mudah dijalankan. Tinggal melakukan instant aja. Sekarang banyak pilihannya 🙂

 

Ok kita tunggu aja 🙂