Es izveidoju pārlūka rīku AI vajadzībām, jo ekrānuzņēmumi ir pārāk lēni
Pagājušajā mēnesī es palūdzu Claude Code pārbaudīt manus Google Search Console datus. Tas atvēra pārlūku, uzņēma ekrānuzņēmumu, analizēja to, izdomāja, kur klikšķināt, uzņēma vēl vienu ekrānuzņēmumu, analizēja to, klikšķināja, ekrānuzņēmums, analīze, atkārtot.
Trīs minūtes, lai iegūtu datus, ko es dabūju 20 sekundēs.
Tā ir problēma ar ekrānuzņēmumu pārlūka automatizāciju. Tā darbojas. Bet tā ir tik lēna, ka ātrāk ir izdarīt pašam.
Tāpēc es izveidoju kaut ko citu. Vienu Python skriptu, aptuveni 1200 rindiņu garu, kas sazinās tieši ar Chrome, izmantojot tā iebūvēto tālvadību. Nekādu ekrānuzņēmumu. Nekādas pikseļu analīzes. Teksta komandas iekšā, teksta dati ārā.
Tas pats Search Console uzdevums tagad aizņem aptuveni 15 sekundes.
Kāpēc AI pārlūka automatizācija ir svarīga
Lielākā daļa tava darba notiek pārlūkā. Nevis atvērtajā tīmeklī, bet aiz autorizācijas. Tavs analītikas panelis. Tavs CRM. Tavs projektu vadības rīks. Tavs grāmatvedības portāls.
AI asistenti var meklēt informāciju internetā. ChatGPT, Gemini un Perplexity labi orientējas publiskajā tīmeklī. Bet tie nevar ielogoties tavos rīkos. Tie nevar pārbaudīt tavus konkrētos skaitļus.
Pārlūka automatizācija aizpilda šo plaisu. Tā ļauj AI izmantot tavu pārlūku, kurā tu jau esi ielogojies, lai tavā vietā klikšķinātu un lasītu datus.
Jautājums nav, vai tas ir noderīgi. Jautājums ir, vai tas ir pietiekami ātri, lai ar to nodarbotos.
Trīs pieejas
AI tīmekļa meklēšana
Tas ir tas, ko ChatGPT, Gemini un Perplexity dara pēc noklusējuma: meklē publiskajā tīmeklī un apkopo atrasto.
Lieliski publiskai informācijai. Bezjēdzīgi jebkam aiz autorizācijas.
Ekrānuzņēmumu vadība
Tā strādā Claude datora lietošanas funkcija un līdzīgi rīki. AI uzņem ekrānuzņēmumu, apstrādā attēlu, izlemj, kur klikšķināt, noklikšķina un uzņem vēl vienu ekrānuzņēmumu.
Problēma ir tokeni. Katrs ekrānuzņēmums maksā aptuveni 1500 tokenus. 10 soļu uzdevums var sadedzināt 15 000+ tokenu tikai uz attēliem.
browser-use, populārākais atvērtā koda AI pārlūka aģents (78 000+ GitHub zvaigžņu), saskārās tieši ar šo robežu. Tā veidotāji pilnībā atteicās no Playwright par labu tīram CDP. Abstrakcijas slānis radīja pārāk lielu aizkavi tūkstošiem izsaukumu vienas sesijas laikā.
- gada janvāra etalontests parādīja skaitļus: 114 000 tokenu ar MCP pieeju pret 7000 tokeniem ar CDP aģentu vienam un tam pašam 10 soļu uzdevumam.
Tieša pārlūka vadība (CDP)
Chrome ir iebūvēta tālvadība, ko sauc par CDP — Chrome DevTools Protocol. Tā pati tehnoloģija, kas darbina Chrome izstrādātāja rīkus.
Tā vietā, lai uzņemtu attēlu un minētu, kas redzams ekrānā, CDP ļauj nolasīt faktisko tekstu, noklikšķināt uz precīziem elementiem un iegūt datus tieši.
Ekrānuzņēmumu pieeja ir kā pa tālruni aprakstīt izklājlapas fotoattēlu. CDP ir kā iedot cilvēkam pašu failu.
Kā skripts strādā
Python skripts ar nosaukumu cdp.py atrodas starp Claude Code un Chrome:
# 1. Palaid Chrome + bloķē attēlus/CSS (60-80% ātrāka ielāde)
cdp.py ensure
cdp.py block
# 2. Atjauno vakardienas pieteikšanās sesiju
cdp.py cookies_load ~/.cookies/google.json
# 3. Navigē (gudra gaidīšana — nekādu fiksētu pauzu)
cdp.py navigate "https://search.google.com/search-console"
# 4. Kas ir šajā lapā? (~100 tokenu, nevis 1500)
cdp.py axtree
→ [navigation] [button "7d"] [button "28d"] [heading "Performance"]
# 5. Klikšķini un lasi
cdp.py click "28d"
cdp.py readable
→ "Performance: 4,820 clicks | 72,100 impressions | 6.7% CTR"
# 6. Saglabā sesiju nākamajai reizei
cdp.py cookies_save ~/.cookies/google.json
Septiņas komandas. Tīri teksta dati. Nekādi attēli nav apstrādāti. Nākamreiz nav jāielogojas no jauna.
Nelasi visu lapu. Lasi tikai to, kas tev vajadzīgs.
Īstais triks nav tikai "teksts ekrānuzņēmumu vietā". Svarīgākais ir prasīt tieši tos datus, kas tev vajadzīgi:
| Komanda | Ko atgriež | Tokeni |
|---|---|---|
screenshot | Katru pikseli, izkārtojumu, dekorācijas | ~1500 |
content | Visu redzamo tekstu lapā | ~800 |
readable | Tikai galveno saturu, bez navigācijas | ~300 |
links | Tikai klikšķināmus elementus | ~150 |
axtree | Pieejamības koku — semantiska struktūra, lomas | ~100 |
forms | Tikai ievades laukus un etiķetes | ~80 |
Tā pati lapa. Seši precizitātes līmeņi. Pieejamības koks ir kompaktākais — tā ir semantiskā struktūra, ko izmanto ekrānlasītāji. Sarežģītā lapā kā GitHub axtree atgriež ~100 tokenus, kur content atgriež ~3200. Tas ir 27 reizes mazāk tokenu par to pašu lietojamo informāciju.
Trīs lietas, kas padara to vēl ātrāku
Resursu bloķēšana. Palaid block pirms navigēšanas, un pārlūks izlaiž attēlus, CSS, fontus un video. Lapas ielādējas 60-80% ātrāk, jo AI aģentiem nav vajadzīgi vizuālie resursi.
Sesiju saglabāšana. Palaid cookies_save pēc ielogošanās. Nākamreiz cookies_load atjauno sesiju — nekāda atkārtota autentifikācija, nekāda paroļu apstrāde, nekādi OAuth plūsmas. Skripts atceras tavas pieteikšanās.
Gudrā gaidīšana. Navigācija izmanto Chrome veiktspējas metriku, nevis fiksētas pauzes. Skripts nosaka, kad lapa ir patiešām gatava — ātrās lapas turpinās nekavējoties, nevis gaida pilnu sekundi.
Galvenā doma
Google Chrome komanda izlaida oficiālu MCP serveri Chrome DevTools Protocol vajadzībām. Chrome 146 pievieno iebūvētu iestatījumu slēdzi AI aģentu piekļuvei. Pats platformas veidotājs virzās uz strukturētu, programmatisku piekļuvi, nevis pikseļu interpretēšanu.
Bet īstā mācība nav par CDP pret ekrānuzņēmumiem.
Tā ir par ātruma slieksni.
Ja AI asistents patērē 3 minūtes, lai izdarītu to, ko tu vari izdarīt 30 sekundēs, tu vienkārši izdarīsi pats. Katru reizi. Nav nozīmes, cik gudrs ir AI.
Seši mēneši ikdienas darba ar AI man to iemācīja: vājā vieta nekad nebija intelekts. Tā vienmēr bija ātrums.
Vispirms būvē ātrumam. Intelekts seko.
Skatīt pilnu vizuālo salīdzinājumu, kas salīdzina visas trīs pieejas.
Gribi redzēt, kā AI pārlūka automatizācija strādā ar reāliem rīkiem? Piesakies sarunai — es parādīšu reālo darba procesu.
Pragmatiskais Būvētājs
Iknedēļas ietvari un mācības no būvēšanas ar AI aģentiem. Bez lieka trokšņa, tikai tas, kas darbojas.
Nekāds spams. Atteikties jebkurā laikā.