Crawling dell'archivio Google Play

Vorrei eseguire la scansione dell'archivio Google Play per scaricare le pagine web di tutte le applicazioni Android (tutte le pagine web con il seguente URL di base: https://play.google.com/store/apps/ ). Ho controllato il file robots.txt dell'archivio di gioco e non sono in grado di eseguire la scansione di questi URL.

Inoltre, quando sfogliando il negozio Google Play, posso solo vedere applicazioni superiori fino a 3 pagine per ciascuna delle categorie. Come posso get le altre pagine di applicazione?

  • Tipo Avviso di sicurezza con JSON Iterator
  • WebView getta Ricevitore non registrato: android.widget.ZoomButtonsController
  • Riprodurre il suono usando l'esempio soundpool
  • Calcolare il tempo residuo della batteria in tensione
  • Cambiare il colore del text del suggerimento nella barra degli strumenti utilizzando la libreria di supporto
  • È ansible accedere agli elementi dell'interface utente del frammento dall'attività triggersta da onCreate
  • Se qualcuno ha provato a eseguire la scansione del Google Play, ti prego di comunicare le seguenti informazioni: a) Sei riuscito a eseguire la scansione del negozio di giochi. Se sì, per favore fathemes sapere come lo hai fatto. b) Come eseguire la scansione delle pagine di applicazioni nascoste non visibili nelle applicazioni principali per ciascuna delle categorie? c) C'è una tecnica per scaricare anche le applicazioni, e non solo le pagine web?

    Ho già cercato in giro e ho trovato i seguenti link:

    a) https://code.google.com/p/android-market-api/ b) https://code.google.com/p/android-marketplace-crawler/source/checkout c) http://mohsin-junaid.blogspot.co.uk/2012/12/how-to-install-android-marketplace.html d) http://mohsin-junaid.blogspot.in/2012/12/how-to-download-multiple-android-apks.html 

    Grazie!

  • StaggeredGridLayoutManager e oggetti in movimento
  • Jarsigner non è riconosciuto command interno o esterno
  • Runtime.exec () bug: blocca senza fornire un object Process
  • come get l'identificazione delle caselle di controllo nell'elenco di visualizzazione dell'elenco esteso?
  • Impedire la rotazione dello schermo su Android
  • come impostare NAVIGATION_MODE_LIST sulla barra degli strumenti new appcompat v7 21
  • 3 Solutions collect form web for “Crawling dell'archivio Google Play”

    Ho fatto il lavoro in Python prima, quello che ti serve è un web test automatico lib chiamato selenium, può eseguire il codice Javascript e restituire il risultato a Python, con Javascript, puoi click sul button "mostrare di più" dal programma stesso. E quando ricevi tutti i collegamenti per una singola categoria, puoi ricevere alcune informazioni per l'applicazione. La demo semplice qui . Spero utile.

    Prima di tutto, il robots.txt di Google Play NON autorizza le pagine con base "/ store / apps".

    Se desideri eseguire la scansione di Google Play, devi sviluppare il tuo crawler web, analizzare la pagina HTML e estrarre i meta-dati app (ad es. Titolo, descrizioni, prezzo, ecc.). Questo argomento è stato trattato in questa altra domanda . Esistono biblioteche che, ad esempio, aiutano:

    La parte più difficile è quella di "trovare" le app-pagine per eseguire la scansione. Puoi utilizzare 1) la Sitemap di Google Play o 2) seguire i collegamenti app trovati in each pagina che eseguite la scansione come spiegato nella documentazione Link Extractor (nel caso in cui si prevede di utilizzare Scrapy).

    Un'altra opzione è quella di utilizzare una libreria open-source basata su ProtoBuf per recuperare metadati su un'applicazione, qui il link al progetto: https://code.google.com/archive/p/android-market-api . Questa libreria recupera i metadati app da Google Play per conto di un account Google valido, ma anche in questo caso hai bisogno di un crawler per "trovare" le applicazioni disponibili e pianificare il recupero dei metadati. Questo altro progetto open-source può aiutarti con questo: https://code.google.com/archive/p/android-marketplace-crawler .

    Se non si desidera implementare tutto questo da soli, è ansible utilizzare un servizio gestito da terze parti per accedere ai metadati di applicazioni Android tramite un'API basata su JSON. Ad esempio, 42matters.com (la società per cui lavoro) offre un'API per Android e iOS per recuperare i metadati delle applicazioni, qui ulteriori dettagli:

    https://42matters.com/app-market-data

    Per get il titolo, l'icona, la descrizione, i download per un'applicazione è ansible utilizzare l'endpoint "lookup" come documentato qui:

    https://42matters.com/docs/app-market-data/android/apps/lookup

    Questo è un esempio della risposta JSON per l'app Angry Birds Space Premium:

     { "package_name": "com.rovio.angrybirdsspace.premium", "title": "Angry Birds Space Premium", "description": "Play over 300 interstellar levels across 10 planets...", "short_desc": "The #1 mobile game of all time blasts off into space!", "rating": 4.3046236038208, "category": "Arcade", "cat_key": "GAME_ARCADE", "cat_keys": [ "GAME_ARCADE", "GAME", "FAMILY_EDUCATION", "FAMILY" ], "price": "$1.15", "downloads": "1,000,000 - 5,000,000", "version": "2.2.1", "content_rating": "Everyone", "promo_video": "https://www.youtube.com/embed/g6AL9YqRHaI?ps=play&vq=large&rel=0&autohide=1&showinfo=0&autoplay=1", "market_update": "2015-07-03T00:00:00+00:00", "screenshots": [ "https://lh3.googleusercontent.com/ZmuBQzIy1G74coPrQ1R7fCeKdJmjTdpJhNrIHBOaFyM0N2EYdUPwZaQjnQUtiUDGmac=h310", "https://lh3.googleusercontent.com/Xg2Aq70ZH0SnNhtSKH7xg9jCfisWgmmq3C7xQbx6YMhTVAIRqlRJeH8GYtjxapb_qR4=h310", "https://lh3.googleusercontent.com/T4o5-2_UP82sj4fSSegbjrGmslNHlfvtEYuZacXMSOC55-7eyiKySw05lNF1QQGO2FeU=h310", "https://lh3.googleusercontent.com/f2ennaLdivFu5cQQaVPKsRcWxB8FS5T4Bkoy3l0iPW9-GDDnTVRhvR5kz6l4m8FL1c8=h310", "https://lh3.googleusercontent.com/H-9M03_-O9Df1nHr2-rUdjtk2aeBY3bAxnqSX3m2zh_aV8-K1t0qU1DxLXnK0GrDAw=h310" ], "created": "2012-03-22T08:24:00+00:00", "developer": "Rovio Entertainment Ltd.", "number_ratings": 20812, "price_currency": "$", "icon": "https://lh3.ggpht.com/aQaIEGrmba1ENSEgUtArdm3yhJUug7BRWlu_WaspoJusZyHv1rjlWtYqe_qRjE_Kmh1E=w300", "icon_72": "https://lh3.ggpht.com/aQaIEGrmba1ENSEgUtArdm3yhJUug7BRWlu_WaspoJusZyHv1rjlWtYqe_qRjE_Kmh1E=w72", "market_url": "https://play.google.com/store/apps/details?id=com.rovio.angrybirdsspace.premium&referrer=utm_source%3D42matters.com%26utm_medium%3Dapi" } 

    Spero che questo aiuti, altrimenti senta libero di entrare in contatto con me. Conosco bene questo argomento e ti posso indicare nella giusta direzione.

    Saluti,

    Andrea

    Google non impedisce la scansione di pagine di / store / apps.

    Non c'è alcuna menzione di "/ store / apps" nel robot.txt

    Vedi https://play.google.com/robots.txt

    L'Android è un fan Android di Google, tutto su telefoni Android, Android Wear, Android Dev e applicazioni Android Games e così via.