Crawling dell'archivio Google Play

Vorrei eseguire la scansione dell'archivio Google Play per scaricare le pagine web di tutte le applicazioni Android (tutte le pagine web con il seguente URL di base: https://play.google.com/store/apps/ ). Ho controllato il file robots.txt dell'archivio di gioco e non sono in grado di eseguire la scansione di questi URL.

Inoltre, quando sfogliando il negozio Google Play, posso solo vedere applicazioni superiori fino a 3 pagine per ciascuna delle categorie. Come posso get le altre pagine di applicazione?

  • Come aggiungere il cassetto di navigazione a tutte le attività nell'applicazione?
  • Identificare e annullare un allarme submit a un AlarmManager
  • Libreria Barra Azione AppCompat che non visualizza frammenti aggiunti
  • Esegui le richieste con Retrofit all'interno di Runnable personalizzato
  • Nessuna ombra / elevazione sotto la seconda carta se ci sono due carte nel layout. Perché?
  • RecyclerView gli oggetti con grande spazio vuoto dopo 23.2.0
  • Se qualcuno ha provato a eseguire la scansione del Google Play, ti prego di comunicare le seguenti informazioni: a) Sei riuscito a eseguire la scansione del negozio di giochi. Se sì, per favore fathemes sapere come lo hai fatto. b) Come eseguire la scansione delle pagine di applicazioni nascoste non visibili nelle applicazioni principali per ciascuna delle categorie? c) C'è una tecnica per scaricare anche le applicazioni, e non solo le pagine web?

    Ho già cercato in giro e ho trovato i seguenti link:

    a) https://code.google.com/p/android-market-api/ b) https://code.google.com/p/android-marketplace-crawler/source/checkout c) http://mohsin-junaid.blogspot.co.uk/2012/12/how-to-install-android-marketplace.html d) http://mohsin-junaid.blogspot.in/2012/12/how-to-download-multiple-android-apks.html 

    Grazie!

  • Caratteri giapponesi che sembrano cinesi su Android
  • Aiutare con un attributo personalizzato Visualizza all'interno di un progetto di libreria Android
  • Dovrebbe "android: onOptionsItemSelected" restituire true o false
  • Come portre un'attività in foreground (top of stack)?
  • La chiamata a `getDrawingCache` restituisce null quando la function di scorrimento è abilitata
  • L'anteprima del pollice di grande scorrimento veloce non viene visualizzata
  • 3 Solutions collect form web for “Crawling dell'archivio Google Play”

    Ho fatto il lavoro in Python prima, quello che ti serve è un web test automatico lib chiamato selenium, può eseguire il codice Javascript e restituire il risultato a Python, con Javascript, puoi click sul button "mostrare di più" dal programma stesso. E quando ricevi tutti i collegamenti per una singola categoria, puoi ricevere alcune informazioni per l'applicazione. La demo semplice qui . Spero utile.

    Prima di tutto, il robots.txt di Google Play NON autorizza le pagine con base "/ store / apps".

    Se desideri eseguire la scansione di Google Play, devi sviluppare il tuo crawler web, analizzare la pagina HTML e estrarre i meta-dati app (ad es. Titolo, descrizioni, prezzo, ecc.). Questo argomento è stato trattato in questa altra domanda . Esistono biblioteche che, ad esempio, aiutano:

    La parte più difficile è quella di "trovare" le app-pagine per eseguire la scansione. Puoi utilizzare 1) la Sitemap di Google Play o 2) seguire i collegamenti app trovati in each pagina che eseguite la scansione come spiegato nella documentazione Link Extractor (nel caso in cui si prevede di utilizzare Scrapy).

    Un'altra opzione è quella di utilizzare una libreria open-source basata su ProtoBuf per recuperare metadati su un'applicazione, qui il link al progetto: https://code.google.com/archive/p/android-market-api . Questa libreria recupera i metadati app da Google Play per conto di un account Google valido, ma anche in questo caso hai bisogno di un crawler per "trovare" le applicazioni disponibili e pianificare il recupero dei metadati. Questo altro progetto open-source può aiutarti con questo: https://code.google.com/archive/p/android-marketplace-crawler .

    Se non si desidera implementare tutto questo da soli, è ansible utilizzare un servizio gestito da terze parti per accedere ai metadati di applicazioni Android tramite un'API basata su JSON. Ad esempio, 42matters.com (la società per cui lavoro) offre un'API per Android e iOS per recuperare i metadati delle applicazioni, qui ulteriori dettagli:

    https://42matters.com/app-market-data

    Per get il titolo, l'icona, la descrizione, i download per un'applicazione è ansible utilizzare l'endpoint "lookup" come documentato qui:

    https://42matters.com/docs/app-market-data/android/apps/lookup

    Questo è un esempio della risposta JSON per l'app Angry Birds Space Premium:

     { "package_name": "com.rovio.angrybirdsspace.premium", "title": "Angry Birds Space Premium", "description": "Play over 300 interstellar levels across 10 planets...", "short_desc": "The #1 mobile game of all time blasts off into space!", "rating": 4.3046236038208, "category": "Arcade", "cat_key": "GAME_ARCADE", "cat_keys": [ "GAME_ARCADE", "GAME", "FAMILY_EDUCATION", "FAMILY" ], "price": "$1.15", "downloads": "1,000,000 - 5,000,000", "version": "2.2.1", "content_rating": "Everyone", "promo_video": "https://www.youtube.com/embed/g6AL9YqRHaI?ps=play&vq=large&rel=0&autohide=1&showinfo=0&autoplay=1", "market_update": "2015-07-03T00:00:00+00:00", "screenshots": [ "https://lh3.googleusercontent.com/ZmuBQzIy1G74coPrQ1R7fCeKdJmjTdpJhNrIHBOaFyM0N2EYdUPwZaQjnQUtiUDGmac=h310", "https://lh3.googleusercontent.com/Xg2Aq70ZH0SnNhtSKH7xg9jCfisWgmmq3C7xQbx6YMhTVAIRqlRJeH8GYtjxapb_qR4=h310", "https://lh3.googleusercontent.com/T4o5-2_UP82sj4fSSegbjrGmslNHlfvtEYuZacXMSOC55-7eyiKySw05lNF1QQGO2FeU=h310", "https://lh3.googleusercontent.com/f2ennaLdivFu5cQQaVPKsRcWxB8FS5T4Bkoy3l0iPW9-GDDnTVRhvR5kz6l4m8FL1c8=h310", "https://lh3.googleusercontent.com/H-9M03_-O9Df1nHr2-rUdjtk2aeBY3bAxnqSX3m2zh_aV8-K1t0qU1DxLXnK0GrDAw=h310" ], "created": "2012-03-22T08:24:00+00:00", "developer": "Rovio Entertainment Ltd.", "number_ratings": 20812, "price_currency": "$", "icon": "https://lh3.ggpht.com/aQaIEGrmba1ENSEgUtArdm3yhJUug7BRWlu_WaspoJusZyHv1rjlWtYqe_qRjE_Kmh1E=w300", "icon_72": "https://lh3.ggpht.com/aQaIEGrmba1ENSEgUtArdm3yhJUug7BRWlu_WaspoJusZyHv1rjlWtYqe_qRjE_Kmh1E=w72", "market_url": "https://play.google.com/store/apps/details?id=com.rovio.angrybirdsspace.premium&referrer=utm_source%3D42matters.com%26utm_medium%3Dapi" } 

    Spero che questo aiuti, altrimenti senta libero di entrare in contatto con me. Conosco bene questo argomento e ti posso indicare nella giusta direzione.

    Saluti,

    Andrea

    Google non impedisce la scansione di pagine di / store / apps.

    Non c'è alcuna menzione di "/ store / apps" nel robot.txt

    Vedi https://play.google.com/robots.txt

    L'Android è un fan Android di Google, tutto su telefoni Android, Android Wear, Android Dev e applicazioni Android Games e così via.