Hacer ciencia de datos en la nube con scraperwiki
Si tienes las chuletas mentales, un instinto para la programación y la narración, y un ojo para el diseño, se puede hacer peor que entrar en la ciencia de datos. Es la nueva gran cosa en Tecnología en muy de moda y muy bien pagados, con científicos de datos que son buscados por algunas de las empresas más grandes del mundo.
ScraperWiki es una empresa que ha sido asociado con el campo de la ciencia de datos. En los últimos años, esta empresa con sede Liverpool ha ofrecido una plataforma para los programadores escribir herramientas que reciben los datos, limpiarlo y analizarlo en la nube.
Con una actualización reciente y la demanda siempre creciente de científicos de datos en la empresa, vale la pena echar un buen vistazo a ScraperWiki.
La revelación completa: yo era pasante en ScraperWiki el verano pasado.
Lo que hace ScraperWiki Do?
ScraperWiki comercializa como un lugar para obtener, limpio y analizar los datos, y se ofrece en cada uno de esos aspectos. En su forma más simple, que le permite - el usuario - un lugar donde se puede escribir código que recupera datos de una fuente, herramientas para convertirlo en un formato que es fácil de analizar y de almacenamiento para mantenerlo para la visualización posterior - que también puede manejar con ScraperWiki.
Vídeo: ✅ Red WAN (3 diferentes Ciudades) Nube- Frame Relay-Packet Trace
También viene con una serie de herramientas pre-construidos que automatizan tareas repetitivas, incluyendo la obtención de datos de los archivos PDF, que son notoriamente difíciles de descifrar. Esto es además de búsqueda de Twitter y raspando utilidades. Usted no necesita ninguna experiencia de desarrollo de software a utilizar estos.5 Lo más trucos de búsqueda de Twitter para controlar lo que se dice sobre usted5 Lo más trucos de búsqueda de Twitter para controlar lo que se dice sobre ustedSi usted es dueño de un sitio web, o está tratando de ganar dinero en línea como un profesional independiente, siempre es bueno saber lo que dice la gente acerca de usted a través de Internet. La gente puede estar citando ...Lee mas
Costo
Como se mencionó anteriormente, ScraperWiki abraza el modelo de precios freemium y ofrece un servicio que tiene múltiples niveles. Quienes se inician con la ciencia de datos o con necesidades limitadas pueden hacer uso del servicio gratuito. Esto le da tres conjuntos de datos - en donde almacena los datos y el código.
Aquellos que planean escribir varios raspadores o querer hacer montañas de análisis de datos pueden desembolsar algo de dinero para una cuenta premium. Estos comienzan en $ 9 por mes y ofrecen 10 conjuntos de datos. Si eso es aún no es suficiente, siempre se puede actualizar a su nivel más alto que viene con 100 conjuntos de datos y cuesta $ 29 por mes.
Codificación
Los programadores son a menudo bastante particular, cuando se trata de la forma en que el código. Algunos prefieren los lenguajes de script sobre lenguajes compilados. Algunos prefieren la experiencia de devolución recortado de un editor de texto sobre la de un entorno de desarrollo integrado (IDE). ScraperWiki reconoce que, y le da al usuario una gran cantidad de opciones cuando se trata de la forma de escribir el código.
Si usted está tan inclinado, se puede escribir el código en el navegador. Como era de esperar de cualquier grado profesional, basado en web herramienta de desarrollo, esto viene con características que cualquier programador considera esenciales, tales como el resaltado de sintaxis.El Top 3 basado en navegador de IDE para codificar en la nubeEl Top 3 basado en navegador de IDE para codificar en la nubeLee mas
Hay un número de idiomas que se ofrecen. Éstas incluyen Pitón, en un lenguaje popular utilizado por empresas como Google y NASA- Rubí, que alimenta una serie de sitios web populares, tales como la vida social-y el lenguaje popular de análisis estadístico, R.
Vídeo: Científicos industria argentina - Internet y la nube
Además, también se puede escribir código desde la línea de comandos mediante SSH, Git y cualquier editor de texto que lo disfrute. Sí, lo leiste bien. SSH. Cada caja que se utiliza es su propia cuenta de Linux, y que son capaces de conectarse a él como si fuera un VPS o cualquier otra cuenta shell. Hay una serie de editores de texto disponibles, incluyendo Empuje que se puede ampliar con plugins y mediante la edición de la configuración. Aquellos intimidar por Vim puede utilizar Nano, que es un editor de texto ligero de línea de comandos.Es lo SSH & ¿Cómo es diferente de FTP [Tecnología Explicación]Es lo SSH & ¿Cómo es diferente de FTP [Tecnología Explicación]Lee mas
Las bibliotecas instaladas deben ser suficientes para desarrollo de herramientas para recuperar datos y procesarlo. Si necesita algo un poco más oscura, siempre se puede crear un virtualenv desde la línea de comandos. Como se puede ver, hay una gran cantidad de flexibilidad que ofrece a los desarrolladores.
Visualización de datos
Por lo tanto, usted tiene sus datos. Usted ha normalizado la misma. Que haya limpiado la misma. Usted ha analizado ella. Ahora es el momento de hacer algo de visualización y mostrar al mundo lo que ha aprendido.
ScraperWiki permite a los desarrolladores para mostrar sus datos a través de páginas web construidas a partir de la trifecta todo familiar de HTML, CSS y javascript. Además, los componentes Bootstrap son compatibles fuera de la caja.
Hay una serie de visualizaciones pre-hechos disponibles, incluidos los que traza sus datos en un mapa y determinar las tendencias dentro de sus hallazgos. Para utilizar estos, es necesario asegurarse de que sus datos se almacena como archivo de SQLite con el nombre ‘scraperwiki.sqlite`. Entonces sólo tiene que añadir la visualización que le interesa. Simple, ¿verdad?
Conclusión
ScraperWiki ofrece una gran cantidad de desarrolladores que quieran hacer algo de análisis de datos sin su entorno de desarrollo de ponerse en su camino, mientras que tener la flexibilidad necesaria para satisfacer incluso a los más exigentes de los usuarios. Pero ¿qué piensas? Déjame saber abajo en los comentarios.
Crédito de la imagen: Rocket Science (Dan Brown)