より倚くのデヌタセットが必芁です。音楜、ITスキル、猫



こんにちは、Habr最近では 、最初の教育デヌタトンの䞀郚ずしお、NUST MISISずZavtra.OnlineSkillFactoryの倧孊孊郚のデヌタサむ゚ンス倧孊院生のチヌムによっお集められたオヌプンデヌタセットに぀いお曞きたした。そしお本日、ファむナルに到達したチヌムからの3぀のデヌタセットを玹介したす。



それらはすべお異なりたす。音楜垂堎を調査した人もいれば、ITスペシャリストの劎働垂堎を調査した人もいれば、飌い猫を研究した人もいたす。これらのプロゞェクトはそれぞれ独自の分野に関連しおおり、通垞の䜜業過皋で䜕かを改善するために䜿甚できたす。たずえば、猫のデヌタセットは、展瀺䌚の審査員に圹立ちたす。孊生が収集する必芁のあるデヌタセットはMVPテヌブル、json、たたはディレクトリ構造である必芁があり、デヌタをクリヌンアップしお分析する必芁がありたした。圌らが䜕をしたか芋おみたしょう。






デヌタセット1デヌタサヌファヌで音楜の波を滑る



䞊ぶ



  • Plotnikov Kirill-プロゞェクトマネヌゞャヌ、開発、ドキュメント。
  • Dmitry Tarasov-開発、デヌタ収集、文曞化。
  • Shadrin Yaroslav-開発、デヌタ収集。
  • Merzlikin Artyom-プロダクトマネヌゞャヌ、プレれンテヌション。
  • KseniaKolesnichenko-予備的なデヌタ分析。


ハッカ゜ンぞの参加の䞀環ずしお、チヌムメンバヌはいく぀かの異なる興味深いアむデアを提案したしたが、SpotifyずMusicBrainzからロシアの音楜アヌティストずそのベストトラックに関するデヌタを収集するこずに焊点を圓おるこずにしたした。



Spotifyは、それほど前にロシアに登堎した音楜プラットフォヌムですが、すでに垂堎で積極的に人気を集めおいたす。さらに、デヌタ分析の芳点から、Spotifyは非垞に䟿利なAPIを提䟛し、「ダンス性」などの独自の指暙を含む倧量のデヌタをク゚リする機胜を提䟛したす。スコアは0から1で、トラックの良さを衚したす。ダンスのために。



MusicBrainz既存および既存の音楜グルヌプに関する最も完党な情報を含む音楜癟科事兞です。䞀皮の「ミュヌゞカルりィキペディア」。ロシアからすべおの出挔者のリストを取埗するには、このリ゜ヌスからのデヌタが必芁でした。



アヌティストデヌタの収集



さたざたなアヌティストの14363のナニヌクな゚ントリを含むテヌブル党䜓をたずめたした 。ナビゲヌトしやすくするために、スポむラヌの䞋にテヌブルフィヌルドの説明がありたす。



テヌブルフィヌルドの説明
artist – ;

musicbrainz_id – Musicbrainz;

spotify_id – Spotify, ;

type – , Person, Group, Other, Orchestra, Choir Character;

followers – Spotify;

genres – ;

popularity – Spotify 0 100, .









1぀の囜に関連付けられおいるアヌティストのリストを取埗する機䌚があるため、レコヌドフィヌルドのアヌティスト、musicbrainz_id、およびtypeの䟋はMusicbrainz音楜デヌタベヌスから取埗されたす。このデヌタを取埗するには、次の2぀の方法がありたす。



  1. ロシアに関する情報を含むペヌゞのアヌティストセクションを解析したす。
  2. APIを介しおデヌタを取埗したす。MusicBrainzAPI

    ドキュメントMusicBrainzAPI

    ドキュメント怜玢

    䟋musicbrainz.orgのGETリク゚スト



䜜業の過皋で、MusicBrainz APIは、AreaRussiaパラメヌタヌを䜿甚したリク゚ストに完党に正しく応答せず、IzhevskやMoskvaなどのAreaが指定されおいるアヌティストを非衚瀺にしおいるこずが刀明したした。したがっお、MusicBrainzからのデヌタは、パヌサヌがサむトから盎接取埗したものです。以䞋は、デヌタが解析されたペヌゞの䟋です。





Musicbrainzのアヌティストに぀いお取埗したデヌタ。



残りのフィヌルドは、゚ンドポむントぞのGET芁求の結果ずしお取埗され たす。リク゚ストを送信するずきは、qパラメヌタヌの倀にアヌティストの名前を指定し、typeパラメヌタヌの倀にアヌティストを指定したす。



人気のトラックに関するデヌタの収集



この衚には、䞊の衚に瀺されおいる、ロシアのアヌティストによる最も人気のあるトラックの44473レコヌドが含たれおいたす。スポむラヌの䞋には、テヌブルフィヌルドの説明がありたす。



テヌブルフィヌルドの説明
artist – ;

artist_spotify_id – Spotify ( , spotify_id );

name – ;

spotify_id – Spotify;

duration_ms – ;

explicit – , true false;

popularity – Spotify *;

album_type – , album, single compilation;

album_name – ;

album_spotify_id – Spotify;

release_date – ;

album_popularity – Spotify.



オヌディオ機胜
key – , , 0 = C, 1 = C♯/D♭, 2 = D ..;

mode – , – 1, – 0;

time_signature – ;

acousticness – 0,0 1,0 , ;

danceability – , 0,0 1,0;

energy – 0,0 1,0;

instrumentalness – , , 0,0 1.0;

liveness – , 0,0 1,0;

loudness – , -60 0 ;

speechiness – , 0,0 1,0;

valence – «», , 0,0 1,0;

tempo – .



各パラメヌタの詳现に぀いおは、 こちらをご芧ください。





レコヌドの䟋



フィヌルドname、spotify_id、duration_ms、explicit、popularity、album_type、album_name、album_spotify_id、release_dateは、のGETリク゚ストを䜿甚しお取埗されhttps://api.spotify.com/v1//v1/artists/{id}/top-tracks



、以前に受け取ったアヌティストのSpotifyID のIDを指定したす。垂堎パラメヌタのRUを指定したす。 ドキュメント。

 

album_popularityフィヌルドはhttps://api.spotify.com/v1/albums/{id}



、先に取埗したalbum_spotify_idをidパラメヌタヌの倀ずしお指定しお、のGETリク゚ストを行うこずで取埗でき たす。 ドキュメント。 

 

その結果、デヌタを取埗し たすSpotifyアヌティストからの最高のトラックに぀いお。ここでの課題は、オヌディオ機胜を取埗するこずです。これは2぀の方法で行うこずができたす。



  1. 1぀のトラックに関するデヌタを取埗するにはhttps://api.spotify.com/v1/audio-features/{id}



    、そのSpotify IDをidパラメヌタヌの倀ずしお指定しお、のGETリク゚ストを行う必芁がありたす。ドキュメント。 

  2. 䞀床に耇数のトラックに関するデヌタを取埗するには、にGETリク゚ストを送信し、https://api.spotify.com/v1/audio-features



    これらのトラックのSpotifyIDをコンマで区切っおidsパラメヌタヌの倀ずしお枡す必芁がありたす。ドキュメント。 



すべおのスクリプトは、このリンクのリポゞトリにありたす 。



デヌタを収集した埌、以䞋に芖芚化されおいる予備分析を実斜したした。







結果



その結果、14363人のアヌティストず44473人のトラックのデヌタを収集するこずができたした。 MusicBrainzずSpotifyのデヌタを組み合わせるこずで、Spotifyプラットフォヌムで衚珟されおいるすべおのロシアの音楜アヌティストのこれたでで最も完党なデヌタセットを取埗したした。



このようなデヌタセットにより、音楜分野でB2BおよびB2C補品を䜜成できたす。たずえば、コンサヌトを開催できるプロモヌタヌにパフォヌマヌを掚薊するシステムや、若いパフォヌマヌが人気になる可胜性が高いトラックを䜜成するのに圹立぀システムなどです。たた、デヌタセットに最新のデヌタを定期的に補充するこずで、音楜の特定のトレンドの圢成ず人気の高たりなど、音楜業界のさたざたなトレンドを分析したり、個々の挔奏者を分析したりできたす。デヌタセット自䜓はGitHubで衚瀺できたす 。  



デヌタセット2雇甚垂堎を調査し、「ハリネズミは明確」で䞻芁なスキルを特定したす



䞊ぶ



  • Andrey Pshenichny-デヌタの収集ず凊理、デヌタセットぞの分析ノヌトの曞き蟌み。
  • Pavel Kondratenok-プロダクトマネヌゞャヌ、デヌタ収集ずそのプロセスの説明、GitHub。
  • SvetlanaShcherbakova-デヌタの収集ず凊理。
  • EvseevaOksana-プロゞェクトの最終プレれンテヌションの準備。
  • ElfimovaAnna-プロゞェクトマネヌゞャヌ。


私たちのデヌタセットでは、2020幎10月のサむトhh.ruのITおよびテレコム分野からロシアの欠員に関するデヌタを収集するずいうアむデアを遞択したした。



スキルデヌタ収集



すべおのナヌザヌカテゎリで最も重芁な指暙はキヌスキルです。ただし、それらを分析する際に問題が発生したした。空垭デヌタを入力するずきに、HRはリストから䞻芁なスキルを遞択し、手動で入力するこずもできるため、倚数の重耇するスキルず誀ったスキルがデヌタセットに入力されたしたたずえば、キヌスキルの名前「0.4Kb」に遭遇したした。結果のデヌタセットを分析するずきに問題を匕き起こしたもう1぀の問題がありたす。空垭の玄半分だけに絊䞎に関するデヌタが含たれおいたすが、別のリ゜ヌスたずえば、リ゜ヌスMy CircleたたはHabr.Careerからの平均絊䞎むンゞケヌタヌを䜿甚できたす。



たず、デヌタ収集ず詳现な分析から始めたした。次に、デヌタをサンプリングしたした。぀たり、デヌタマむニング、品質、および技術的制玄ボリュヌムずタむプの目的での関連性を考慮しお、機胜機胜、぀たり予枬子ずオブゞェクトを遞択したした。



ここでは、職務蚘述曞の必須スキルのタグでスキルに蚀及する頻床、空垭のどの特性が提案された報酬に圱響を䞎えるかを分析するのに圹立ちたした。同時に、8915の䞻芁なスキルが特定されたした。以䞋は、䞊䜍10の䞻芁なスキルずそれらが蚀及される頻床を瀺すグラフです。





IT欠員の最も䞀般的な䞻芁スキルであるテレコム



デヌタは、APIを䜿甚しおhh.ruWebサむトから取埗されたした。デヌタをアップロヌドするためのコヌドは ここにありたす。デヌタセットに必芁な機胜を手動で遞択したした。収集されたデヌタの構造ずタむプは、デヌタセットのドキュメントの説明で確認できたす 。

 

これらの操䜜の埌、34,513行のサむズのデヌタ​​セットを取埗したした。収集されたデヌタのサンプルを以䞋で確認できたす。たた、リンクもありたす 。





収集されたサンプルデヌタ



結果



その結果、さたざたな分野のITスペシャリストの間で最も求められおいるスキルを芋぀けるこずができるデヌタセットが埗られ、求職者初心者ず経隓者の䞡方、雇甚䞻、時間スペシャリスト、教育機関、䞻催者に圹立ちたす。䌚議の。デヌタを収集する過皋で、困難もありたした。兆候が倚すぎお、圢匏化されおいない蚀語候補者のスキルの説明で曞かれおおり、欠員の半分は絊䞎に関するオヌプンデヌタを持っおいたせん。デヌタセット自䜓はGitHub で衚瀺できたす 。



デヌタセット3チヌムAAでさたざたな猫をお楜しみください



䞊ぶ



  • EvgenyIvanov-りェブスクレむピングの開発。
  • Sergey Gurylev-補品マネヌゞャヌ、開発プロセスの説明、GitHub。
  • Yulia Cherganova-プロゞェクトプレれンテヌションの準備、デヌタ分析。
  • Elena Tereshchenko-デヌタ準備、デヌタ分析。
  • Yuri Kotelenko-プロゞェクトマネヌゞャヌ、ドキュメント、プロゞェクトプレれンテヌション。


猫専甚のデヌタセットどうしおだろうず思いたした。私たちの猫セットには、さたざたな品皮の猫のサンプル画像が含たれおいたす。



猫のデヌタを収集する



最初に、デヌタを収集するためにcatfishes.ruを遞択したした 。これには、必芁なすべおの利点がありたす。シンプルなHTML構造ず高品質の画像を備えた無料の゜ヌスです。このサむトの利点にもかかわらず、それは重倧な欠点を持っおいたした-䞀般に写真の数が少なくすべおの品皮で玄500、各品皮の画像の数が少ないです。したがっお、別のサむトlapkins.ruを遞択し たした。









HTML構造が少し耇雑なため、2番目のサむトのスクレむピングは最初のサむトよりも少し困難でしたが、HTML構造は簡単に理解できたした。その結果、2番目のサむトからすでに2600枚のすべおの品皮の写真を収集するこずができたした。

サむト䞊の猫の写真は高品質で品皮に察応しおいるため、デヌタをフィルタリングする必芁もありたせんでした。



サむトから画像を収集するために、Webスクレむパヌを䜜成したした。このサむトには、すべおの品皮のリストが蚘茉されたペヌゞlapkins.ru/catが含たれおいたす。このペヌゞを解析した埌、すべおの品皮の名前ず各品皮のペヌゞぞのリンクを取埗したした。それぞれの岩を繰り返しルヌプしお、すべおの画像を取埗し、適切なフォルダヌに配眮したした。スクレヌパヌコヌドは、次のラむブラリを䜿甚しおPythonで実装されたした。



  • urllibURLを操䜜するための関数。

  • htmlXMLおよびHTMLを凊理するための関数。

  • Shutilファむル、ファむルのグルヌプ、およびフォルダヌを凊理するための高レベルの関数。

  • OSオペレヌティングシステムを操䜜するための関数。



XPathを䜿甚しおタグを操䜜したした。







Cats_lapkinsディレクトリには、猫の品皮の名前に察応する名前のフォルダが含たれおいたす。リポゞトリには、品皮ごずに64のディレクトリが含たれおいたす。合蚈で、デヌタセットには2600枚の画像が含たれおいたす。すべおの画像は.jpg圢匏です。ファむル名の圢匏たずえば、「Abyssinian cat 2.jpg」では、最初に品皮の名前が衚瀺され、次に番号サンプルのシリアル番号が衚瀺されたす。







結果



このようなデヌタセットは、たずえば、飌い猫を品皮別に分類するモデルをトレヌニングするために䜿甚できたす。収集されたデヌタは、猫の䞖話の特城を刀断する、特定の品皮の猫に適した食事を遞択する、ショヌや審査時に品皮の䞀次識別を最適化するなどの目的で䜿甚できたす。Cotosetは、獣医クリニックや飌料メヌカヌなどの䌁業でも䜿甚できたす。コトセット自䜓はGitHubで無料で入手でき たす。



あずがき



デヌタトンの結果に基づいお、孊生はデヌタサむ゚ンティストポヌトフォリオの最初のケヌスず、Huawei、Kaspersky Lab、Align Technology、Auriga、Intellivision、Wrike、MerlinAIなどの䌁業のメンタヌからの䜜業に関するフィヌドバックを受け取りたした。 Datatonは、将来のデヌタサむ゚ンティストが実際のチヌムですでに䜜業するずきに必芁ずなる、プロファむルのハヌドスキルず゜フトスキルをすぐに掻甚できるずいう点でも圹立ちたした。たた、孊生ごずに背景が異なり、問題ずその解決策に぀いおの圌自身の芋解があるため、盞互の「知識亀換」の良い機䌚でもありたす。すでに存圚するいく぀かのビゞネスタスクず同様に、そのような実践的な䜜業がなければ、珟代䞖界の専門家のトレヌニングは単に考えられないこずだず自信を持っお蚀えたす。



修士課皋の詳现に぀いおは、りェブサむト data.misis.ruおよび Telegramチャネルをご芧ください。



たあ、そしおもちろん、単䞀の修士号ではありたせんデヌタサむ゚ンス、 機械孊習、ディヌプラヌニングに぀いお詳しく知りたい堎合は、察応するコヌスをご芧 ください。難しいですが、゚キサむティングです。たた、HABRプロモヌションコヌド は、バナヌの割匕に10を远加するこずで、新しいこずを孊ぶのに圹立ちたす。






画像






その他の職業やコヌス


















All Articles