Kunstmatige intelligentie en machinaal leren zijn de technologieën die in de voorhoede staan van wat de wereld 4 wordt genoemdth industriële revolutie. Sinds het begin van het menselijk ras heeft de mens ernaar gestreefd om de efficiëntie van ons leven en werken te verbeteren. Aanvankelijk vertrouwden de mensen op eenvoudige handenarbeid en vindingrijkheid. Wij geloven dat de mens zo dingen heeft voortgebracht als de piramides, de Chinese muur en Stonehenge. Toen kwam de eerste industriële revolutie, die mechanisatie, stoom en waterkracht introduceerde en vooruitgang bracht in productie, reizen en verstedelijking. De tweede revolutie werd aangewakkerd door de uitvindingen van massaproductie en elektriciteit. De introductie van elektronische en digitale technologieën markeerde de derde revolutie en zaken als computers en internet. Vandaag gaan we een nieuw tijdperk binnen, mogelijk gemaakt door enorme vooruitgang en praktische toepassing van kunstmatige intelligentie en machine learning.
MENS versus MACHINE
Kunstmatige intelligentie is bedoeld om mensen te helpen efficiënter te werken door tijd, geld en de menselijke intelligentie die nodig is om routinetaken uit te voeren drastisch te verminderen. Kortom, computers krijgen zelflerend vermogen, zodat ze nauwkeurig uitkomsten kunnen voorspellen, patronen kunnen identificeren en automatisch aanpassingen kunnen maken, op basis van zowel vroegere als huidige informatie. De machine begint in sommige gevallen efficiënter en net zo slim te worden als het menselijk ras.
Het potentieel van computers die zo slim (of zelfs slimmer dan) mensen worden bij het uitvoeren van bepaalde taken, roept de discussie op over "mens versus machine". Ongeacht iemands overtuiging, een ding waar we het allemaal over eens kunnen zijn, is dat mensen iets hebben dat computers waarschijnlijk nooit zullen hebben: emotie, intuïtie en onderbuikgevoel.
Wanneer mensen debatteren over kunstmatige intelligentie, maken ze vaak ruzie over welke machine learning-categorieën of algoritmen het beste zijn. Machine learning-algoritmen worden over het algemeen onderverdeeld in 3 typen, zonder toezicht zonder voorafgaande kennis van de labels (gelabelde gegevens), gecontroleerd met enige kennis van de labels (gelabelde gegevens) en wapening, die tussen de twee typen in zit. Er zijn meer specifieke algoritmen van deze categorieën, zoals KNN, K-middelen, beslissingsboom, SVM, kunstmatige neurale netwerken, Q-learning, enz. Dus, welke is beter? Zoals alles in het leven heeft alles voor- en nadelen, en als het gaat om machine learning, heb ik de neiging om niet over het model zelf te debatteren, maar het gesprek om te leiden naar de kwaliteit van de gegevens. Machine learning-modellen werken bovenop gegevens en zonder de juiste hoeveelheden en kwaliteit van gegevens en soorten gegevens kan het machine learning-model onbruikbaar worden, hoe goed het in theorie ook is. Dit is niet bedoeld om de impact van het selecteren van de juiste machine learning-algoritmen te verminderen. De data en de algoritmen moeten elkaar aanvullen om specifieke use cases op te lossen.
GEGEVENS IS PARAMOUNT
At Stellaire Cyber we zijn ons bedrijf begonnen met een prioritaire missie: het verzamelen van gegevens - veel gegevens - en, nog belangrijker, de rechts soorten gegevens om het probleem met de detectie van inbreuken op te lossen. Zodra de gegevens zijn verzameld, zuiveren we deze door ontdubbeling, normalisatie en een aantal andere dingen uit te voeren. Vervolgens brengen we de gegevens in verband met andere stukjes informatie, zoals de informatie over bedreigingen, de beschikbaarheid van een bestandsdownload, de geografische locatie van een IP-adres en meer. Deze verrijking geeft een betere context aan de dataset als geheel. Het resultaat van dit proces levert schone data op, verrijkt met context. Pas nadat deze belangrijke taken zijn voltooid, voeren we machine learning uit.
AI MET BEPERKTE VERSUS VOLLEDIGE GEGEVENS
Laten we eens kijken naar een voorbeeld van hoe banken creditcardfraude opsporen. Als een klant normaal gesproken alleen zijn creditcard gebruikt in San Jose, Californië, maar voor het eerst naar Tokio, Japan reist en deze kaart probeert te gebruiken, markeren sommige banken dat als een anomalie en deactiveren ze de creditcard. Dit zorgt er vaak voor dat de klant in verlegenheid wordt gebracht en gefrustreerd wanneer een handelaar hem vertelt dat de kaart is geweigerd. Hoewel dit echt een "machine-aangeleerde" anomalie kan zijn, is het mogelijk dat dit niet de deactivering van de creditcard rechtvaardigt, aangezien dit legitiem gebruik van de kaart kan zijn.
De oorzaak van het bovenstaande probleem komt meestal naar voren omdat de gegevens zelf singulier zijn (alleen locatie van het kaartgebruik) en geen context hebben, zoals het tijdstip waarop de kaart voor het laatst werd gebruikt, waar deze werd gebruikt of hoe deze werd gebruikt. Als een systeem andere stukjes informatie zou correleren, zoals de tijd, locatie, afstand tussen locaties, reputatie van een locatie of hoe het werd gebruikt (bijvoorbeeld een kaartterminal of website), zou een algoritme voor machine learning de daadwerkelijke fraude beter kunnen bepalen.
Neem een ander voorbeeld van een kaart die om 4:00 uur PST in San Jose, Californië, wordt gebruikt, maar diezelfde dag om 5:00 uur PST in een kleine stad in de Oekraïne opnieuw wordt gebruikt. De kans dat dit fraude is, zou veel groter zijn dan in het vorige voorbeeld. De gecorreleerde gegevens om tot een dergelijke conclusie te komen, zouden de Time to het zou duren om de afstand aan de Oekraïne, na gebruik in Sint Josef, en het gebruik van de kaart in een kleine stad (reputatie kleine, niet bezochte stad) in de Oekraïne.
SLOTOPMERKINGEN
Dit illustreert hoe kunstmatige intelligentie erg nuttig kan zijn bij het voltooien van repetitieve taken met veel gegevens die mensen moe worden van het uitvoeren en analyseren van die gegevens om problemen op te lossen. Maar zal de technologie mensen vervangen? Ik heb de neiging om van niet te denken. AI kan je 90% + opleveren bij het oplossen van repetitieve taken, maar 10% + van de inspanning zal altijd nodig zijn om de uiteindelijke beslissing voor een probleem te nemen. Bovendien kunnen we, net als bij andere verbeteringen in efficiëntie, onze vrijgekomen tijd hergebruiken om nog meer werk te doen dan voorheen. Is het ene algoritme voor machine learning beter dan het andere? Ik geloof dat het antwoord ligt in het begrijpen van het probleem dat men probeert op te lossen, en ik geloof ook dat de kwaliteit van de gegevens net zo belangrijk is als het algoritme zelf.
John Peterson
SVP Productlijnbeheer
Stellaire Cyber


