Datenklassifizierung mit verschiedenen Lernalgorithmen: Aktuelle Schulnachrichten

Datenklassifizierung mit verschiedenen Lernalgorithmen

Abgelegt in Informatik Projektthemen, Aktuelle Projekte by am Dezember 8, 2022

 – Datenklassifizierung mit verschiedenen Lernalgorithmen –

Herunterladen Datenklassifizierung mit verschiedenen Lernalgorithmen Projektmaterialien: Dieses Projektmaterial ist bereit für Studenten, die es benötigen, um ihre Forschung zu unterstützen.

ABSTRACT  

Dimensionsreduzierung bietet eine kompakte Darstellung einer ursprüngliche hochdimensionale Daten, Das bedeutet, dass die reduzierten Daten nicht weiter verarbeitet werden und nur die wesentlichen Informationen erhalten bleiben. Aus diesem Grund ist es ein unschätzbarer Vorverarbeitungsschritt vor der Anwendung vieler Algorithmen für maschinelles Lernen die bei hochdimensionalen Daten schlecht abschneiden. In dieser Arbeit wird der Perzeptron-Klassifizierungsalgorithmus – ein eifriger Lerner – auf drei Zwei-Klassen-Datensätze (Studenten-, Wetter- und Ionosphären-Datensätze) angewendet.

Der Klassifikationsalgorithmus k-Nearest Neighbors – ein fauler Lerner – wird auch auf die gleichen Zwei-Klassen-Datensätze angewendet. Jeder Datensatz wird dann unter Verwendung von fünfzehn verschiedenen Techniken zur Dimensionsreduktion reduziert. Das Perzeptron und k-Nächste-Nachbar-Klassifizierung Algorithmen werden auf jeden reduzierten Satz angewendet und die Leistung (bewertet unter Verwendung einer Konfusionsmatrix) der Dimensionsreduktionstechniken wird verglichen, indem die Klassifizierung eines Datensatzes durch die k-nächsten Nachbarn und Perzeptron-Klassifizierungsalgorithmen beibehalten wird.

Diese Untersuchung ergab, dass die in dieser Dissertation implementierten Techniken zur Dimensionsreduktion bei der Erhaltung der K-Nearest Neighbor-Klassifikation viel besser zu funktionieren scheinen als bei der Erhaltung der Klassifizierung der Originaldatensätze mit dem Perzeptron. Im Allgemeinen erweisen sich die Techniken zur Dimensionsreduktion als sehr effizient bei der Erhaltung der Klassifizierung sowohl der faulen als auch der eifrigen Lernenden, die für diese Untersuchung verwendet wurden. 

EINFÜHRUNG  

Datenvolumen und -vielfalt nehmen mit alarmierender Geschwindigkeit zu, was jeden Versuch, nützliche Informationen aus diesen großen Datenmengen zu gewinnen, sehr mühsam macht. Das Extrahieren oder Mining nützlicher Informationen und versteckter Muster aus den Daten wird immer wichtiger, kann aber gleichzeitig sehr herausfordernd sein. Viele Forschungsarbeiten in Bereichen wie Biologie, Astronomie, Ingenieurwesen, Verbrauchertransaktionen und Landwirtschaft befassen sich täglich mit umfangreichen Beobachtungen.

Herkömmliche statistische Techniken stoßen bei der Analyse dieser Datensätze aufgrund ihrer großen Größe auf einige Herausforderungen. Die größte Herausforderung ist die Anzahl der Variablen (Dimensionen), die jeder Beobachtung zugeordnet sind. Allerdings sind nicht alle Dimensionen erforderlich, um das untersuchte Phänomen in High-dimensionale Datensätze; Dies bedeutet, dass die Verringerung der Dimension des Datensatzes die Genauigkeit und Effizienz der Analyse verbessern kann.

Mit anderen Worten, es ist eine große Hilfe, wenn wir eine Menge von Punkten, sagen wir n, im d-dimensionalen Raum in einen p-dimensionalen Raum abbilden können - wo p < dso dass die inhärenten Eigenschaften dieses Satzes von Punkten, wie ihre Zwischenpunktabstände, ihre Beschriftungen usw., keine große Verzerrung erfahren. Dieser Vorgang wird als Dimensionsreduzierung bezeichnet. Es gibt viele Methoden, um die Dimensionalität von Daten zu reduzieren.

Es gibt zwei Kategorien dieser Methoden; In der ersten Kategorie ist jedes Attribut im reduzierten Datensatz eine lineare Kombination der Attribute des ursprünglichen Datensatzes. In der zweiten Kategorie ist der Satz von Attributen im reduzierten Datensatz ein Teil des Satzes von Attributen im ursprünglichen Datensatz. 

REFERENZEN

N. Sharma und K. Saroha, „Untersuchung von Dimensionsreduktionsmethoden im Data Mining“,
in International Conference on Computing, Communication and Automation, 2015, S.
133-137.

IK Fodor, „Ein Überblick über Techniken zur Dimensionsreduzierung“, Center for Applied Scientific
Computing, Lawrence Livermore National Laboratory, No. 1, S. 1–18, 2002.

D. Achlioptas, „Datenbankfreundliche Zufallsprojektionen: Johnson-Lindenstrauss mit Binär
Münzen “, J. Comput. Syst. Sci., Vol. 66, nein. 4, S. 671–687, 2003.

AS Nsang, I. Diaz und A. Ralescu, „Ensemble Clustering basierend auf Heterogenität
Methoden zur Reduzierung der Dimensionalität und kontextabhängige Ähnlichkeitsmaße “, Int. J. J.
Adv. Sci. Technol., Vol. 64, S. 101–118, 2014.

AS Nsang, A. Maikori, F. Oguntoyinbo und H. Yusuf, „Ein neuer zufälliger Ansatz für
Reduzierung der Dimensionalität “in Int'l Conf. zu Fortschritten in der Big Data Analytics | ABDA'15 |,
2014, vol. 60, nein. 6, S. 2114–2142.

DH Deshmukh, T. Ghorpade und P. Padiya, „Verbesserung der Klassifizierung mit
Vorverarbeitungs- und maschinelle Lernalgorithmen für NSL-KDD-Datensätze “in Proceedings -
2015 Internationale Konferenz für Kommunikation, Information und Computing
Technologie, ICCICT 2015, 2015.

I. Kalamaras, "Ein neuartiger Ansatz zur Reduzierung der multimodalen Graphdimensionalität"
Imperial College London, 2015.

I. Kavakiotis, O. Tsave, A. Salifoglou, N. Maglaveras, I. Vlahavas und I. Chouvarda,
"Methoden des maschinellen Lernens und Data Mining in der Diabetesforschung", Comput. Struct.
Biotechnol. J., vol. 15, S. 104–116, 2017.

TM Mitchell, Maschinelles Lernen, vol. 1, nein. 3. 1997.

SB Kotsiantis, „Überwachtes maschinelles Lernen: Eine Überprüfung der Klassifizierungstechniken“
Informatica, vol. 31, S. 249–268, 2007.

CSN-Team.

Tags: , , ,

Kommentarfunktion ist abgeschaltet.

Hallo Hi

Verpassen Sie diese Gelegenheit nicht

Geben Sie ihre Details ein