频道导航

【knn临近算法】预测年收入

2020-11-18 算法前端之家

前端之家收集整理的这篇文章主要介绍了【knn临近算法】预测年收入，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

import numpy as np
 pandas as pd 
from sklearn.neighbors import KNeighborsClassifier # 导入knn学习包

salary = pd.read_csv("./adults.txt")
salary.head()

#样本数据的提取
y = salary['salary']
X = salary.iloc[:,[0,1,3,5,6,8,9,-2,-3]]
X.head()

 数据去重 用于下面函数的理解
u = X[occupation].unique()
u

 np.argwhere此方法找到对应名称的索引
np.argwhere(u == Exec-managerial")[0,0]   np.argwhere

X.columns[2:-1]

 2:-1列的所有数据映射
for col in X.columns[1:-1]:   遍历所有类名
    
    u = X[col].unique()    类似上面的u = X['occupation'].unique()  得出每个分类下面的种类名称
#     print(col)

    def convert(x):   将上面得出的u 进行索引映射         print(x)
        return np.argwhere(u == x)[0,1)">  将上面得出的u 进行索引映射
    
    X[col] = X[col].map(convert)   将上面得出的u 进行索引映射
    
X.head()

 切分训练集跟测试集
from sklearn.model_selection  train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.2)   切分
print(X_train.shape,X_test.shape,y_train.shape,y_test.shape)

 预测测试
knn = KNeighborsClassifier(n_neighbors=8)

knn.fit(X_train,y_train)   计算公式

y_ = knn.predict(X_test)  预测值

from sklearn.metrics import accuracy_score  计算分类预测的准确率

 求出预测准确率
accuracy = accuracy_score(y_test,y_)

print(预测准确率: ",accuracy)

总结：难度在于数据的预处理

上一篇：【knn近邻算法】算法实现的简单原理下一篇：【随机梯度下降】理解与使用

猜你在找的算法相关文章

计算斐波那契数（java）

计算斐波那契数【lintcode】366 描述查找斐波纳契数列中第 N 个数。所谓的斐波纳契数列...

作者：前端之家时间：2021-03-06

二分搜索树

1.二分搜索树特点：每个节点的键值大于左孩子；每个节点的键值小于右孩子；以左右孩子为根...

作者：前端之家时间：2021-02-25

Java算法（一）

【程序1】题目：古典问题：有一对兔子，从出生后第3个月起每个月都生一对兔子，小兔子长到...

作者：前端之家时间：2021-02-25

O(n*logn)级别的算法之二（快速排序）的三种实现方法详解及其与归并排序的对比

一，单路快排1.测试用例： 2.归并排序： 3.优化时要用的插入排序： 4.单路快排实现：图解...

作者：前端之家时间：2021-02-25

Java 算法(二)

【程序9】题目：一个数如果恰好等于它的因子之和，这个数就称为"完数"...

作者：前端之家时间：2021-02-25

选择排序的实现以及性能测试

用C++语言实现选择排序(Selection sort)是一种简单直观的排序算法。它的工作原理是...

作者：前端之家时间：2021-02-25

LeetCode283移动零问题java高效解法

一、题目：给定一个数组 nums，编写一个函数将所有 0 移动到数组的末尾，同时保持非零元素...

作者：前端之家时间：2021-02-25

链表常见的题型（java实现）

链表是面试中最常见的一种题型，因为他的每个题的代码短，短短的几行代码就可以体现出应聘...

作者：前端之家时间：2021-02-25

冒泡排序的实现和优化及其与插入，选择排序的比较

备注：这里使用的插入排序和选择排序都是经过优化后的详细优化请查看上一条博客，编译器使...

作者：前端之家时间：2021-02-25

四个O(n^2)级别的排序性能测试

测试环境为DEV-C++，并且选择排序，插入排序，冒泡排序，均为优化后的，若想了解具...

作者：前端之家时间：2021-02-25

编程分类

算法设计模式多媒体技术正则表达式 Elasticsearch Flink Hadoop IDE

最新文章